Тип работы:
Предмет:
Язык работы:


Извлечение лингвистической информации из социальных медиа для предсказания трендов на рынке криптовалют

Работа №140601

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы89
Год сдачи2022
Стоимость4835 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
33
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Анализ лингвистической информации для предсказания тренда на рынке криптовалют 6
1.1. Лингвистические данные 6
1.2. Подходы к анализу лингвистических данных 9
1.3. Анализ тональности 11
1.3.1. Методы определения тональности с использованием словарных
ресурсов и правил 12
1.3.2. Методы определения тональности с
использованием машинного обучения 14
1.4. Тематическое моделирование 22
Выводы к Главе 1 27
Глава 2. Эксперименты по выявление трендов на рынке криптовалют на материале англоязычного корпуса текстов социальной сети Reddit 28
2.1. Крпитовалюты и источники лингвистической информации о них 28
2.2. Построение англоязычного корпуса текстов социальной сети Reddit 30
2.1.1 Биткоин 37
2.1.2 Эфириум 38
2.1.3 Доджкоин 39
2.1.4 Шиба ину 41
Глава 3. Анализ тональности публикаций англоязычного корпуса текстов социальной сети Reddit 43
3.1. Алгоритм анализа тональности публикаций англоязычного корпуса
текстов социальной сети Reddit 43
3.2. Результаты работы алгоритма анализа тональности публикаций
англоязычного корпуса текстов социальной сети Reddit 46
3.2.1. Биткоин 48
3.2.2 Эфириум 49
3.2.3. Доджкоин 50
3.2.4. Шиба ину 51
Выводы по 3 главе 53
Глава 4. Тематическое моделирование англоязычного корпуса текстов социальной сети Reddit 54
4.1. Подготовка данных и инструментов для тематического моделирования
англоязычного корпуса текстов социальной сети Reddit 54
4.2. Анализ результатов тематического моделирования 57
с помощью алгоритма LDA 57
4.2.1. Биткоин 57
4.2.2. Эфириум 60
4.2.3. Доджкоин 62
4.2.4. Шиба ину 65
4.3. Анализ результатов тематического моделирования с помощью
алгоритма BERTopic (стандартная модель) 67
4.3.1. Биткоин 67
4.3.2. Эфириум 68
4.3.3. Доджкоин 68
4.3.4. Шиба ину 70
4.4. Анализ результатов тематического моделирования с помощью
алгоритма BERTopic (динамическая модель) 70
4.4.1. Биткоин 70
4.4.2. Эфириум 73
4.4.3. Доджкоин 76
4.4.4. Шиба ину 78
Выводы по главе 4 81
Заключение 83
Список использованной литературы 85

С каждым годом всё больше людей увлекаются криптовалютами, а 2021 год был богат на новостные заголовки о многократном взлёте и падении цен на крипторынках. Люди обсуждают и делятся опытом покупки нового платёжного средства. В социальной сети Reddit даже существуют отдельные сообщества, состоящие из миллионов активных пользователей, где люди разделяют свои интересы и оказывают поддержку новой технологии.
Актуальность работы обусловлена стремительно растущим интересом к технологиям блокчейн и, в частности, криптовалютам. После скачка цен на акции компании GameStop из-за пользователей соцсети Reddit стало очевидно, что социальные сети и деятельность пользователей в них может оказывать влияние на фондовые рынки.
Объектом исследования является лингвистическая информация, ассоциированная с криптовалютами и их ролью на финансовом рынке. Предметом исследования является тональная оценка текстов, в которых обсуждаются криптовалюты, общая тематика публикаций о документах и взаимосвязи тем в статике и динамике.
Новизна исследования заключается в комплексном рассмотрении существования взаимосвязи между публикациями в социальной сети Reddit и трендами на рынке криптовалют.
Цель работы заключается в том, чтобы выявить взаимосвязь между пользовательской активностью в тематических группах в соцсетях и трендом на рынке криптовалют, а также определить варьируется ли сила этой связи в зависимости от конкретной криптовалюты.
Поставленная цель предполагает выполнение следующих задач:
1) изучить методы анализа тональности текста,
2) изучить методы тематического моделирования,
3) собрать корпус, состоящий из текстов постов и комментариев пользователей криптосообществ в Reddit за 2021 г.,
4) построить модель анализа тональности текстов корпуса,
5) построить стандартную тематическую модель корпуса,
6) построить динамическую тематическую модель корпуса,
7) сравнить полученные результаты и обобщить их.
Материалом для данного исследования стали англоязычные тексты публикаций в социальной сети Reddit.
В исследовании применяются методы квантитативной и корпусной лингвистики, машинного обучения, приемы лингвистического анализа, тематического моделирования и тонального анализа.
Теоретическая значимость исследования заключается в установлении связей между лингвистическими данными о тональности и тематике текстов с экстралингвистическими параметрами описываемого в них явления (рынок криптовалют).
Практическое применение результатов исследования возможно в различных областях финансовой деятельности, комбинирующей приемы лингвистической обработки текстовой информации и работу с экономическими данными, предполагающей операции с криптовалютами и прогнозирование их рынка.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Наше исследование показало, что количество публикаций в тематических сообществах социальной сети Reddit не имеет никакой корреляции с ценой на соответствующую криптовалюту. Однако, мы обнаружили, что пользовательская поддержка криптовалюты может быть сильной несмотря на то, что данный криптоактив ещё не торгуется на криптобиржах и не имеет реальной стоимости в фиатной валюте.
Тональность публикаций имеет разную корреляцию по отношению к изменению объёма, цены и волатильности в зависимости от криптовалюты. У эфириума выявлена корреляция слабой силы с изменением объёма и у шиба ину выявлена слабая корреляция с объёмом и волатильностью.
Мы доказали, что тексты Reddit содержат разнообразную информацию как о внешних событиях, так и о самих криптовалютах, которая может оказывать влияние на цену. Популярность темы не всегда пропорциональна изменению цены. Также тексты в сообществах, посвящённых одним криптовалютам, могут содержать информацию о других проектах. Тексты сообществ Reddit, посвящённых мемкоинам не показывают лучшее соответствие изменение цены, чем у крупных криптовалют.
Получив результаты обоих анализов, можно заключить, что в отдельности ни один из подходов не может дать достаточной информации для определения тренда на рынке криптовалют.
Тематический анализ показал присутствие разнообразия тем в
большинстве дней, что может оказывать влияние на общую оценку
тональности отдельного дня, поэтому представляется перспективным подход использования анализа тональности на текстах, разделённых тематическими моделями.
Результаты данной работы могут быть применены в создании системы для отслеживания популярных тем в сотнях сообществах Reddit. В данном имплементации важен не только динамический анализ тем, показывающий изменение трендов, но и тематический анализ на ежедневных текстах. Такой анализ может не только показать факторы потенциально важные для рынка, но и отслеживать блокчейн проекты на ранних стадиях становления или выявлять новые проекты цифрового искусства в виде нфт.



1. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных - 2017 - М.: НИУ ВШЭ - С. 269.
2. Разрабатываем простую модель глубокого обучения для прогнозирования цен акций с помощью TensorFlow, 2018 URL: https://habr.com/ru/company/iticapital/blog/354732/(дата обращения 01.04.2022)
3. Islam MR, Nguyen N. Comparison of Financial Models for Stock Price Prediction. Journal of Risk and Financial Management. 2020
4. Burba Davide An overview of time series forecasting models, 2019 URL: https://towardsdatascience.com/an-overview-of-time-series-forecasting-mod els-a2fa7a358fcb (дата обращения: 01.04.2022)
5. Mick Smith A Comparison of Time Series Model Forecasting Methods on Patent Groups, 2015 URL: http://ceur-ws.org/Vol-1353/paper_13.pdf(дата обращения: 01.04.2022)
6. Philip J. Stone,Robert F. Bales,J. Zvi Namenwirth,Daniel M. Ogilvie The general inquirer: A computer system for content analysis and retrieval based on the sentence as a unit of
7. J. Kim, J. Seo, M. Lee and J. Seok, "Stock Price Prediction Through the Sentimental Analysis of News Articles," 2019 Eleventh International Conference on Ubiquitous and Future Networks (ICUFN), 2019, pp. 700-702
8. Saloni Mohan, Sahitya Mullapudi, Sudheer Sammeta, Parag Vijayvergia and David C. Anastasiu Stock Price Prediction Using News Sentiment Analysis // IEEE Fifth International Conference on Big Data Computing Service and Applications, 2019
9. Laszlo Nemes & Attila Kiss (2021) Prediction of stock values changes using sentiment analysis of stock news headlines, Journal of Information and Telecommunication, 5:3, 375-394
10. Arora, Arjun. “Using news titles and financial features to predict intraday movements of the DJIA.” (2019).
11. Heeyoung Lee, Mihai Surdeanu, Bill MacCartney and Dan Jurafsky. On the Importance of Text Analysis for Stock Price Prediction. Language Resources and Evaluation Conference (LREC). 2014
12. Kalyani Joshi , Prof. Bharathi H. N. , Prof. Jyothi Rao STOCK TREND PREDICTION
USING NEWS SENTIMENT ANALYSIS, 2016 URL: https://arxiv.org/pdf/1607.01958.pdf(дата обращения: 05.03.2022)
13. Kari Lee and Ryan Timmons Predicting the Stock Market with News Articles, Stanford University, 2016 URL: https://nlp.stanford.edu/courses/cs224n/2007/fp/timmonsr-kylee84.pdf(дата обращения: 04.04.2022)
14. Y. Shynkevich, T. M. McGinnity, S. Coleman and A. Belatreche, "Predicting Stock Price Movements Based on Different Categories of News Articles," 2015 IEEE Symposium Series on Computational Intelligence, 2015, pp. 703-710, doi: 10.1109/SSCI.2015.107.
15. Chahat Tandon, Sanjana Revankar, Hemant Palivela, Sidharth Singh Parihar, How can we predict the impact of the social media messages on the value of cryptocurrency? Insights from big data analytics, International Journal of Information Management Data Insights, Volume 1, Issue 2,2021
16. Muxi Xu NLP for Stock Market Prediction with Reddit Data”NLP for Stock
Market Prediction with Reddit Data // Stanford University, 2022
17. Wooley, Stephen, Andrew Edmonds, Arunkumar Bagavathi and Siddhartha Krishnan. “Extracting Cryptocurrency Price Movements from the Reddit Network Sentiment.” 2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA) (2019): 500-505.
18. Ramon Hinojosa Alejandro. “Twitter and Reddit posts analysis on the subject of Cryptocurrencies”, 2021.
19. Chuluunsaikhan, Tserenpurev, Ga-Ae Ryu, Kwan-Hee Yoo, HyungChul Rah, and Aziz Nasridinov. 2020. "Incorporating Deep Learning and News Topic Modeling for Forecasting Pork Prices: The Case of South Korea" Agriculture 10, no. 11: 513.
20. VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text (by C.J. Hutto and Eric Gilbert) Eighth International Conference on Weblogs and Social Media (ICWSM-14). Ann Arbor, MI, June 2014.
21. Chen, Chung-Chi, Hen-Hsen Huang and Hsin-Hsi Chen. “NTUSD-Fin: A Market Sentiment Dictionary for Financial Social Media Data Applications.” (2018).
22. Самигулин Тимур Русланович, Джурабаев Анвар Эркин Угли АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ // Научный результат. Информационные технологии. 2021. №1. URL: https://cyberleninka.ru/article/n/analiz-tonalnosti-teksta-metodami-mashinno go-obucheniya (дата обращения: 23.05.2022).
23. Bengio Y. Learning deep architectures for AI // Foundations and Trends in Machine Learning, 2009.
24. Ahmad M. et al. Machine learning techniques for sentiment analysis: A review //Int. J. Multidiscip. Sci. Eng. - 2017. - Т. 8. - No. 3. - P 27.
25. Пескишева Т.А. Методы анализа тональности текстов на естественном
языке // Общество. Наука. Инновации (НПК-2017). - 2017. - С. 1730-1742.
26.Schofield, Alexandra, Mans Magnusson, Laure Thompson and David Mimno. “Pre-Processing for Latent Dirichlet Allocation.” (2017).
27. file:///home/kartashow/Downloads/vkr_Zamiraylova.pdf
28. Blei D. M. Introduction to Probabilistic Topic Models // Communications of the ACM. Vol. 55. Issue 4. 2012, С. 77-84.
29. Maarten Grootendorst BERTopic: Neural topic modeling with a class-based TF-IDF procedure, 2022 URL: https://arxiv.org/abs/2203.05794 (дата обращения: 05.05.2022)
30.SenyukLyubomyr 5 Natural Language Processing (NLP) Applications In Finance, 2021
URL: https://www.avenga.com/magazine/nlp-finance-applications/(дата обращения: 30.05.2022)
31. Tsarouva Maria The unprecedented revolution of NLP in finance, 2020 URL: https://www.itechart.com/blog/natural-language-processing-in-finance/(дата обращение: 30.05.2022)
32. Чернова Анастасия Бычий и медвежий рынок: кто такие быки и медведи на бирже, 2022 URL: https://www.nalogia.ru/articles/551-bychiy-i-medvezhiy-rynok-kto-takie-byki-i-medvedi-na-birzhe.php (дата обращения: 30.05.2022)
33. Хобсон Лейн, Ханнес Хапке, Коул Ховард Обработка естественного
языка в действии - 2020 - СПб: "Издательский дом ""Питер , 2020 - С.
576
34. Российский семинар по Оценке Методов Информационного Поиска URL: http://romip.ru/en/(дата обращения: 10.04.2022)
35. SemEval-2022 URL: https://competitions.codalab.org/competitions/33556(дата обращения: 10.04.2022)
36. TextBlob: Simplified Text Processing URL: https://textblob.readthedocs.io/en/dev/(дата обращения: 30.04.2022)
37. NLTK Documentation. Sample usage for sentiment URL: https://www.nltk.org/howto/sentiment.html#sample-usage-for-sentiment(дата обращения: 10.04.2022)
38. Анализ тональности в русскоязычных текстах, часть 1: введение URL: https://habr.com/ru/company/vk/blog/516214/(дата обращения: 20.05.2022)
39.Smetanin S., "The Applications of Sentiment Analysis for Russian Language Texts: Current Challenges and Future Perspectives," in IEEE Access, vol. 8, pp. 110693-110719, 2020
40.Blei D.M, Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Vol. 3.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ