Тема: Извлечение лингвистической информации из социальных медиа для предсказания трендов на рынке криптовалют
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Анализ лингвистической информации для предсказания тренда на рынке криптовалют 6
1.1. Лингвистические данные 6
1.2. Подходы к анализу лингвистических данных 9
1.3. Анализ тональности 11
1.3.1. Методы определения тональности с использованием словарных
ресурсов и правил 12
1.3.2. Методы определения тональности с
использованием машинного обучения 14
1.4. Тематическое моделирование 22
Выводы к Главе 1 27
Глава 2. Эксперименты по выявление трендов на рынке криптовалют на материале англоязычного корпуса текстов социальной сети Reddit 28
2.1. Крпитовалюты и источники лингвистической информации о них 28
2.2. Построение англоязычного корпуса текстов социальной сети Reddit 30
2.1.1 Биткоин 37
2.1.2 Эфириум 38
2.1.3 Доджкоин 39
2.1.4 Шиба ину 41
Глава 3. Анализ тональности публикаций англоязычного корпуса текстов социальной сети Reddit 43
3.1. Алгоритм анализа тональности публикаций англоязычного корпуса
текстов социальной сети Reddit 43
3.2. Результаты работы алгоритма анализа тональности публикаций
англоязычного корпуса текстов социальной сети Reddit 46
3.2.1. Биткоин 48
3.2.2 Эфириум 49
3.2.3. Доджкоин 50
3.2.4. Шиба ину 51
Выводы по 3 главе 53
Глава 4. Тематическое моделирование англоязычного корпуса текстов социальной сети Reddit 54
4.1. Подготовка данных и инструментов для тематического моделирования
англоязычного корпуса текстов социальной сети Reddit 54
4.2. Анализ результатов тематического моделирования 57
с помощью алгоритма LDA 57
4.2.1. Биткоин 57
4.2.2. Эфириум 60
4.2.3. Доджкоин 62
4.2.4. Шиба ину 65
4.3. Анализ результатов тематического моделирования с помощью
алгоритма BERTopic (стандартная модель) 67
4.3.1. Биткоин 67
4.3.2. Эфириум 68
4.3.3. Доджкоин 68
4.3.4. Шиба ину 70
4.4. Анализ результатов тематического моделирования с помощью
алгоритма BERTopic (динамическая модель) 70
4.4.1. Биткоин 70
4.4.2. Эфириум 73
4.4.3. Доджкоин 76
4.4.4. Шиба ину 78
Выводы по главе 4 81
Заключение 83
Список использованной литературы 85
📖 Введение
Актуальность работы обусловлена стремительно растущим интересом к технологиям блокчейн и, в частности, криптовалютам. После скачка цен на акции компании GameStop из-за пользователей соцсети Reddit стало очевидно, что социальные сети и деятельность пользователей в них может оказывать влияние на фондовые рынки.
Объектом исследования является лингвистическая информация, ассоциированная с криптовалютами и их ролью на финансовом рынке. Предметом исследования является тональная оценка текстов, в которых обсуждаются криптовалюты, общая тематика публикаций о документах и взаимосвязи тем в статике и динамике.
Новизна исследования заключается в комплексном рассмотрении существования взаимосвязи между публикациями в социальной сети Reddit и трендами на рынке криптовалют.
Цель работы заключается в том, чтобы выявить взаимосвязь между пользовательской активностью в тематических группах в соцсетях и трендом на рынке криптовалют, а также определить варьируется ли сила этой связи в зависимости от конкретной криптовалюты.
Поставленная цель предполагает выполнение следующих задач:
1) изучить методы анализа тональности текста,
2) изучить методы тематического моделирования,
3) собрать корпус, состоящий из текстов постов и комментариев пользователей криптосообществ в Reddit за 2021 г.,
4) построить модель анализа тональности текстов корпуса,
5) построить стандартную тематическую модель корпуса,
6) построить динамическую тематическую модель корпуса,
7) сравнить полученные результаты и обобщить их.
Материалом для данного исследования стали англоязычные тексты публикаций в социальной сети Reddit.
В исследовании применяются методы квантитативной и корпусной лингвистики, машинного обучения, приемы лингвистического анализа, тематического моделирования и тонального анализа.
Теоретическая значимость исследования заключается в установлении связей между лингвистическими данными о тональности и тематике текстов с экстралингвистическими параметрами описываемого в них явления (рынок криптовалют).
Практическое применение результатов исследования возможно в различных областях финансовой деятельности, комбинирующей приемы лингвистической обработки текстовой информации и работу с экономическими данными, предполагающей операции с криптовалютами и прогнозирование их рынка.
✅ Заключение
Тональность публикаций имеет разную корреляцию по отношению к изменению объёма, цены и волатильности в зависимости от криптовалюты. У эфириума выявлена корреляция слабой силы с изменением объёма и у шиба ину выявлена слабая корреляция с объёмом и волатильностью.
Мы доказали, что тексты Reddit содержат разнообразную информацию как о внешних событиях, так и о самих криптовалютах, которая может оказывать влияние на цену. Популярность темы не всегда пропорциональна изменению цены. Также тексты в сообществах, посвящённых одним криптовалютам, могут содержать информацию о других проектах. Тексты сообществ Reddit, посвящённых мемкоинам не показывают лучшее соответствие изменение цены, чем у крупных криптовалют.
Получив результаты обоих анализов, можно заключить, что в отдельности ни один из подходов не может дать достаточной информации для определения тренда на рынке криптовалют.
Тематический анализ показал присутствие разнообразия тем в большинстве дней, что может оказывать влияние на общую оценку тональности отдельного дня, поэтому представляется перспективным подход использования анализа тональности на текстах, разделённых тематическими моделями.
Результаты данной работы могут быть применены в создании системы для отслеживания популярных тем в сотнях сообществах Reddit. В данном имплементации важен не только динамический анализ тем, показывающий изменение трендов, но и тематический анализ на ежедневных текстах. Такой анализ может не только показать факторы потенциально важные для рынка, но и отслеживать блокчейн проекты на ранних стадиях становления или выявлять новые проекты цифрового искусства в виде нфт.



