Тема: Анализ тональности текстов политических новостей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Анализ тональности новостей как инструмент финансового прогнозирования 5
1.1. Гипотеза эффективного рынка 5
1.2. Методологические основы анализа отображения СМИ политических событий 6
1.3. Эмпирический анализ тональности политических новостей 9
Глава 2. Автоматический анализ тональности новостных текстов 15
2.1. Постановка задачи 15
2.2. Основные методы анализа тональности документа 16
2.3. Построение классификатора для определения тональности документа 17
2.3.1 Постановка задачи 17
2.3.2 Предобработка текста 18
2.3.3 Извлечение признаков из текста 20
2.3.3 Методы классификации текстов 23
Глава 3. Эксперимент по предсказанию движения курса МосБиржи с помощью анализа тональности новостей 26
3.1. Гипотезы о корреляции тональности новостей и индекса МосБиржи 26
3.2. Исходные данные эксперимента 26
3.3. Работа с корпусом отзывов 28
3.4. Реализация программы классификации новостей по тональности 30
3.5. Реализация программы предсказания движения курса МосБиржи 33
Заключение 36
Список литературы 38
Приложение 1 42
📖 Введение
Особенно остро стоит проблема информационного влияния на нестабильных развивающихся рынках, где нет сформированного благоприятного климата. Экономическая и политическая нестабильность затрудняет возможность прогнозирования каких-либо событий. В условиях нестабильности информация о событии, которое никто не ожидал, возникает постфактум и оказывает доминирующее влияние на финансовые рынки. Средства массовой информации, конкурирующие друг с другом за право первым предоставить последние новости фондового рынка и экономической ситуации в целом, выпускающие в медиа-пространство постоянные сообщения о состоянии биржевых торгов, тем самым сами включаются в состав биржевой деятельности. Сенсационными новостями в области политики и экономики, заявлениями о новых тенденциях рынка они стараются привлечь внимание публики. В свою очередь инвесторы, получающие большое количество новой информации, оказываются не в силах оценить и обработать все информационные сообщения со стороны СМИ. Это приводит к упрощенному восприятию информации и повышению значения ее эмоциональной оценки [Чарахчян 2018]. Именно этим и обусловлен интерес и актуальность исследования влияния настроений в политических и экономических новостях на ситуацию на российском рынке.
Практическая значимость исследования заключается в возможности использования тональности политических новостей для предсказания движения различных фондовых индексов и акций конкретных компаний. Полученные в ходе работы результаты могут быть востребованы при написании статей и учебных курсов в областях обработки естественного языка, контент-анализа, анализа данных и машинного обучения.
Актуальная и практическая значимость позволяют определить цель работы —создание программы анализа тональности политических новостей с опцией предсказания движения индекса МосБиржи с интервалом один день.
Для достижения цели были поставлены следующие задачи:
1. проанализировать, как в СМИ отражается политическое событие и формируется его оценка;
2. проследить корреляцию между тональностью новостей и ситуацией на российском финансовом рынке, на основе этого выдвинуть гипотезу;
3. изучить основные методы обработки текстов и анализа тональности;
4. собрать корпус новостей и подготовить его для загрузки в программу машинного обучения;
5. реализовать программу машинного обучения для классификации новостей по тональности.
Объектом исследования являются политические новости российских СМИ, посвященные событиям в России и графики индекса МосБиржи за четырехмесячный период.
Предметом научного анализа является тональность новостей, конструкции и n-граммы, используемые для создания эмоциональной окраски сообщения.
Характеризуя использованную литературу, можно отметить, что в процессе исследования упор делался на классические труды по лингвистике и медиадискурсу Дейка и Гавра, а также на современные работы лингвистов, журналистов и экономистов Абдуллина, Боярского, Науменко и др. При написании главы об автоматическом анализе тональности использовались книги исследователя Б. Лиу, одного из самых известных ученых в области сентимент-анализа. При эмпирическом анализе новостей использовались статьи из известных интернет-изданий, таких как Ведомости, РБК, Эксперт, BBC. Широко использовались интернет-ресурсы по программированию и машинному обучению.
Научная новизна работы обоснована разработкой новых теоретических и практических подходов к анализу тональности новостных сообщений. Впервые в отечественной науке автоматический анализ тональности использован как инструмент финансового прогнозирования.
Результаты исследования были представлены в качестве доклада на конференции РГГУ СКИЛ в апреле 2018 года и получили высокую оценку жюри.
✅ Заключение
1) были выявлены и изучены практики российских СМИ в процессах отражения политических конфликтов и определена корреляция между настроениями в СМИ и ситуацией на фондовом рынке;
2) рассмотрены различные способы структурирования, приведения к единому формату и предварительной обработки текста: приведение к единому регистру, токенизация, стемминг, лемматизация, удаление стоп-слов;
3) изучены и описаны основные алгоритмы машинного обучения, применяемые при решении задачи классификации: наивный байесовский классификатор и метод опорных векторов;
4) реализована программа машинного обучения для классификации отзывов на два класса, использующая библиотеку scikit-learn; проведена классификация корпуса новостей, выбрана эффективная модель SVM;
5) реализована программа, предсказывающая на основании анализа тональности новостей движения индекса МосБиржи с интервалом в 1 день, которая показала 80 % уровень достоверности (программные коды исследования доступны по ссылке
https://github.com/daranikolaeva427/sentimentstockpredict2018).
Таким образом, впервые в отечественной лингвистике была предпринята попытка применения классификатора тональности политических новостей для финансового прогнозирования.
Дальнейшим развитием проекта является автоматизация подачи новостей на вход, так как сейчас это происходит вручную. Также предполагается агрегация новостей из разных новостных источников, для анализа медиадискурса не только качественными, но и количественными методами, что позволит проведение более глубоко анализа десигнативного и коннотативного компонентов. Более высокие результаты и точные предсказания может давать глубокий лингвистический анализ, вычленение ключевых предложений, выделение семантических ролей, определение тональности в пределах предложения. Кроме того, помимо анализа тональности в программу-предсказатель можно добавить технические индикаторы – значения открытия и закрытия торгов, это поможет увеличить точность системы.



