Введение 2
Глава 1. Анализ тональности новостей как инструмент финансового прогнозирования 5
1.1. Гипотеза эффективного рынка 5
1.2. Методологические основы анализа отображения СМИ политических событий 6
1.3. Эмпирический анализ тональности политических новостей 9
Глава 2. Автоматический анализ тональности новостных текстов 15
2.1. Постановка задачи 15
2.2. Основные методы анализа тональности документа 16
2.3. Построение классификатора для определения тональности документа 17
2.3.1 Постановка задачи 17
2.3.2 Предобработка текста 18
2.3.3 Извлечение признаков из текста 20
2.3.3 Методы классификации текстов 23
Глава 3. Эксперимент по предсказанию движения курса МосБиржи с помощью анализа тональности новостей 26
3.1. Гипотезы о корреляции тональности новостей и индекса МосБиржи 26
3.2. Исходные данные эксперимента 26
3.3. Работа с корпусом отзывов 28
3.4. Реализация программы классификации новостей по тональности 30
3.5. Реализация программы предсказания движения курса МосБиржи 33
Заключение 36
Список литературы 38
Приложение 1 42
Предсказание изменений на фондовом рынке является важной задачей в области финансов, математики и инженерии. Принятие верного инвестиционного решения способствует стабилизации рынка и минимизации потерь конкретного лица, фирмы, государства. Финансовое прогнозирование – сложная задача, поскольку на рынок оказывают значительное влияние не только финансовые показатели и аналитические индикаторы, но также изменение политической ситуации, различные макроэкономические сигналы и малодоступная информация.
Особенно остро стоит проблема информационного влияния на нестабильных развивающихся рынках, где нет сформированного благоприятного климата. Экономическая и политическая нестабильность затрудняет возможность прогнозирования каких-либо событий. В условиях нестабильности информация о событии, которое никто не ожидал, возникает постфактум и оказывает доминирующее влияние на финансовые рынки. Средства массовой информации, конкурирующие друг с другом за право первым предоставить последние новости фондового рынка и экономической ситуации в целом, выпускающие в медиа-пространство постоянные сообщения о состоянии биржевых торгов, тем самым сами включаются в состав биржевой деятельности. Сенсационными новостями в области политики и экономики, заявлениями о новых тенденциях рынка они стараются привлечь внимание публики. В свою очередь инвесторы, получающие большое количество новой информации, оказываются не в силах оценить и обработать все информационные сообщения со стороны СМИ. Это приводит к упрощенному восприятию информации и повышению значения ее эмоциональной оценки [Чарахчян 2018]. Именно этим и обусловлен интерес и актуальность исследования влияния настроений в политических и экономических новостях на ситуацию на российском рынке.
Практическая значимость исследования заключается в возможности использования тональности политических новостей для предсказания движения различных фондовых индексов и акций конкретных компаний. Полученные в ходе работы результаты могут быть востребованы при написании статей и учебных курсов в областях обработки естественного языка, контент-анализа, анализа данных и машинного обучения.
Актуальная и практическая значимость позволяют определить цель работы —создание программы анализа тональности политических новостей с опцией предсказания движения индекса МосБиржи с интервалом один день.
Для достижения цели были поставлены следующие задачи:
1. проанализировать, как в СМИ отражается политическое событие и формируется его оценка;
2. проследить корреляцию между тональностью новостей и ситуацией на российском финансовом рынке, на основе этого выдвинуть гипотезу;
3. изучить основные методы обработки текстов и анализа тональности;
4. собрать корпус новостей и подготовить его для загрузки в программу машинного обучения;
5. реализовать программу машинного обучения для классификации новостей по тональности.
Объектом исследования являются политические новости российских СМИ, посвященные событиям в России и графики индекса МосБиржи за четырехмесячный период.
Предметом научного анализа является тональность новостей, конструкции и n-граммы, используемые для создания эмоциональной окраски сообщения.
Характеризуя использованную литературу, можно отметить, что в процессе исследования упор делался на классические труды по лингвистике и медиадискурсу Дейка и Гавра, а также на современные работы лингвистов, журналистов и экономистов Абдуллина, Боярского, Науменко и др. При написании главы об автоматическом анализе тональности использовались книги исследователя Б. Лиу, одного из самых известных ученых в области сентимент-анализа. При эмпирическом анализе новостей использовались статьи из известных интернет-изданий, таких как Ведомости, РБК, Эксперт, BBC. Широко использовались интернет-ресурсы по программированию и машинному обучению.
Научная новизна работы обоснована разработкой новых теоретических и практических подходов к анализу тональности новостных сообщений. Впервые в отечественной науке автоматический анализ тональности использован как инструмент финансового прогнозирования.
Результаты исследования были представлены в качестве доклада на конференции РГГУ СКИЛ в апреле 2018 года и получили высокую оценку жюри.
В ходе данной работы были решены следующие задачи:
1) были выявлены и изучены практики российских СМИ в процессах отражения политических конфликтов и определена корреляция между настроениями в СМИ и ситуацией на фондовом рынке;
2) рассмотрены различные способы структурирования, приведения к единому формату и предварительной обработки текста: приведение к единому регистру, токенизация, стемминг, лемматизация, удаление стоп-слов;
3) изучены и описаны основные алгоритмы машинного обучения, применяемые при решении задачи классификации: наивный байесовский классификатор и метод опорных векторов;
4) реализована программа машинного обучения для классификации отзывов на два класса, использующая библиотеку scikit-learn; проведена классификация корпуса новостей, выбрана эффективная модель SVM;
5) реализована программа, предсказывающая на основании анализа тональности новостей движения индекса МосБиржи с интервалом в 1 день, которая показала 80 % уровень достоверности (программные коды исследования доступны по ссылке
https://github.com/daranikolaeva427/sentimentstockpredict2018).
Таким образом, впервые в отечественной лингвистике была предпринята попытка применения классификатора тональности политических новостей для финансового прогнозирования.
Дальнейшим развитием проекта является автоматизация подачи новостей на вход, так как сейчас это происходит вручную. Также предполагается агрегация новостей из разных новостных источников, для анализа медиадискурса не только качественными, но и количественными методами, что позволит проведение более глубоко анализа десигнативного и коннотативного компонентов. Более высокие результаты и точные предсказания может давать глубокий лингвистический анализ, вычленение ключевых предложений, выделение семантических ролей, определение тональности в пределах предложения. Кроме того, помимо анализа тональности в программу-предсказатель можно добавить технические индикаторы – значения открытия и закрытия торгов, это поможет увеличить точность системы.
1) Абдуллин А. Р., Фаррахетдинова А.Р. Гипотеза эффективности рынка в свете теории финансов // УЭкС. 2015. №4 (76)
2) Азарова И.В., Гордеев C.C., Дёгтева А.В. Использование нейронной сети для автоматического определения тональности отзывов// Материалы XLIIIМеждународной филологической конференции, 2014 — СПб., 2014 С. 3–9.
3) Гавра Д.П. Понятие и структура современной деловой журналистики// Сборник материалов Всероссийской научно-практической конференции. М. Факультет журналистики МГУ имени М.В. Ломоносова. МедиаМир. 2009. с.103, с. 112-144
4) Дейк Т. Ван. Язык. Познание. Коммуникация. // М. 1989. с.6
5) Добросклонская Т.Г. Медиалингвистика: системный подход к изучению языка СМИ. // М. 2008. с. 198
6) К.К. Боярский, Е.А. Каневский. Предсинтаксический модуль в анализаторе SemSin. // Интернет и современное общество: сборник научных статей. Труды XVI Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2013), Санкт-Петербург, 9 — 11 октября 2013 г. СПб.: НИУ ИТМО, 2013, с. 281
7) Науменко Т.В. Коммуникативные процессы в глобальном экономическом пространстве// Credo New. 2015. №1. с.63
8) Паничева П. В. Система сентиментного анализа ATEX, основанная на правилах, при обработке текстов различных тематик // Компьютерная лингвистика иинтеллектуальные технологии: По материалам ежегодной Международной конференции«Диалог» (Бекасово, 29 мая — 2 июня 2013 г.). Вып. 12 (19). — М.: Изд-во РГГУ, 2013
9) Хохлова М.В. Анализ тональности // Прикладная и компьютерная лингвистика. М.: URSS, 2016
10) Чарахчян К.К., Чарахчян В.К. Некоторые аспекты воздействия новостной информации на биржевую оценку эмитентов // Теория и практика общественного развития. Краснодар: Хорс, 2018. № 1. С. 48-52
11) Ширяев А. Н. Основы схоластической финансовой математики // Соч.: том 2. М.: Фазис, 1998. с. 544
12) Aisopos, F., Papadakis, G., Varvarigou, T. Sentiment Analysis of Social Media Content using N-Gram Graphs // Scottsdale: WSM 2011.
13) Bing Liu. Sentiment Analysis and Opinion Mining // Morgan & Claypool Publishers, 2012. p. 23
14) Bing Liu. Sentiment Analysis and Subjectivity, Handbook of Natural Language Processing //Morgan & Claypool Publishers. Second Edition, 2010. p.10
15) Bollen J., Mao H. and Zeng X. Twitter mood predicts the stock market //CoRR, abs/1010.3003, 2003
16) Domingos, P. & Pazzani, M. On the optimality of the simple Bayesian classifier under zero-one loss // Machine Learning, № 29, 1997. pp. 103-¬137
17) Fung, Gabriel, et. al. The Predicting Power of Textual Information on Financial Markets // IEEE Intelligent Informatics Bulletin. Vol. 5. No. 1. June, 2005
18) Gidofalvi G. Using News Articles to Predict Stock Price Movements. // Department of Computer Science and Engineering, University of California, San Diego: 2001
19) Hoeffding. W. The large-sample power of tests based on permutations of observations // The Annals of Mathematical Statistics, 1952. pp. 169–192
20) Huang W., Nakamori Y. et al. Forecasting stock market movement direction with support vector // Computers & Operations Research, Elsevier : 2005
21) Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends inInformation Retrieval 2(1-2), 2008
22) Turney P. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews // Proceedings of ACL-02, 40th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 2002. pp. 417—424
23) Wang S., Manning C. Baselines and bigrams: Simple, good sentiment and topic classification // In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL 2012), 2012
Электронные ресурсы
1) Блог Игоря Субботина
// URL: http://igorsubbotin.blogspot.ru/2015/01/intro-to-scikit-learn.html
2) Ведомости // URL: https://www.vedomosti.ru/business/news/2017/12/07/744505-rosneft-podala-sistema-novii-isk
https://www.vedomosti.ru/politics/news/2018/04/10/764399-tramp-rasskazal-o-vozmozhnom-voennom-otvete-vlastyam-sirii
3) ВЕСТИ // URL:https://www.vesti.ru/doc.html?id=2995634&tid=111662
4) РБК // URL: https://www.rbc.ru/business/07/12/2017/5a292f1c9a7947e2cf0a70f7, https://www.rbc.ru/business/07/12/2017/5a29315d9a7947fea4ea6f35
https://www.rbc.ru/business/07/12/2017/5a293b459a7947132066b2b8
https://www.rbc.ru/newspaper/2018/03/13/5aa64aba9a7947fe67942cf9
https://www.rbc.ru/opinions/politics/07/12/2017/5a293da39a794716addbe505
5) Сайт Московской биржи // URL: https://www.moex.com/ru/index/archive-data.aspx
6) Сайт Юрия Баженова // URL:http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
7) BBC // URL:https://www.bbc.com/russian/news-43696073
8) Coursera // URL: https://www.coursera.org/learn/data-analysis-applications/lecture/6pei3/priedobrabotka-tieksta
9) Datareview // URL: http://datareview.info/article/otbor-priznakov-dlya-mashinnogo-obucheniya-na-python/
10) EXPERT // URL: http://expert.ru/2018/03/13/ubijstvo-v-britanskom-marazme/
11) Finanz // URL: https://www.finanz.ru/indeksi/sostav/micex
12) Habrahabr // URL: https://habrahabr.ru/post/105220/
13) MachineLearning.ru // URL: http://www.machinelearning.ru/wiki/index.php?title=Классификация
http://www.machinelearning.ru/wiki/index.php?title=Выборка
http://www.machinelearning.ru/wiki/index.php?title=Эмпирический_риск
14) Mystem // URL: https://tech.yandex.ru/mystem/
15) MK // URL:http://www.mk.ru/economics/2016/11/09/ekonomisty-tramp-snimet-sankcii-s-rossii-v-2017-godu.html
16) Newsru // URL: https://www.newsru.com/
17) Scrapy // URL: https://scrapy.org/
18) Solarix // URL: http://www.solarix.ru/for_developers/api/lemmatizator-api.shtml
19) Wikipedia // URL: https://ru.wikipedia.org/wiki/метод_опорных_векторов
20) YOUTUBE // URL: https://www.youtube.com/watch?v=dwkKrQHEvVg