Анализ тональности текстов политических новостей
|
Введение 2
Глава 1. Анализ тональности новостей как инструмент финансового прогнозирования 5
1.1. Гипотеза эффективного рынка 5
1.2. Методологические основы анализа отображения СМИ политических событий 6
1.3. Эмпирический анализ тональности политических новостей 9
Глава 2. Автоматический анализ тональности новостных текстов 15
2.1. Постановка задачи 15
2.2. Основные методы анализа тональности документа 16
2.3. Построение классификатора для определения тональности документа 17
2.3.1 Постановка задачи 17
2.3.2 Предобработка текста 18
2.3.3 Извлечение признаков из текста 20
2.3.3 Методы классификации текстов 23
Глава 3. Эксперимент по предсказанию движения курса МосБиржи с помощью анализа тональности новостей 26
3.1. Гипотезы о корреляции тональности новостей и индекса МосБиржи 26
3.2. Исходные данные эксперимента 26
3.3. Работа с корпусом отзывов 28
3.4. Реализация программы классификации новостей по тональности 30
3.5. Реализация программы предсказания движения курса МосБиржи 33
Заключение 36
Список литературы 38
Приложение 1 42
Глава 1. Анализ тональности новостей как инструмент финансового прогнозирования 5
1.1. Гипотеза эффективного рынка 5
1.2. Методологические основы анализа отображения СМИ политических событий 6
1.3. Эмпирический анализ тональности политических новостей 9
Глава 2. Автоматический анализ тональности новостных текстов 15
2.1. Постановка задачи 15
2.2. Основные методы анализа тональности документа 16
2.3. Построение классификатора для определения тональности документа 17
2.3.1 Постановка задачи 17
2.3.2 Предобработка текста 18
2.3.3 Извлечение признаков из текста 20
2.3.3 Методы классификации текстов 23
Глава 3. Эксперимент по предсказанию движения курса МосБиржи с помощью анализа тональности новостей 26
3.1. Гипотезы о корреляции тональности новостей и индекса МосБиржи 26
3.2. Исходные данные эксперимента 26
3.3. Работа с корпусом отзывов 28
3.4. Реализация программы классификации новостей по тональности 30
3.5. Реализация программы предсказания движения курса МосБиржи 33
Заключение 36
Список литературы 38
Приложение 1 42
Предсказание изменений на фондовом рынке является важной задачей в области финансов, математики и инженерии. Принятие верного инвестиционного решения способствует стабилизации рынка и минимизации потерь конкретного лица, фирмы, государства. Финансовое прогнозирование – сложная задача, поскольку на рынок оказывают значительное влияние не только финансовые показатели и аналитические индикаторы, но также изменение политической ситуации, различные макроэкономические сигналы и малодоступная информация.
Особенно остро стоит проблема информационного влияния на нестабильных развивающихся рынках, где нет сформированного благоприятного климата. Экономическая и политическая нестабильность затрудняет возможность прогнозирования каких-либо событий. В условиях нестабильности информация о событии, которое никто не ожидал, возникает постфактум и оказывает доминирующее влияние на финансовые рынки. Средства массовой информации, конкурирующие друг с другом за право первым предоставить последние новости фондового рынка и экономической ситуации в целом, выпускающие в медиа-пространство постоянные сообщения о состоянии биржевых торгов, тем самым сами включаются в состав биржевой деятельности. Сенсационными новостями в области политики и экономики, заявлениями о новых тенденциях рынка они стараются привлечь внимание публики. В свою очередь инвесторы, получающие большое количество новой информации, оказываются не в силах оценить и обработать все информационные сообщения со стороны СМИ. Это приводит к упрощенному восприятию информации и повышению значения ее эмоциональной оценки [Чарахчян 2018]. Именно этим и обусловлен интерес и актуальность исследования влияния настроений в политических и экономических новостях на ситуацию на российском рынке.
Практическая значимость исследования заключается в возможности использования тональности политических новостей для предсказания движения различных фондовых индексов и акций конкретных компаний. Полученные в ходе работы результаты могут быть востребованы при написании статей и учебных курсов в областях обработки естественного языка, контент-анализа, анализа данных и машинного обучения.
Актуальная и практическая значимость позволяют определить цель работы —создание программы анализа тональности политических новостей с опцией предсказания движения индекса МосБиржи с интервалом один день.
Для достижения цели были поставлены следующие задачи:
1. проанализировать, как в СМИ отражается политическое событие и формируется его оценка;
2. проследить корреляцию между тональностью новостей и ситуацией на российском финансовом рынке, на основе этого выдвинуть гипотезу;
3. изучить основные методы обработки текстов и анализа тональности;
4. собрать корпус новостей и подготовить его для загрузки в программу машинного обучения;
5. реализовать программу машинного обучения для классификации новостей по тональности.
Объектом исследования являются политические новости российских СМИ, посвященные событиям в России и графики индекса МосБиржи за четырехмесячный период.
Предметом научного анализа является тональность новостей, конструкции и n-граммы, используемые для создания эмоциональной окраски сообщения.
Характеризуя использованную литературу, можно отметить, что в процессе исследования упор делался на классические труды по лингвистике и медиадискурсу Дейка и Гавра, а также на современные работы лингвистов, журналистов и экономистов Абдуллина, Боярского, Науменко и др. При написании главы об автоматическом анализе тональности использовались книги исследователя Б. Лиу, одного из самых известных ученых в области сентимент-анализа. При эмпирическом анализе новостей использовались статьи из известных интернет-изданий, таких как Ведомости, РБК, Эксперт, BBC. Широко использовались интернет-ресурсы по программированию и машинному обучению.
Научная новизна работы обоснована разработкой новых теоретических и практических подходов к анализу тональности новостных сообщений. Впервые в отечественной науке автоматический анализ тональности использован как инструмент финансового прогнозирования.
Результаты исследования были представлены в качестве доклада на конференции РГГУ СКИЛ в апреле 2018 года и получили высокую оценку жюри.
Особенно остро стоит проблема информационного влияния на нестабильных развивающихся рынках, где нет сформированного благоприятного климата. Экономическая и политическая нестабильность затрудняет возможность прогнозирования каких-либо событий. В условиях нестабильности информация о событии, которое никто не ожидал, возникает постфактум и оказывает доминирующее влияние на финансовые рынки. Средства массовой информации, конкурирующие друг с другом за право первым предоставить последние новости фондового рынка и экономической ситуации в целом, выпускающие в медиа-пространство постоянные сообщения о состоянии биржевых торгов, тем самым сами включаются в состав биржевой деятельности. Сенсационными новостями в области политики и экономики, заявлениями о новых тенденциях рынка они стараются привлечь внимание публики. В свою очередь инвесторы, получающие большое количество новой информации, оказываются не в силах оценить и обработать все информационные сообщения со стороны СМИ. Это приводит к упрощенному восприятию информации и повышению значения ее эмоциональной оценки [Чарахчян 2018]. Именно этим и обусловлен интерес и актуальность исследования влияния настроений в политических и экономических новостях на ситуацию на российском рынке.
Практическая значимость исследования заключается в возможности использования тональности политических новостей для предсказания движения различных фондовых индексов и акций конкретных компаний. Полученные в ходе работы результаты могут быть востребованы при написании статей и учебных курсов в областях обработки естественного языка, контент-анализа, анализа данных и машинного обучения.
Актуальная и практическая значимость позволяют определить цель работы —создание программы анализа тональности политических новостей с опцией предсказания движения индекса МосБиржи с интервалом один день.
Для достижения цели были поставлены следующие задачи:
1. проанализировать, как в СМИ отражается политическое событие и формируется его оценка;
2. проследить корреляцию между тональностью новостей и ситуацией на российском финансовом рынке, на основе этого выдвинуть гипотезу;
3. изучить основные методы обработки текстов и анализа тональности;
4. собрать корпус новостей и подготовить его для загрузки в программу машинного обучения;
5. реализовать программу машинного обучения для классификации новостей по тональности.
Объектом исследования являются политические новости российских СМИ, посвященные событиям в России и графики индекса МосБиржи за четырехмесячный период.
Предметом научного анализа является тональность новостей, конструкции и n-граммы, используемые для создания эмоциональной окраски сообщения.
Характеризуя использованную литературу, можно отметить, что в процессе исследования упор делался на классические труды по лингвистике и медиадискурсу Дейка и Гавра, а также на современные работы лингвистов, журналистов и экономистов Абдуллина, Боярского, Науменко и др. При написании главы об автоматическом анализе тональности использовались книги исследователя Б. Лиу, одного из самых известных ученых в области сентимент-анализа. При эмпирическом анализе новостей использовались статьи из известных интернет-изданий, таких как Ведомости, РБК, Эксперт, BBC. Широко использовались интернет-ресурсы по программированию и машинному обучению.
Научная новизна работы обоснована разработкой новых теоретических и практических подходов к анализу тональности новостных сообщений. Впервые в отечественной науке автоматический анализ тональности использован как инструмент финансового прогнозирования.
Результаты исследования были представлены в качестве доклада на конференции РГГУ СКИЛ в апреле 2018 года и получили высокую оценку жюри.
В ходе данной работы были решены следующие задачи:
1) были выявлены и изучены практики российских СМИ в процессах отражения политических конфликтов и определена корреляция между настроениями в СМИ и ситуацией на фондовом рынке;
2) рассмотрены различные способы структурирования, приведения к единому формату и предварительной обработки текста: приведение к единому регистру, токенизация, стемминг, лемматизация, удаление стоп-слов;
3) изучены и описаны основные алгоритмы машинного обучения, применяемые при решении задачи классификации: наивный байесовский классификатор и метод опорных векторов;
4) реализована программа машинного обучения для классификации отзывов на два класса, использующая библиотеку scikit-learn; проведена классификация корпуса новостей, выбрана эффективная модель SVM;
5) реализована программа, предсказывающая на основании анализа тональности новостей движения индекса МосБиржи с интервалом в 1 день, которая показала 80 % уровень достоверности (программные коды исследования доступны по ссылке
https://github.com/daranikolaeva427/sentimentstockpredict2018).
Таким образом, впервые в отечественной лингвистике была предпринята попытка применения классификатора тональности политических новостей для финансового прогнозирования.
Дальнейшим развитием проекта является автоматизация подачи новостей на вход, так как сейчас это происходит вручную. Также предполагается агрегация новостей из разных новостных источников, для анализа медиадискурса не только качественными, но и количественными методами, что позволит проведение более глубоко анализа десигнативного и коннотативного компонентов. Более высокие результаты и точные предсказания может давать глубокий лингвистический анализ, вычленение ключевых предложений, выделение семантических ролей, определение тональности в пределах предложения. Кроме того, помимо анализа тональности в программу-предсказатель можно добавить технические индикаторы – значения открытия и закрытия торгов, это поможет увеличить точность системы.
1) были выявлены и изучены практики российских СМИ в процессах отражения политических конфликтов и определена корреляция между настроениями в СМИ и ситуацией на фондовом рынке;
2) рассмотрены различные способы структурирования, приведения к единому формату и предварительной обработки текста: приведение к единому регистру, токенизация, стемминг, лемматизация, удаление стоп-слов;
3) изучены и описаны основные алгоритмы машинного обучения, применяемые при решении задачи классификации: наивный байесовский классификатор и метод опорных векторов;
4) реализована программа машинного обучения для классификации отзывов на два класса, использующая библиотеку scikit-learn; проведена классификация корпуса новостей, выбрана эффективная модель SVM;
5) реализована программа, предсказывающая на основании анализа тональности новостей движения индекса МосБиржи с интервалом в 1 день, которая показала 80 % уровень достоверности (программные коды исследования доступны по ссылке
https://github.com/daranikolaeva427/sentimentstockpredict2018).
Таким образом, впервые в отечественной лингвистике была предпринята попытка применения классификатора тональности политических новостей для финансового прогнозирования.
Дальнейшим развитием проекта является автоматизация подачи новостей на вход, так как сейчас это происходит вручную. Также предполагается агрегация новостей из разных новостных источников, для анализа медиадискурса не только качественными, но и количественными методами, что позволит проведение более глубоко анализа десигнативного и коннотативного компонентов. Более высокие результаты и точные предсказания может давать глубокий лингвистический анализ, вычленение ключевых предложений, выделение семантических ролей, определение тональности в пределах предложения. Кроме того, помимо анализа тональности в программу-предсказатель можно добавить технические индикаторы – значения открытия и закрытия торгов, это поможет увеличить точность системы.
Подобные работы
- АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ
НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 5700 р. Год сдачи: 2019 - ДИСКУРСИВНЫЕ АСПЕКТЫ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭМОЦИОНАЛЬНО-ОЦЕНОЧНЫХ ТОНАЛЬНОСТЕЙ В РУССКОЯЗЫЧНЫХ СМИ
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4855 р. Год сдачи: 2020 - МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ
ВАЛЮТНОГО РЫНКА НА ОСНОВЕ АНАЛИЗА ПОВЕДЕНЧЕСКИХ НАСТРОЕНИЙ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ МЕДИА
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2018 - ИНТЕРНЕТ КАК ПРОСТРАНСТВО ДЛЯ ПОСТРОЕНИЯ ПОЛИТИЧЕСКОГО ДИСКУРСА СОВРЕМЕННОЙ РОССИИ
Дипломные работы, ВКР, политология. Язык работы: Русский. Цена: 4290 р. Год сдачи: 2017 - Политический дискурс федеральных СМИ в период избирательной кампании (на примере президентских выборов 2018 года)
Бакалаврская работа, политология. Язык работы: Русский. Цена: 4270 р. Год сдачи: 2023 - «СВОЙ-ЧУЖОЙ» - ПЕРСПЕКТИВА КОНЦЕПТУАЛИЗАЦИИ ПРЕЗИДЕНТСКОЙ ВЛАСТИ ВО ФРАНЦИИ:
МАССМЕДИЙНЫЙ ПОЛИТИЧЕСКИЙ ДИСКУРС КАРИКАТУРЫ
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 5600 р. Год сдачи: 2016 - Прецедентные феномены как речевой инструмент инфотейнмента
Дипломные работы, ВКР, журналистика. Язык работы: Русский. Цена: 4260 р. Год сдачи: 2016 - ОПЕРАЦИЯ НАТО В АФГАНИСТАНЕ (2001 - 2014 гг.): ВОЕННО - ПОЛИТИЧЕСКИЙ
АСПЕКТ РЕШЕНИЯ АФГАНСКОГО ВОПРОСА»
Дипломные работы, ВКР, история . Язык работы: Русский. Цена: 4790 р. Год сдачи: 2020 - Лингвистические особенности фейковой новости как жанра в аспекте
когнитивной лингвистики
Дипломные работы, ВКР, педагогика. Язык работы: Русский. Цена: 4800 р. Год сдачи: 2020



