Тип работы:
Предмет:
Язык работы:


Автоматизированный прогноз краткосрочного движения стоимости ценных бумаг на основе нейронных сетей

Работа №186308

Тип работы

Дипломные работы, ВКР

Предмет

прикладная геодезия

Объем работы76
Год сдачи2022
Стоимость4760 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
16
Не подходит работа?

Узнай цену на написание


Аннотация 2
ВВЕДЕНИЕ 4
1 Методы и подходы к анализу текстов 8
1.1 Предварительная обработка текста 8
1.2 Методы векторного представления слов в тексте 9
1.2.1 Метод Bag Of Words 10
1.2.2 Метод Word2Vec 12
1.3 Задача классификации текстов 17
1.3.1 Определение задачи классификации документов 17
1.3.2 Подходы к классификации тональности документов 19
1.3.3 Численная оценка работы классификатора 21
2 Выбор программы для определения тональности текстов 24
2.1 Обзор существующих систем 24
2.2 Пакет Textblob 24
2.3 Пакет VADER Sentiment Analysis 26
2.4 Пакет FastText 27
2.5 Пакет Flair 29
2.6 Сравнение точности классификации пакетов 32
3 Работа пакета Flair 34
3.1 Контекстное вложение строк 34
3.2 Архитектура LSTM 34
3.3 Применение LSTM в пакете Flair 39
4 Практическая реализация 45
4.1 Формулировка задачи 45
4.2 Графики прогнозов и реальных стоимостей акций 49
ЗАКЛЮЧЕНИЕ 53
СПИСОК ЛИТЕРАТУРЫ 54
ПРИЛОЖЕНИЕ А Графики результатов анализа тональности комментариев
и реальных биржевых данных 56
ПРИЛОЖЕНИЕ Б Код разработанного программного обеспечения 61


С каждым годом все большее количество людей получает возможность доступа к интернету. В глобальной информационной сети люди ищут ответы на свои вопросы, общаются в социальных сетях, делятся мнением на форумах, пишут отзывы о товарах и услугах. В том числе, происходит обмен мнениями о прогнозах роста или снижения стоимости ценных бумаг. И всю эту информацию возможно анализировать в автоматическом режиме.
Обработка текстов на естественном языке в последние годы активно развивается. Особый интерес представляет понимание того, какое ожидание у людей имеется на стоимость акций компании. Если дела у компании идут хорошо, то мнения людей в интернете о компании будут преимущественно позитивные, иначе - негативные. Соответственно возможен рост либо снижение стоимости акций.
Среди участников рынка ценных бумаг имеется потребность в анализе мнений людей в комментариях на форумах и в социальных сетей о той или иной компании для возможности спрогнозировать рост или снижение стоимости акций. Для распознавания мнения пользователя, то есть определения позитивной или отрицательной окраски текста, применяется направление в области искусственного интеллекта, нейронных сетей и математической лингвистики - Обработка текстов на естественном языке (Natural Language Processing, NLP).
В представленной работе на примере анализа комментариев о компании Tesla в социальных сетях реализован автоматизированный прогноз краткосрочного движения стоимости ценных бумаг компании с использованием программных средств на основе нейронных сетей.
Tesla (ранее Tesla Motors) - одна из перспективных и широко известных компаний. Она была основана в 2003 г. В данный момент компания является одним из крупнейших производителей электромобилей, её дочерняя компания - SolarCity, является одним из крупнейших производителей солнечных панелей.
Влияние на стоимость акций Tesla имеет мнение обычных людей, акционеров и также владельцев электромобилей Tesla. В популярных социальных сетях в интернете, таких как Twitter, Instagram, Facebook, а также на форум-сайте Reddit ведется активное обсуждение той или иной модели электромобиля, качества сервиса, а также смежных с Tesla компаний, таких как SolarCity.
В данной работе для достижения цели используется метод анализа тональности текстов.
Данный метод обработки текстов естественного языка осуществляет автоматический анализ эмоциональной окрашенности предоставленного текста и эмоциональной оценки автора к объекту, о котором говориться в тексте. Метод применяется для прогнозирования цен на рынке биржевых акций на основе анализа тональностей текстов в потоке биржевых новостей [1], получения информации об удовлетворенности потребителя [2], распознавания ложной информации из новостных источников [3].
Задача анализа тональности текста состоит из трех этапов: предварительной обработки текста, перевода текста в вещественное пространство признаков и использования методов машинного обучения для последующей классификации тональности.
Предобработка текста - ключевой момент данного процесса, включающий в себя удаление стоп-слов, сегментацию и приведение слов к одной грамматической форме, маркировку частей речи и анализ.
Современные алгоритмы машинного обучения, используемые при решении подобных задач, ориентированы на признаковое описание объектов [4].
После предобработки анализируемый текст переводится в вещественное пространство признаков. Для этого чаще всего используются методы, основанные на статистической информации о словах, например, Bag Of Words («мешок слов») [5] или Word2Vec [6]. В этом случае каждому объекту соответствует вектор, длина которого равна количеству используемых слов во всех текстах выборки.
Заключительным шагом при анализе тональности текста является выбор подходящих для решения данной задачи алгоритмов машинного обучения. Как правило, анализ мнений на уровне документа может быть сформулирован как проблема классификации, которая определяет, какое мнение выражается - положительное, отрицательное или нейтральное. Классификаторы обучаются определять полярности рассматриваемых текстов.
В представленной работе исследуются существующие в настоящее время методы обработки естественного языка для анализа текстов комментариев в социальных сетях.
В первой главе описываются общие методы обработки естественного языка, используемые для предварительной обработки текстов.
Во второй главе исследуются существующие методы векторного представления слов в тексте: Bag Of Words («мешок слов») и Word2Vec.
В третьей главе описывается задача классификации документов и подходы к классификации тональности текстов.
Четвертая глава посвящена исследованию существующих пакетов для анализа тональности текстов и выбору оптимального программного средства для анализа комментариев в социальных сетях о компании Tesla.
В пятой главе описывается работа пакета Flair и архитектура применяемого в его основе метода контекстного вложения строк.
В шестой главе представлено описание реализации программной системы автоматизированного прогнозирования краткосрочного движения стоимости ценных бумаг компании на основе анализа тональности текстов комментариев в социальных сетях о компании Tesla.
Постановка задачи
Целью представленной выпускной квалификационной работы является создание программного обеспечения для прогнозирования роста или снижения стоимости акций компании на основе анализа текста комментариев пользователей форумов и социальных сетей об этой компании.
Для достижения поставленной цели было необходимо выполнить следующие задачи:
1) Изучить существующие методы и подходы к анализу текстов на предмет их позитивной или негативной эмоциональной окраски (далее - анализ тональности текста).
2) Изучить существующие программные средства (пакеты) автоматического анализа тональности текстов и выбрать наиболее оптимальные из них для прогнозирования роста или снижения стоимости акций.
3) Разработать программное обеспечение, которое:
- создает базу данных и автоматически заполняет её из Web-ресурса комментариями пользователей форумов и социальных сетей, которые были оставлены за определенный период времени;
- анализирует тональность комментариев с помощью выбранного программного обеспечения;
- строит график результатов анализа тональности комментариев и накладывает его на график реальных биржевых данных.
4) Провести анализ возможных причин расхождений полученных графиков.
5) Протестировать программное средство применительно к
комментариям в социальных сетях о компании Tesla.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы рассмотрена задача автоматического определения тональности текста, исследованы существующие методы и пакеты анализа текстов. Разработано программный пакет для автоматического сбора исходных данных и проведения анализа тональности комментариев пользователей социальных сетей с последующим построением графиков прогноза роста или снижения стоимости акций.
В ходе работы решены следующие задачи:
1. Исследованы существующие методы и подходы анализа текстов, используемые в области искусственного интеллекта, нейронных сетей.
2. Рассмотрены существующие программные пакеты
автоматического анализа тональности текстов и выбран наиболее оптимальный для определения эмоциональной окраски текста комментариев в социальных сетях.
3. Разработано программное обеспечение, реализующее:
- автоматическое заполнение базы данных комментариев из сайта Reddit на тему, связанную с деятельностью компании Tesla;
- анализ тональности собранных комментариев с помощью пакета Flair;
- формирование и наложение графиков тональности собранных комментариев и реальных биржевых данных для последующего прогноза динамики стоимости акций.
4. Построенные графики демонстрируют, что рост/снижение стоимости акций следует за ростом/снижением тональности комментариев пользователей социальных сетей о деятельности компании.
Полученные результаты показывают, что выбранный метод анализа тональности текстов применим для использования в прогнозе роста или снижения стоимости акций.
Поставленные в ВКР задачи выполнены.



1. Anurag Nagar. Using Text and Data Mining Techniques to extract Stock Market Sentiment from Live News Streams/ Anurag Nagar, Michael Hahsler // IPCSIT. - 2012. - Vol. 20.
2. Jeffrey Breen. Mining Twitter for Airline Consumer Sentiment // Boston Predictive Analytics Meetup Group. - 2011. - Oct 25.
3. Oluwaseun Ajao. Sentiment Aware Fake News Detection on Online Social Networks/ Oluwaseun Ajao, Deepayan Bhowmik, Shahrzad Zargari, // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Vol. 2019.
4. Котельников Е. В. Автоматический анализ тональности текстов на основе методов машинного обучения. / Котельников Е. В. ,Клековкина М. В. // РОМИП. - 2011.
5. Abdulaziz. An Overview of Bag of Words / Abdulaziz, Wisam & M. Ameen, Musa & Ahmed, Bilal // Importance, Implementation, Applications, and Challenges. - 2019. - P. 200-204.
6. Mikolov T. Efficient Estimation of Word Representations in Vector Space / Mikolov T., Chen K., Corrado G., Dean J. // In Proceedings of Workshop at ICLR. - 2013.
7. Автоматическая обработка текстов на естественном языке и анализ данных / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышински Э.С., Лукашевич Н.В., Сапин А.С. - М. : НИУ ВШЭ, 2017. - С. 17-18.
8. Кулагин Д.И. Открытый тональный словарь русского языка
КартаСловСент // Компьютерная лингвистика и интеллектуальные технологии: сб. материалов ежегодной Международной конференции
«Диалог». Вып. 20. - М.: РГГУ, 2021. - С. 1106-1119.
9. Alan Akbik. Contextual String Embeddings for Sequence Labeling. / Alan Akbik, Duncan Blythe, Roland Vollgraf // In Proceedings of the 27th International Conference on Computational Linguistics, Santa Fe, New Mexico, USA. Association for Computational Linguistics, 2018. - P. 1638-1649.
10. Sepp Hochreiter. Long short-term memory / Sepp Hochreiter; Jurgen Schmidhuber. // Neural Computation. - 1997. - Vol. 9, № 8. - P. 1735- 1780.



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ