Тема: Автоматизированный прогноз краткосрочного движения стоимости ценных бумаг на основе нейронных сетей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 4
1 Методы и подходы к анализу текстов 8
1.1 Предварительная обработка текста 8
1.2 Методы векторного представления слов в тексте 9
1.2.1 Метод Bag Of Words 10
1.2.2 Метод Word2Vec 12
1.3 Задача классификации текстов 17
1.3.1 Определение задачи классификации документов 17
1.3.2 Подходы к классификации тональности документов 19
1.3.3 Численная оценка работы классификатора 21
2 Выбор программы для определения тональности текстов 24
2.1 Обзор существующих систем 24
2.2 Пакет Textblob 24
2.3 Пакет VADER Sentiment Analysis 26
2.4 Пакет FastText 27
2.5 Пакет Flair 29
2.6 Сравнение точности классификации пакетов 32
3 Работа пакета Flair 34
3.1 Контекстное вложение строк 34
3.2 Архитектура LSTM 34
3.3 Применение LSTM в пакете Flair 39
4 Практическая реализация 45
4.1 Формулировка задачи 45
4.2 Графики прогнозов и реальных стоимостей акций 49
ЗАКЛЮЧЕНИЕ 53
СПИСОК ЛИТЕРАТУРЫ 54
ПРИЛОЖЕНИЕ А Графики результатов анализа тональности комментариев
и реальных биржевых данных 56
ПРИЛОЖЕНИЕ Б Код разработанного программного обеспечения 61
📖 Введение
Обработка текстов на естественном языке в последние годы активно развивается. Особый интерес представляет понимание того, какое ожидание у людей имеется на стоимость акций компании. Если дела у компании идут хорошо, то мнения людей в интернете о компании будут преимущественно позитивные, иначе - негативные. Соответственно возможен рост либо снижение стоимости акций.
Среди участников рынка ценных бумаг имеется потребность в анализе мнений людей в комментариях на форумах и в социальных сетей о той или иной компании для возможности спрогнозировать рост или снижение стоимости акций. Для распознавания мнения пользователя, то есть определения позитивной или отрицательной окраски текста, применяется направление в области искусственного интеллекта, нейронных сетей и математической лингвистики - Обработка текстов на естественном языке (Natural Language Processing, NLP).
В представленной работе на примере анализа комментариев о компании Tesla в социальных сетях реализован автоматизированный прогноз краткосрочного движения стоимости ценных бумаг компании с использованием программных средств на основе нейронных сетей.
Tesla (ранее Tesla Motors) - одна из перспективных и широко известных компаний. Она была основана в 2003 г. В данный момент компания является одним из крупнейших производителей электромобилей, её дочерняя компания - SolarCity, является одним из крупнейших производителей солнечных панелей.
Влияние на стоимость акций Tesla имеет мнение обычных людей, акционеров и также владельцев электромобилей Tesla. В популярных социальных сетях в интернете, таких как Twitter, Instagram, Facebook, а также на форум-сайте Reddit ведется активное обсуждение той или иной модели электромобиля, качества сервиса, а также смежных с Tesla компаний, таких как SolarCity.
В данной работе для достижения цели используется метод анализа тональности текстов.
Данный метод обработки текстов естественного языка осуществляет автоматический анализ эмоциональной окрашенности предоставленного текста и эмоциональной оценки автора к объекту, о котором говориться в тексте. Метод применяется для прогнозирования цен на рынке биржевых акций на основе анализа тональностей текстов в потоке биржевых новостей [1], получения информации об удовлетворенности потребителя [2], распознавания ложной информации из новостных источников [3].
Задача анализа тональности текста состоит из трех этапов: предварительной обработки текста, перевода текста в вещественное пространство признаков и использования методов машинного обучения для последующей классификации тональности.
Предобработка текста - ключевой момент данного процесса, включающий в себя удаление стоп-слов, сегментацию и приведение слов к одной грамматической форме, маркировку частей речи и анализ.
Современные алгоритмы машинного обучения, используемые при решении подобных задач, ориентированы на признаковое описание объектов [4].
После предобработки анализируемый текст переводится в вещественное пространство признаков. Для этого чаще всего используются методы, основанные на статистической информации о словах, например, Bag Of Words («мешок слов») [5] или Word2Vec [6]. В этом случае каждому объекту соответствует вектор, длина которого равна количеству используемых слов во всех текстах выборки.
Заключительным шагом при анализе тональности текста является выбор подходящих для решения данной задачи алгоритмов машинного обучения. Как правило, анализ мнений на уровне документа может быть сформулирован как проблема классификации, которая определяет, какое мнение выражается - положительное, отрицательное или нейтральное. Классификаторы обучаются определять полярности рассматриваемых текстов.
В представленной работе исследуются существующие в настоящее время методы обработки естественного языка для анализа текстов комментариев в социальных сетях.
В первой главе описываются общие методы обработки естественного языка, используемые для предварительной обработки текстов.
Во второй главе исследуются существующие методы векторного представления слов в тексте: Bag Of Words («мешок слов») и Word2Vec.
В третьей главе описывается задача классификации документов и подходы к классификации тональности текстов.
Четвертая глава посвящена исследованию существующих пакетов для анализа тональности текстов и выбору оптимального программного средства для анализа комментариев в социальных сетях о компании Tesla.
В пятой главе описывается работа пакета Flair и архитектура применяемого в его основе метода контекстного вложения строк.
В шестой главе представлено описание реализации программной системы автоматизированного прогнозирования краткосрочного движения стоимости ценных бумаг компании на основе анализа тональности текстов комментариев в социальных сетях о компании Tesla.
Постановка задачи
Целью представленной выпускной квалификационной работы является создание программного обеспечения для прогнозирования роста или снижения стоимости акций компании на основе анализа текста комментариев пользователей форумов и социальных сетей об этой компании.
Для достижения поставленной цели было необходимо выполнить следующие задачи:
1) Изучить существующие методы и подходы к анализу текстов на предмет их позитивной или негативной эмоциональной окраски (далее - анализ тональности текста).
2) Изучить существующие программные средства (пакеты) автоматического анализа тональности текстов и выбрать наиболее оптимальные из них для прогнозирования роста или снижения стоимости акций.
3) Разработать программное обеспечение, которое:
- создает базу данных и автоматически заполняет её из Web-ресурса комментариями пользователей форумов и социальных сетей, которые были оставлены за определенный период времени;
- анализирует тональность комментариев с помощью выбранного программного обеспечения;
- строит график результатов анализа тональности комментариев и накладывает его на график реальных биржевых данных.
4) Провести анализ возможных причин расхождений полученных графиков.
5) Протестировать программное средство применительно к
комментариям в социальных сетях о компании Tesla.
✅ Заключение
В ходе работы решены следующие задачи:
1. Исследованы существующие методы и подходы анализа текстов, используемые в области искусственного интеллекта, нейронных сетей.
2. Рассмотрены существующие программные пакеты
автоматического анализа тональности текстов и выбран наиболее оптимальный для определения эмоциональной окраски текста комментариев в социальных сетях.
3. Разработано программное обеспечение, реализующее:
- автоматическое заполнение базы данных комментариев из сайта Reddit на тему, связанную с деятельностью компании Tesla;
- анализ тональности собранных комментариев с помощью пакета Flair;
- формирование и наложение графиков тональности собранных комментариев и реальных биржевых данных для последующего прогноза динамики стоимости акций.
4. Построенные графики демонстрируют, что рост/снижение стоимости акций следует за ростом/снижением тональности комментариев пользователей социальных сетей о деятельности компании.
Полученные результаты показывают, что выбранный метод анализа тональности текстов применим для использования в прогнозе роста или снижения стоимости акций.
Поставленные в ВКР задачи выполнены.





