АНАЛИЗ ТОНАЛЬНОСТИ ПОСТОВ TELEGRAM-КАНАЛОВ НА РЫНКЕ АКЦИЙ С ПОМОЩЬЮ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ,- выпускная квалификационная работа

Содержание

Аннотация
ВВЕДЕНИЕ 3
1 Актуальность и анализ требований 4
1.1 Требования 4
1.2 Актуальность 4
2 Технологии 6
2.1 Программные средства 6
2.2 Предметная область 7
3 Данные 13
3.1 Набор данных 13
3.2 Подготовка данных 14
4 Распознавание именованных сущностей 17
4.1 Алгоритм выделения компаний в тексте 17
4.2 Решение задачи NER с помощью нейронных сетей 19
4.3 XLM-RoBERTa-large 25
5 Анализ тональности 30
5.1 CatBoostClassifier 30
5.2 Сравнение моделей для анализа тональности 35
ЗАКЛЮЧЕНИЕ 40
ЛИТЕРАТУРА 41

Введение

В последние годы Telegram стал одним из самых популярных мессенджеров для общения и распространения информации. Особую популярность получили Telegram-каналы, посвященные инвестициям и изменениям на рынке акций и фондовых биржах. Такие каналы предоставляют инвесторам и трейдерам ценную информацию, например, новости рынка, советы по инвестированию и анализ изменений цен на акции.
Анализ тональности постов в таких каналах может быть полезен для предсказания изменений настроений на рынке акций, так как отношение инвесторов к разным компаниям может отражать их ожидания в финансовом плане. Это поможет трейдерам принимать более обдуманные решения, предсказывать рыночные тенденции и получать конкурентное преимущество на рынке.
Однако существует сложность в решении это й задачи. В одном сообщении могут упоминаться несколько компаний, а отзывы к ним могут быть как положительными, так и отрицательными. Иногда в посте может вообще отсутствовать упоминание компании.
Для решения этой проблемы необходимо разработать систему, способную анализировать тональность текста относительно каждой конкретной упомянутой компании. Для этого можно использовать методы машинного обучения, которые позволять классифицировать отзывы к разным компаниям и выявлять общие тенденции на рынке. Такой подход поможет инвесторам быть более информированными и принимать обоснованные решения при инвестировании.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В процессе анализа предметной области были выявлены причины, по которым проделываемую работу можно считать актуальной.
В ходе работы были рассмотрены разные варианты выполнения поставленных задач, разобраны алгоритмы и архитектуры моделей машинного обучения, необходимые для разработки интеллектуальной системы.
В результате данной работы были собраны необходимые требования для достижения цели, и была создана система, способная в посте из Telegram-канала выделить названия компаний и определить эмоциональную окраску текста относительно них.
В ходе выполнения выпускной квалификационной работы были выполнены следующие задачи:
1. Сформировать требования к разрабатываемой системе;
2. Определить программные средства, необходимые для разработки;
3. Выполнить поиск набора данных, подходящего под требования;
4. Подготовить данные;
5. Выделить в тексте названия нужных компаний;
6. Разметить текст;
7. Дообучить или взять готовую модель для определения сущностей в тексте;
8. Создать и обучить модель для анализа тональности;
9. Провести тесты системы.

Литература

1) Hakaton Gagarin Sentiment Interface [Электронный ресурс] /
Github. - Режим доступа: https://github.com/postolitegor/hakaton-gagarin-
sentiment -interface, свободный. - Загл. С экрана.
2) XLM and XLM-RoBERTa [Электронный ресурс] URL:
https://www.scaler.com/topics/nlp/xlm-roberta/
3) Тикер - Википедия [Электронный ресурс] URL:
https: //ru.wikipedia. org/wiki/Т икер
4) Шпаргалка по регулярным выражениям Python 2023 [Электронный ресурс] URL: https://vc.ru/u/1389654-machine-learning/595154- shpargalka-po-regulvarnvm-vvrazhenivam-pvthon-2023
5) PvTorch: что за фреймворк и для чего нужен, обзор [Электронный ресурс] URL: https://blog.skillfactorv.ru/glossarv/pvtorch/
6) Анализ текстовых данных с помощью NLTK и Pvthon [Электронный ресурс] URL: https://habr.com/ru/companies/otus/articles/774498/
7) Основы Natural Language Processing для текста [Электронный ресурс] URL: https://habr.com/ru/companies/Voximplant/articles/446738/
8) Введение в библиотеку Transformers и платформу Hugging Face [Электронный ресурс] URL: https://habr.com/ru/articles/704592/
9) Transformer в картинках [Электронный ресурс] URL: https://habr.com/ru/articles/486358/
10) Кодирование категориальных переменных [Электронный ресурс] URL: https://www.dmitrvmakarov.ru/data-analvsis/encoding-10/
11) Освоение анализа данных с помощью CatBoost на Pvthon:
подробное руководство [Электронный ресурс] URL:
https://docs.kanaries.net/topics/Pvthon/catboost
12) Ансамблевые алгоритмы Spark ML: градиентный бустинг [Электронный ресурс] URL: https://spark-school.ru/blog/gradient-boosting-ml/
13) Градиентный бустинг [Электронный ресурс] URL: https://education.vandex.ru/handbook/ml/article/gradientnvj-busting
14) Градиентый бустинг — просто о сложном [Электронный ресурс] URL: https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/
15) A Comprehensive Guide to Ensemble Learning [Электронный
ресурс] URL: https://www.geeksforgeeks.org/a-comprehensive-guide-to-
ensemble-learning
... всего 19 истчников