🔍 Поиск работ

Сентимент-анализ в машинном обучении с использованием русскоязычных данных

Работа №204824

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы66
Год сдачи2023
Стоимость4290 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
19
Не подходит работа?

Узнай цену на написание


Оглавление 9
Определения, сокращения, обозначения, нормативные ссылки 11
Введение 12
1. Теоретическая часть 14
1.1. Препроцессинг текста 14
1.2 Мешок слов (Bag of words) 15
1.3 Word2vec 16
1.4 Модель логистической регрессии 17
1.5 Наивный Байесовский классификатор 17
1.6 LSTM с использованием word2vec 18
1.7 BERT 19
1.8 ROBERT 21
2. Практическая часть 22
2.1 Предварительная обработка данных 22
2.1.1 Разведочный анализ данных 22
2.2 Предобработка датасета 23
2.3. Классификация набора данных 24
2.3.1 Word2vec 24
2.3.2 Мешок слов (Bag of words) 24
2.4. Модели для определения тональности заголовков новостей в машинном
обучении 25
2.4.1 Модель логистической регрессии 25
2.4.2 Наивный Байесовский классификатор 26
2.4.3 LSTM с использованием word2vec 27
2.4.4 BERT модель 29
2.4.5 RoBerta модель 31
2.4.6 Выводы по результатам обучения моделей 32
3. Концепция стартап-проекта 34
3.1. Описание продукта как результата НИР 35
3.2. Интеллектуальная собственность 36
3.3. Объем и емкость рынка 37
3.4 Анализ современного состояния и перспектив развития отрасли 39
3.5 Планируемая стоимость продукта 40
3.6 Конкурентные преимущества создаваемого продукта 44
3.7 Бизнес-модель проекта. Производственный план и план продаж 45
3.8 Стратегия продвижения продукта на рынок 47
3.9 Вывод по разделу “Концепция стартап-проекта” 48
4. Социальная ответственность 49
4.1 Введение 49
4.2 Правовые и организационные вопросы обеспечения безопасности 49
4.3 Производственная безопасность 51
4.4 Экологическая безопасность 57
4.5. Безопасность в чрезвычайных ситуациях 58
4.6. Вывод по разделу “Социальная ответственность” 59
Заключение 61
Список использованных источников 63

Сентимент-анализ - это мощное приложение машинного обучения, которое включает в себя анализ и категоризацию мнений, эмоций и отношения людей к различным темам, продуктам или услугам, выраженных в письменной или устной форме. С быстрым ростом социальных сетей, онлайн-обзоров и отзывов клиентов анализ настроений стал важным инструментом для бизнеса, позволяющим извлекать ценную информацию из огромных объемов неструктурированных данных. Он включает в себя использование методов обработки естественного языка (natural language processing, NLP) и алгоритмов машинного обучения для автоматического определения и классификации эмоций как положительных, отрицательных или нейтральных [1]. Анализ эмоций имеет множество применений, начиная от исследования рынка, управления брендом, обслуживания клиентов и политического анализа.
В данной работе мы рассмотрим основы обработки настроений с использованием машинного обучения, приложения и классические методы, используемые в предметной области.
В литературе выделяют два основных подхода к анализу настроений в машинном обучении: на основе правил и на основе машинного обучения.
Подходы, основанные на правилах, включают использование набора предопределенных правил или словарей для определения полярности тональности текста [2]. Эти правила или лексиконы состоят из списков слов и фраз, которые ассоциируются с положительными или отрицательными эмоциями. Тональность фрагмента текста определяется путем подсчета количества положительных и отрицательных слов в тексте и сравнения подсчетов.
С другой стороны, подходы, основанные на машинном обучении, включают обучение модели машинного обучения на размеченном наборе данных текста с известной полярностью настроений [3]. Модель обучается определять закономерности и взаимосвязи между словами и тональностью и использует эти знания для прогнозирования тональности нового текста. Популярные алгоритмы машинного обучения, используемые для анализа настроений, включают логистическую регрессию, наивный Байесовский классификатор,
Анализ настроений имеет множество применений в различных областях, включая исследования биржи. Благодаря ему, появляется возможность объективно оценить то или иное событие, связанное с желаемым опционом и ускорить принятие решения. Однако, интеллектуальная система запросто может столкнуться с переобучением и это уже негативно влияет на изучение опционной биржи, в которой важна скорость и взвешенность принятия решения.
Целью данной работы является исследование различных языковых моделей, направленных на сентимент-анализ финансовых новостей, и выбор наиболее точно обученной модели на основе критериев машинного обучения. Для достижения цели необходимо выполнить следующие задачи:
- Реализовать алгоритм предварительной обработки данных
- Выполнить анализ данных, используя стандартные модели
классификации типа “Bag of words”, “word2vec”.
- Построить несколько разных методов и техник в текстовом классификаторе: от самого простого до глубокого обучения, рассмотреть основные метрики оценки обучения модели.
- Выбрать наиболее точно обученную модель, опираясь на основные критерии оценивания качества обучения.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы было разработано программное обеспечение по сентимент-анализу заголовков новостей компаний, торгующих на бирже. Для этого был реализован алгоритм предварительной обработки данных, в котором выборка была подготовлена к дальнейшему обучению. Используя стандартные модели классификации: “Bag of words” и “word2vec”, была проведена векторизация.
В качестве главного компонента программного обеспечения были построены различные классификаторы и языковые модели, такие как: классификатор логистической регрессии, мультиномиальный наивный Байес, нейронная сеть LSTM, BERT и RoBERT. В качестве оценки качества обучения моделей была использована метрика точности. С помощью этого параметра была выбрана наиболее подходящая модель под данную задачу. Мы получили неудовлетворительные результаты обучения классификатора логистической регрессии, он показал плохую матрицу ошибок, наихудший показатель полноты (recall) определения положительной новости, однако время обучения было наименьшим среди всех моделей, общая точность составляет 51%. Мы делаем вывод, что модель линейной регрессии неудовлетворительно работает с мультиномиальной классификацией и больше адаптирована под два вида классов. Классификатор Наивного Байеса продемонстрировал среднюю общую точность - 70%, время обучения быстрое, чуть дольше чем у логистической регрессии. Эта модель хорошо работает с тремя классами, матрица ошибок удовлетворительная. Далее мы перешли на обучение языковых моделей в виде нейронных сетей, в частности рекуррентная сеть LSTM, она отличилась быстрой обучаемостью и вторым показателем точности среди всех моделей. Но она уступает BERT и RoBERT маленьким объемом словаря (30 тыс. слов) для проведения векторизации выборки, что затрудняет адаптацию модели под большую выборку данных. Оптимальной моделью сентимент-анализа оказалась языковая модель BERT, она продемонстрировала около 85% показателя определения правильных ответов, имела среднее время обучения - около 5 минут, использует свой словарь из 100 тыс. слов.



1. Лысенко, В. Д. Анализ тональности текста для прогнозирования цен на фондовом рынке / В. Д. Лысенко. — Текст : непосредственный // Молодой ученый. — 2018. — № 22 (208). — С. 420-423. — URL: https://moluch.ru/archive/208/51025/(дата обращения: 24.05.2023).
2. Проблема классификации текстов и дифференцирующие признаки / И.В. Поляков, Т.В. Соколова, А.А. Чеповский, А.М. Чеповский // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2015. Т. 13. №.2. С. 55-63.
3. Гречачин В.А. К вопросу о токенизации текста // Международный научно-исследовательский журнал. 2016. №. 6 (48). С. 25-27.
4. Wallach H.M. Topic modeling: beyond bag-of-words // Proceedings of the 23rd international conference on Machine learning. 2006. Pp. 977-984.
5. Rong X. word2vec parameter learning explained // arXiv preprint arXiv:1411.2738. 2014.
6. Medhat W., Hassan A., Korashy H. Sentiment analysis algorithms and applications: A survey // Ain Shams engineering journal. 2014. Vol. 5(4). Pp. 1093-1113.
7. Проблема классификации текстов и дифференцирующие признаки / И.В. Поляков, Т.В. Соколова, А.А. Чеповский, А.М. Чеповский // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2015. Т. 13. №. 2. С. 55-63.
8. Tarasov D. S. Deep recurrent neural networks for multiple language aspect-based sentiment analysis of user reviews // Proceedings of the 21st international conference on computational linguistics dialog. 2015. Vol. 2. Pp. 53-64.
9. Feature selection for text classification with Naive Bayes / J. Chen, H. Huang, S. Tian, Y. Qu //Expert Systems with Applications. 2009. Vol. 36(3). Pp. 5432-5435.
10. Understanding LSTM Networks. URL: http://colah.github.io/ posts/2015-08-Understanding-LSTMs (дата обращения: 21.05.2023).
11. Horev R. BERT Explained: State of the art language model for NLP // Towards Data Science. 2018. Vol. 10.
12. Yarushkina N.G., Moshkin V.S., Andreev I A. The sentiment-analysis algorithm of social networks text resources based on ontology // Proceedings of the ITNT 2020. 2020. Pp. 226-232.
13. Learning word vectors for sentiment analysis / A. Maas, R.E. Daly, P.T. Pham, D. Huang, A.Y. Ng, C. Potts // Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies. 2011. С. 142-150.
14. Loukachevitch N. V., Chetviorkin I. I. Open evaluation of sentiment analysis systems based on the material of the Russian language // Scientific and Technical Information Processing. 2014. Vol. 41. Pp. 370-376.
15. Посевкин Р.В., Бессмертный И.А. Применение
сентимент-анализа текстов для оценки общественного мнения // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. №. 1. С. 169-171.
16. ГОСТ 12.0.002-2014 ССБТ. Термины и определения
17. ТОИ Р-45-084-01 Типовая инструкция по охране труда при работе на персональном компьютере
18. ГОСТ 12.2.032-78 Система стандартов безопасности труда (ССБТ). Рабочее место при выполнении работ сидя. Общие эргономические требования. [Электронный ресурс] Режим доступа: http://docs.cntd.ru/document/1200005187 - свободный (дата обращения: 27.05.2023)
19. СП 52.13330.2016. Естественное и искусственное освещение. Актуализированная редакция СНиП 23-05-95*. -М.: ИПК Изд-во стандартов, 2017. - 122 с.
20. ГОСТ 12.1.038-82 Система стандартов безопасности труда (ССБТ). Электробезопасность. Предельно допустимые значения напряжений прикосновения и токов
21. СП 12.13130.2009. Определение категорий помещений, зданий и наружных установок по взрывопожарной и пожарной опасности.
22. СанПиН 1.2.3685-21 «Гигиенические нормативы и требования к обеспечению безопасности и (или) безвредности для человека факторов среды обитания» // Электронный фонд правовой и нормативно технической документации [Электронный ресурс]. 2021. - Режим доступа: https://docs.cntd.ru/document/573500115(дата обращения: 12.03.2023);


Работу высылаем на протяжении 30 минут после оплаты.




©2026 Cервис помощи студентам в выполнении работ