Тема: Сентимент-анализ в машинном обучении с использованием русскоязычных данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Определения, сокращения, обозначения, нормативные ссылки 11
Введение 12
1. Теоретическая часть 14
1.1. Препроцессинг текста 14
1.2 Мешок слов (Bag of words) 15
1.3 Word2vec 16
1.4 Модель логистической регрессии 17
1.5 Наивный Байесовский классификатор 17
1.6 LSTM с использованием word2vec 18
1.7 BERT 19
1.8 ROBERT 21
2. Практическая часть 22
2.1 Предварительная обработка данных 22
2.1.1 Разведочный анализ данных 22
2.2 Предобработка датасета 23
2.3. Классификация набора данных 24
2.3.1 Word2vec 24
2.3.2 Мешок слов (Bag of words) 24
2.4. Модели для определения тональности заголовков новостей в машинном
обучении 25
2.4.1 Модель логистической регрессии 25
2.4.2 Наивный Байесовский классификатор 26
2.4.3 LSTM с использованием word2vec 27
2.4.4 BERT модель 29
2.4.5 RoBerta модель 31
2.4.6 Выводы по результатам обучения моделей 32
3. Концепция стартап-проекта 34
3.1. Описание продукта как результата НИР 35
3.2. Интеллектуальная собственность 36
3.3. Объем и емкость рынка 37
3.4 Анализ современного состояния и перспектив развития отрасли 39
3.5 Планируемая стоимость продукта 40
3.6 Конкурентные преимущества создаваемого продукта 44
3.7 Бизнес-модель проекта. Производственный план и план продаж 45
3.8 Стратегия продвижения продукта на рынок 47
3.9 Вывод по разделу “Концепция стартап-проекта” 48
4. Социальная ответственность 49
4.1 Введение 49
4.2 Правовые и организационные вопросы обеспечения безопасности 49
4.3 Производственная безопасность 51
4.4 Экологическая безопасность 57
4.5. Безопасность в чрезвычайных ситуациях 58
4.6. Вывод по разделу “Социальная ответственность” 59
Заключение 61
Список использованных источников 63
📖 Введение
В данной работе мы рассмотрим основы обработки настроений с использованием машинного обучения, приложения и классические методы, используемые в предметной области.
В литературе выделяют два основных подхода к анализу настроений в машинном обучении: на основе правил и на основе машинного обучения.
Подходы, основанные на правилах, включают использование набора предопределенных правил или словарей для определения полярности тональности текста [2]. Эти правила или лексиконы состоят из списков слов и фраз, которые ассоциируются с положительными или отрицательными эмоциями. Тональность фрагмента текста определяется путем подсчета количества положительных и отрицательных слов в тексте и сравнения подсчетов.
С другой стороны, подходы, основанные на машинном обучении, включают обучение модели машинного обучения на размеченном наборе данных текста с известной полярностью настроений [3]. Модель обучается определять закономерности и взаимосвязи между словами и тональностью и использует эти знания для прогнозирования тональности нового текста. Популярные алгоритмы машинного обучения, используемые для анализа настроений, включают логистическую регрессию, наивный Байесовский классификатор,
Анализ настроений имеет множество применений в различных областях, включая исследования биржи. Благодаря ему, появляется возможность объективно оценить то или иное событие, связанное с желаемым опционом и ускорить принятие решения. Однако, интеллектуальная система запросто может столкнуться с переобучением и это уже негативно влияет на изучение опционной биржи, в которой важна скорость и взвешенность принятия решения.
Целью данной работы является исследование различных языковых моделей, направленных на сентимент-анализ финансовых новостей, и выбор наиболее точно обученной модели на основе критериев машинного обучения. Для достижения цели необходимо выполнить следующие задачи:
- Реализовать алгоритм предварительной обработки данных
- Выполнить анализ данных, используя стандартные модели
классификации типа “Bag of words”, “word2vec”.
- Построить несколько разных методов и техник в текстовом классификаторе: от самого простого до глубокого обучения, рассмотреть основные метрики оценки обучения модели.
- Выбрать наиболее точно обученную модель, опираясь на основные критерии оценивания качества обучения.
✅ Заключение
В качестве главного компонента программного обеспечения были построены различные классификаторы и языковые модели, такие как: классификатор логистической регрессии, мультиномиальный наивный Байес, нейронная сеть LSTM, BERT и RoBERT. В качестве оценки качества обучения моделей была использована метрика точности. С помощью этого параметра была выбрана наиболее подходящая модель под данную задачу. Мы получили неудовлетворительные результаты обучения классификатора логистической регрессии, он показал плохую матрицу ошибок, наихудший показатель полноты (recall) определения положительной новости, однако время обучения было наименьшим среди всех моделей, общая точность составляет 51%. Мы делаем вывод, что модель линейной регрессии неудовлетворительно работает с мультиномиальной классификацией и больше адаптирована под два вида классов. Классификатор Наивного Байеса продемонстрировал среднюю общую точность - 70%, время обучения быстрое, чуть дольше чем у логистической регрессии. Эта модель хорошо работает с тремя классами, матрица ошибок удовлетворительная. Далее мы перешли на обучение языковых моделей в виде нейронных сетей, в частности рекуррентная сеть LSTM, она отличилась быстрой обучаемостью и вторым показателем точности среди всех моделей. Но она уступает BERT и RoBERT маленьким объемом словаря (30 тыс. слов) для проведения векторизации выборки, что затрудняет адаптацию модели под большую выборку данных. Оптимальной моделью сентимент-анализа оказалась языковая модель BERT, она продемонстрировала около 85% показателя определения правильных ответов, имела среднее время обучения - около 5 минут, использует свой словарь из 100 тыс. слов.



