Сентимент-анализ в машинном обучении с использованием русскоязычных данных
|
Оглавление 9
Определения, сокращения, обозначения, нормативные ссылки 11
Введение 12
1. Теоретическая часть 14
1.1. Препроцессинг текста 14
1.2 Мешок слов (Bag of words) 15
1.3 Word2vec 16
1.4 Модель логистической регрессии 17
1.5 Наивный Байесовский классификатор 17
1.6 LSTM с использованием word2vec 18
1.7 BERT 19
1.8 ROBERT 21
2. Практическая часть 22
2.1 Предварительная обработка данных 22
2.1.1 Разведочный анализ данных 22
2.2 Предобработка датасета 23
2.3. Классификация набора данных 24
2.3.1 Word2vec 24
2.3.2 Мешок слов (Bag of words) 24
2.4. Модели для определения тональности заголовков новостей в машинном
обучении 25
2.4.1 Модель логистической регрессии 25
2.4.2 Наивный Байесовский классификатор 26
2.4.3 LSTM с использованием word2vec 27
2.4.4 BERT модель 29
2.4.5 RoBerta модель 31
2.4.6 Выводы по результатам обучения моделей 32
3. Концепция стартап-проекта 34
3.1. Описание продукта как результата НИР 35
3.2. Интеллектуальная собственность 36
3.3. Объем и емкость рынка 37
3.4 Анализ современного состояния и перспектив развития отрасли 39
3.5 Планируемая стоимость продукта 40
3.6 Конкурентные преимущества создаваемого продукта 44
3.7 Бизнес-модель проекта. Производственный план и план продаж 45
3.8 Стратегия продвижения продукта на рынок 47
3.9 Вывод по разделу “Концепция стартап-проекта” 48
4. Социальная ответственность 49
4.1 Введение 49
4.2 Правовые и организационные вопросы обеспечения безопасности 49
4.3 Производственная безопасность 51
4.4 Экологическая безопасность 57
4.5. Безопасность в чрезвычайных ситуациях 58
4.6. Вывод по разделу “Социальная ответственность” 59
Заключение 61
Список использованных источников 63
Определения, сокращения, обозначения, нормативные ссылки 11
Введение 12
1. Теоретическая часть 14
1.1. Препроцессинг текста 14
1.2 Мешок слов (Bag of words) 15
1.3 Word2vec 16
1.4 Модель логистической регрессии 17
1.5 Наивный Байесовский классификатор 17
1.6 LSTM с использованием word2vec 18
1.7 BERT 19
1.8 ROBERT 21
2. Практическая часть 22
2.1 Предварительная обработка данных 22
2.1.1 Разведочный анализ данных 22
2.2 Предобработка датасета 23
2.3. Классификация набора данных 24
2.3.1 Word2vec 24
2.3.2 Мешок слов (Bag of words) 24
2.4. Модели для определения тональности заголовков новостей в машинном
обучении 25
2.4.1 Модель логистической регрессии 25
2.4.2 Наивный Байесовский классификатор 26
2.4.3 LSTM с использованием word2vec 27
2.4.4 BERT модель 29
2.4.5 RoBerta модель 31
2.4.6 Выводы по результатам обучения моделей 32
3. Концепция стартап-проекта 34
3.1. Описание продукта как результата НИР 35
3.2. Интеллектуальная собственность 36
3.3. Объем и емкость рынка 37
3.4 Анализ современного состояния и перспектив развития отрасли 39
3.5 Планируемая стоимость продукта 40
3.6 Конкурентные преимущества создаваемого продукта 44
3.7 Бизнес-модель проекта. Производственный план и план продаж 45
3.8 Стратегия продвижения продукта на рынок 47
3.9 Вывод по разделу “Концепция стартап-проекта” 48
4. Социальная ответственность 49
4.1 Введение 49
4.2 Правовые и организационные вопросы обеспечения безопасности 49
4.3 Производственная безопасность 51
4.4 Экологическая безопасность 57
4.5. Безопасность в чрезвычайных ситуациях 58
4.6. Вывод по разделу “Социальная ответственность” 59
Заключение 61
Список использованных источников 63
Сентимент-анализ - это мощное приложение машинного обучения, которое включает в себя анализ и категоризацию мнений, эмоций и отношения людей к различным темам, продуктам или услугам, выраженных в письменной или устной форме. С быстрым ростом социальных сетей, онлайн-обзоров и отзывов клиентов анализ настроений стал важным инструментом для бизнеса, позволяющим извлекать ценную информацию из огромных объемов неструктурированных данных. Он включает в себя использование методов обработки естественного языка (natural language processing, NLP) и алгоритмов машинного обучения для автоматического определения и классификации эмоций как положительных, отрицательных или нейтральных [1]. Анализ эмоций имеет множество применений, начиная от исследования рынка, управления брендом, обслуживания клиентов и политического анализа.
В данной работе мы рассмотрим основы обработки настроений с использованием машинного обучения, приложения и классические методы, используемые в предметной области.
В литературе выделяют два основных подхода к анализу настроений в машинном обучении: на основе правил и на основе машинного обучения.
Подходы, основанные на правилах, включают использование набора предопределенных правил или словарей для определения полярности тональности текста [2]. Эти правила или лексиконы состоят из списков слов и фраз, которые ассоциируются с положительными или отрицательными эмоциями. Тональность фрагмента текста определяется путем подсчета количества положительных и отрицательных слов в тексте и сравнения подсчетов.
С другой стороны, подходы, основанные на машинном обучении, включают обучение модели машинного обучения на размеченном наборе данных текста с известной полярностью настроений [3]. Модель обучается определять закономерности и взаимосвязи между словами и тональностью и использует эти знания для прогнозирования тональности нового текста. Популярные алгоритмы машинного обучения, используемые для анализа настроений, включают логистическую регрессию, наивный Байесовский классификатор,
Анализ настроений имеет множество применений в различных областях, включая исследования биржи. Благодаря ему, появляется возможность объективно оценить то или иное событие, связанное с желаемым опционом и ускорить принятие решения. Однако, интеллектуальная система запросто может столкнуться с переобучением и это уже негативно влияет на изучение опционной биржи, в которой важна скорость и взвешенность принятия решения.
Целью данной работы является исследование различных языковых моделей, направленных на сентимент-анализ финансовых новостей, и выбор наиболее точно обученной модели на основе критериев машинного обучения. Для достижения цели необходимо выполнить следующие задачи:
- Реализовать алгоритм предварительной обработки данных
- Выполнить анализ данных, используя стандартные модели
классификации типа “Bag of words”, “word2vec”.
- Построить несколько разных методов и техник в текстовом классификаторе: от самого простого до глубокого обучения, рассмотреть основные метрики оценки обучения модели.
- Выбрать наиболее точно обученную модель, опираясь на основные критерии оценивания качества обучения.
В данной работе мы рассмотрим основы обработки настроений с использованием машинного обучения, приложения и классические методы, используемые в предметной области.
В литературе выделяют два основных подхода к анализу настроений в машинном обучении: на основе правил и на основе машинного обучения.
Подходы, основанные на правилах, включают использование набора предопределенных правил или словарей для определения полярности тональности текста [2]. Эти правила или лексиконы состоят из списков слов и фраз, которые ассоциируются с положительными или отрицательными эмоциями. Тональность фрагмента текста определяется путем подсчета количества положительных и отрицательных слов в тексте и сравнения подсчетов.
С другой стороны, подходы, основанные на машинном обучении, включают обучение модели машинного обучения на размеченном наборе данных текста с известной полярностью настроений [3]. Модель обучается определять закономерности и взаимосвязи между словами и тональностью и использует эти знания для прогнозирования тональности нового текста. Популярные алгоритмы машинного обучения, используемые для анализа настроений, включают логистическую регрессию, наивный Байесовский классификатор,
Анализ настроений имеет множество применений в различных областях, включая исследования биржи. Благодаря ему, появляется возможность объективно оценить то или иное событие, связанное с желаемым опционом и ускорить принятие решения. Однако, интеллектуальная система запросто может столкнуться с переобучением и это уже негативно влияет на изучение опционной биржи, в которой важна скорость и взвешенность принятия решения.
Целью данной работы является исследование различных языковых моделей, направленных на сентимент-анализ финансовых новостей, и выбор наиболее точно обученной модели на основе критериев машинного обучения. Для достижения цели необходимо выполнить следующие задачи:
- Реализовать алгоритм предварительной обработки данных
- Выполнить анализ данных, используя стандартные модели
классификации типа “Bag of words”, “word2vec”.
- Построить несколько разных методов и техник в текстовом классификаторе: от самого простого до глубокого обучения, рассмотреть основные метрики оценки обучения модели.
- Выбрать наиболее точно обученную модель, опираясь на основные критерии оценивания качества обучения.
В рамках данной выпускной квалификационной работы было разработано программное обеспечение по сентимент-анализу заголовков новостей компаний, торгующих на бирже. Для этого был реализован алгоритм предварительной обработки данных, в котором выборка была подготовлена к дальнейшему обучению. Используя стандартные модели классификации: “Bag of words” и “word2vec”, была проведена векторизация.
В качестве главного компонента программного обеспечения были построены различные классификаторы и языковые модели, такие как: классификатор логистической регрессии, мультиномиальный наивный Байес, нейронная сеть LSTM, BERT и RoBERT. В качестве оценки качества обучения моделей была использована метрика точности. С помощью этого параметра была выбрана наиболее подходящая модель под данную задачу. Мы получили неудовлетворительные результаты обучения классификатора логистической регрессии, он показал плохую матрицу ошибок, наихудший показатель полноты (recall) определения положительной новости, однако время обучения было наименьшим среди всех моделей, общая точность составляет 51%. Мы делаем вывод, что модель линейной регрессии неудовлетворительно работает с мультиномиальной классификацией и больше адаптирована под два вида классов. Классификатор Наивного Байеса продемонстрировал среднюю общую точность - 70%, время обучения быстрое, чуть дольше чем у логистической регрессии. Эта модель хорошо работает с тремя классами, матрица ошибок удовлетворительная. Далее мы перешли на обучение языковых моделей в виде нейронных сетей, в частности рекуррентная сеть LSTM, она отличилась быстрой обучаемостью и вторым показателем точности среди всех моделей. Но она уступает BERT и RoBERT маленьким объемом словаря (30 тыс. слов) для проведения векторизации выборки, что затрудняет адаптацию модели под большую выборку данных. Оптимальной моделью сентимент-анализа оказалась языковая модель BERT, она продемонстрировала около 85% показателя определения правильных ответов, имела среднее время обучения - около 5 минут, использует свой словарь из 100 тыс. слов.
В качестве главного компонента программного обеспечения были построены различные классификаторы и языковые модели, такие как: классификатор логистической регрессии, мультиномиальный наивный Байес, нейронная сеть LSTM, BERT и RoBERT. В качестве оценки качества обучения моделей была использована метрика точности. С помощью этого параметра была выбрана наиболее подходящая модель под данную задачу. Мы получили неудовлетворительные результаты обучения классификатора логистической регрессии, он показал плохую матрицу ошибок, наихудший показатель полноты (recall) определения положительной новости, однако время обучения было наименьшим среди всех моделей, общая точность составляет 51%. Мы делаем вывод, что модель линейной регрессии неудовлетворительно работает с мультиномиальной классификацией и больше адаптирована под два вида классов. Классификатор Наивного Байеса продемонстрировал среднюю общую точность - 70%, время обучения быстрое, чуть дольше чем у логистической регрессии. Эта модель хорошо работает с тремя классами, матрица ошибок удовлетворительная. Далее мы перешли на обучение языковых моделей в виде нейронных сетей, в частности рекуррентная сеть LSTM, она отличилась быстрой обучаемостью и вторым показателем точности среди всех моделей. Но она уступает BERT и RoBERT маленьким объемом словаря (30 тыс. слов) для проведения векторизации выборки, что затрудняет адаптацию модели под большую выборку данных. Оптимальной моделью сентимент-анализа оказалась языковая модель BERT, она продемонстрировала около 85% показателя определения правильных ответов, имела среднее время обучения - около 5 минут, использует свой словарь из 100 тыс. слов.



