Опыт автоматического определения тональности русскоязычных пользовательских отзывов о бытовой электронике на основе дистрибутивных семантических моделей
Содержание 1
1 Введение 3
1.1 Введение 3
1.2 Цель работы 5
1.3 Постановка задач 6
2 Описание предметной области 7
2.1 Анализ тональности текста 7
2.2 Модели представления текста 8
2.3 Методы, основанные на векторных пространствах (semantic spaces) 10
2.4 Методы, основанные на словарях (тезаурусах) 13
2.5 “Bag of words” 14
2.6 Word2Vec 16
2.7 Doc2Vec 20
2.8 Support Vector Machine (SVM) 24
2.9 Random forest 25
3 Данные 27
3.1 Данные 27
3.2 Про сбор данных 29
3.3 Словарь тональности 32
4 Использование методов и моделей 33
4.1 «Мешок слов» 33
4.2 Word2Vec 34
4.3 Doc2Vec 38
4.4 Классификаторы, использовавшиеся для определения тональности: SVM 39
4.4 Классификаторы, использовавшиеся для определения тональности:
Random Forest 40
4.5 Проведение экспериментов 42
5 Экспериментальная часть 43
5.1 Оценка эффективности классификаторов 43
5.2 Эксперименты 46
5.3 Обобщение результатов экспериментов 51
5.4 Заключение 53
Список использованной литературы 54
Согласно исследованиям Forrester за последний период [1], всё большее число компаний для целей маркетинга и оценки уровня удовлетворенности потребителя используют анализ данных. Это помогает повышать показатели CLV (Customer Lifetime Value) и отслеживать лояльность к продуктам. Один из источников получения таких данных - медийные ресурсы, предоставляющие рецензии на услуги и товары. Помимо отслеживания показателей, использование методов анализа данных сделало возможными поиск и подбор товаров и услуг по определенным положительным или отрицательным аспектам, которые были извлечены, опираясь на отзывы пользователей. Кроме того, открываются новые возможности для использования в контекстной рекламе, которую можно выстраивать на основе положительных отзывов о товаре на интернет-странице с высказываниями.
Среди ресурсов, содержащих качественные отзывы покупателей, большую часть составляют различные интернет-магазины. Как правило, подобные сайты поддаются анализу отзывов из-за наличия детерминированной структуры и возможностей для поиска/фильтрации отзывов. Несмотря на неоднородность отзывов (они, как правило, содержат в себе как негативные, так и позитивные высказывания о различных аспектах и характеристиках товара), используя методы интеллектуального анализа текста, извлекать из рецензий тональность.
В середине прошлого столетия началось изучение возможностей создания математических моделей нейронных сетей, начало которым было положено в статье [2]. Основной мотивацией и идеей построения нейронной сети является моделирование нейронных сетей в человеческом мозге, работающий с помощью последовательности нейронов, соединенных между собой синапсами и передающих между собой информацию в виде электрических импульсов. Такие модели успешно справляются с задачами аналитических вычислений и генерирования новых данных, основываясь на изученном материале. В основе любой нейронной сети - совокупность элементарных вычислительных единиц, ответственных за обработку информации, накопление экспериментальных знаний и передачу информации для последующей обработки другим единицам. Нейронная сеть главным образом схожа с мозгом по следующим причинам:
- знания поступают в нейронную сеть из окружающей среды и используются в процессе обучения;
- для накопления знаний применяются связи между нейронами, называемыми синаптическими весами.
Нейросетевые модели и глубинное обучение успешно справляются с проблемой определения тональности текста: задача подразумевает обучение классификатора, способного определять тональность пользовательских отзывов на основе обработки размеченного набора документов.
В данной работе проводилось исследование методов глубинного обучения и некоторых их реализаций применительно анализа тональности текста. В качестве задачи для опытов использовалась задача определения тональности пользовательских отзывов сервиса ЯндексМаркет; отзывы собирались для этой работы специально.
Для сравнения были получены результаты, основанные на традиционном подходе, использовавшемся для определения тональности текстов - методе, основанном на размеченном словаре тональностей. Данный метод сильно зависим от того, насколько совпадает лексика, представленная в словаре с лексикой тестируемых документов. Более того, он не учитывает контекст слов и омонимию, что влияет на точность определения.
Другие рассмотренные модели используют векторное представление слов или документов. Наиболее популярная и эффективная модель «мешок слов» показала высокие результаты, но при возрастающем объеме данных увеличивается вычислительная сложность (или падает точность). Следующей рассмотренной моделью была Word2Vec - она имеет на выходе связанные синтаксически и семантически векторные представления слов, что позволяет ей показывать такой же по качеству результат, что и bag of words, но при этом эффективнее проводить вычисления на больших корпусах. Модель DocVec, основанная на векторном представлении предложений, показала аналогично высокий результат.
1. A Forrester Consulting, Marketing’s Big Leap Forward C. 3-6
2. McCalloch W.S., Pitts W. «А logical calculus of the ideas immanent in nervous activity», 1943
3. Simon Haykin. Neural Networks a Comprehensive Foundation. Hamilton, Ontario, Canada, Pearson Education, Inc., 1999.
4. Christopher Olah. Understanding LSTM Networks, http://colah.github.io
5. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space, In Proceedings of Workshop at International Conference on Learning Representations (ICLP) -2013
6. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. Distributed Representations of Word and Phrases and their Compositionaly, In Proceedings of Workshop at The Twenty-seventh Annual Conference on Neural Information Processing Systems (NIPS) - 2013
7. Tomas Mikolov, Quoc Le. Distributed Representations of Sentences and Documents, In Proceedings of Workshop at The 31st International Conference on Machine Learning (ICML) - 2014
8. Klenovkina M.V, Kotel’nikov E.V. Metod avtomaticheskoj klassifikacii tekstov po tonal’notsi, osnovannyj na slovare ehmocional’noj leksiki - RCDL-2012, Pereslavl’-Zalesskij, Rossiya, 15-18 oktyabrya 2012g. - C.74-86
9. Sebastian Pado and Mirella Lapata. Dependency-Based Construction of Semantic Space Models // 2007 Massachusetts Institute of Technology
https://alexanderdyakonov.wordpress.com/2016/11/14/случайный-лес-гаг^ om-forest/