Введение 3
Глава I. Автоматический анализ тональности как область прикладной лингвистики 5
1.1. Автоматический анализ тональности в современном мире 5
1.2. Задачи анализа тональности 6
1.3. Виды классификации тональности 8
1.4. Проблемы автоматического определения тональности 9
1.5. Методы определения тональности текстов 11
1.6. Обзор работ по автоматическому составлению тональных словарей 16
1.7. Выводы к главе 1 21
Глава II. Разработка системы автоматического пополнения тональных
словарей для банковской сферы 23
2.1. Постановка задачи и описание алгоритма 23
2.2. Инструменты и технологии 26
2.3. Реализация алгоритма 32
2.4. Оценка работы алгоритма 40
2.5. Выводы к главе II 44
Заключение 46
Список использованной литературы 49
Приложение 1. Словарь положительно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 54
Приложение 2. Словарь отрицательно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 61
Приложение 3. Словарь отрицательно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 72
Приложение 4. Словарь положительно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 76
С развитием интернета и появлением социальных сетей пользователи получили возможность выражать свое мнение. Это мнение может быть относительно услуги или товара, фильма или книги, компании или политического деятеля. Возникла потребность обрабатывать огромные объемы информации для определения отношения пользователей к тому или иному объекту. Однако, количество отзывов достигает десятков тысяч, и обработка отзывов вручную оказывается невозможной. В связи с этим широкое распространение получили автоматизированные подходы к анализу тональности (sentiment analysis).
Цель работы - разработка и реализация алгоритма автоматического пополнения предметно-ориентированных тональных словарей.
В соответствии с поставленной целью решаются следующие задачи:
- изучить литературу, посвященную анализу тональности;
- рассмотреть существующие методы анализа тональности;
- рассмотреть методы пополнения тональных словарей;
- разработать алгоритм автоматического пополнения тональных словарей для банковской сферы;
- применить полученный алгоритм и оценить качество работы алгоритма.
Актуальность работы. В последнее время большое внимание направлено на решение задачи анализа тональности в различных предметных областях. Автоматизированные подходы к анализу тональности могут быть полезны как для государственных органов и политиков, так и для компаний и простых пользователей. Одной из важнейших задач для анализа тональности является создание словарей оценочных слов.
Многие исследователи создают словари общеупотребительных оценочных слов. Однако известно, что в разных предметных областях могут применяться достаточно разные наборы оценочных выражений. Так, например, одно и то же слово может выражать противоположные тональности: «The battery life is long» (Батарея работает долго - положительная тональность) и «The time taken to focus is long» (Долго фокусируется - отрицательная тональность). Необходимость разработки алгоритма автоматического пополнения предметно-ориентированных тональных словарей обусловливает актуальность данной работы.
Научная новизна работы заключается в обращении к ранее мало изученной предметной области - тональным словарям банковской сферы.
Методы исследования. В качестве основных методов исследования следует назвать описательный метод, статистический метод и метод машинного обучения.
Практическая значимость данной работы состоит в том, что разработанный алгоритм можно применять для извлечения тональных словарей для других предметных областей, а также использовать его для маркетинговых исследований.
Материалом для исследования стали отзывы пользователей о банковских организациях, собранные на сайте banki.ru. Объем корпуса - 2500 отзывов.
В первой главе мы рассмотрели предметную область анализа тональности, обозначили основные задачи, которые могут решаться в рамках анализа тональности, и основные проблемы, возникающие при анализе отзывов. Были выделены основные подходы сентимент-анализа: подход, основанный на словарях и на правилах, и подход, основанный на машинном обучении (с учителем и без учителя), рассмотрели достоинства и недостатки каждого подхода. Затем мы выполнили обзор работ, посвященных автоматическому составлению тональных словарей.
Во второй главе мы описали разработку и реализацию алгоритма по автоматическому пополнению тональных словарей для банковской сферы.
Основные шаги реализации алгоритма включали в себя формирование двух подкорпусов: текстов с описаниями достоинств и текстов с описаниями недостатков; отбор слов-кандидатов на включение в тональные словари на основе полученных подкорпусов; заполнение тональных словарей на основе проведенного анализа слов и тональных конструкций; оценка работы алгоритма на основе метрик полноты и точности с использованием кросс-валидации.
В качестве языка разработки был выбран Python в связи с наличием библиотек, наиболее подходящих для реализации алгоритма по функционалу, затрачиваемой памяти и скорости выполнения. Для реализации алгоритма использовались библиотеки Pymorphy2 (библиотека для морфологического анализа), Codecs (библиотека, осуществляющая связь между интерпретатором и файловой системой операционной системы), Math (работа с математическими функциями).
В качестве основного критерия анализа распределения слов по тональным словарям была выбрана оценка корреляции двух случайных событий: «слово содержится в отзыве» и «отзыв описывает недостатки/достоинства». Для оценки корреляции мы построили таблицы сопряженности и использовали критерия согласия Пирсона («Хи-квадрат»).
Затем были эмпирически выбраны пороги значений для полученных списков слов и получены словари тонально окрашенных прилагательных, наречий, существительных и глаголов (702 слова), а также словосочетаний (прилагательное + существительное, наречие + глагол, существительное + глагол и др.) (400 словосочетаний). Удалось выделить как общеупотребительные тонально окрашенные слова и словосочетания (грубый, отвратительный, доброжелательный, потрясающе, неприятная ситуация, страшный сон), так и относящиеся к банковской сфере (ипотечный кредит, приличный кэшбэк, минимальный процент, банкомат зажевал (карту), огромная комиссия).
Для оценки качества работы алгоритма был использован метод кросс-валидации, показавший достаточно высокие результаты: полнота (67,4%) и точность (78,4%). Также к достоинствам разработанного алгоритма можно отнести простоту реализации и его легкую адаптацию к другим предметным областям.
Были замечены также и некоторые недостатки:
- недостаточно большой исследуемый корпус для полного охвата лексики банковской сферы;
- использование оценок пользователей в отзывах для разбиения корпуса на 2 части (подкорпус достоинств и подкорпус недостатков) влечет большое количество шума.
В заключении стоит отметить, что во время проведения исследования были выявлены следующие факты:
1. На основе полученных словарей можно сделать вывод, что тонально окрашенная лексика банковской сферы, в основном, носит общеупотребительный характер (хороший, положительный, удобный, грубый).
2. В собранном корпусе оказалось, что количество отрицательных отзывов более, чем в 1,5 раза превышает количество положительных отзывов. Так, объем подкорпуса достоинств составил 833 отзыва, объем подкорпуса недостатков - 1345 отзывов. Это отражает негативный характер обслуживания в банковской сфере в целом.
Данный алгоритм в дальнейшем можно применить для автоматического составления предметно-ориентированных тональных словарей других предметных областей, а также его можно использовать для маркетинговых исследований банковских услуг.
1. Аптон Г. Анализ таблиц сопряженности. - М., 1982. - 143 с.
2. Дегтева А.В., Азарова И.В. Структура эмоционально
экспрессивного компонента в тезаурусе русского языка RussNet // Компьютерная лингвистика и интеллектуальные технологии: По
материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая — 2 июня 2013 г.). Вып. 12 (19). - М., 2013. - С. 200-211.
3. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные м методы и технологии, электронные коллекции» (RCDL-2012). - Переславль-Залесский, 2012. - С. 81-86.
4. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н., Чимитова Е.В. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. — Новосибирск, 2011. - 888 с.
5. Морфологический анализатор pymorphy2: [Электронный
ресурс] / URL: https://pymorphy2.readthedocs.io.
6. Пазельская А., Соловьев А. Метод определения эмоций в текстах на русском языке // The international conference on computational linguistics and intellectual technologies “Dialogue 2011”. - М., 2011. - С. 510 - 522.
7. Протопопова Е.В., Букия Г.Т., Митрофанова О.А.
Автоматическое составление тонального словаря для процедур сентиментного анализа // Материалы XLV Международной филологической конференции 14-21 марта 2016 г. СПб., 2017 (в печати).
8. Россум Г., Дрейк Ф.Л.Дж., Откидач Д.С. Язык
программирования Python. 2001 г. - 454 c.
9. Степнов М.Н. Статистические методы обработки результатов механических испытаний: Справочник. - М., 1985. - С. 81-83.
10. Хохлова М.В. Анализ тональности. - СПб, 2016. - 11 с.
11. Цветков А.Д. Анализ тональности сообщений социальной сети Twitter. - Томск, 2013. - 31 с.
12. Шитиков В.К., Розенберг Г.С., Зинченко Т.Д. Таблицы сопряженности и “интервальная” математика. - Тольятти, 2003. - С. 259266.
13. Applications for Python: [Электронный ресурс]. URL:
http://www.python.org.
14. Arlot, Sylvain, Alain Celisse. A survey of cross-validation procedures for model selection // Statistics surveys 4. 2010. Pp. 40-79.
15. Bing Liu. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing. 2010. 49 p.
16. Blinov P., Kotelnikov E. Using Distributed Representations for Aspect-Based Sentiment Analysis // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2014». № 13 (20). Vol. 2. 2014. Pp. 68-79.
... Всего источников –40.
Содержание магистерской диссертации – АВТОМАТИЧЕСКОЕ ПОПОЛНЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ТОНАЛЬНЫХ СЛОВАРЕЙ (НА МАТЕРИАЛЕ ОТЗЫВОВ О БАНКОВСКИХ ОРГАНИЗАЦИЯХ)
Выдержки из магистерской диссертации – АВТОМАТИЧЕСКОЕ ПОПОЛНЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ТОНАЛЬНЫХ СЛОВАРЕЙ (НА МАТЕРИАЛЕ ОТЗЫВОВ О БАНКОВСКИХ ОРГАНИЗАЦИЯХ)