Введение 3
Глава I. Автоматический анализ тональности как область прикладной лингвистики 5
1.1. Автоматический анализ тональности в современном мире 5
1.2. Задачи анализа тональности 6
1.3. Виды классификации тональности 8
1.4. Проблемы автоматического определения тональности 9
1.5. Методы определения тональности текстов 11
1.6. Обзор работ по автоматическому составлению тональных словарей 16
1.7. Выводы к главе 1 21
Глава II. Разработка системы автоматического пополнения тональных
словарей для банковской сферы 23
2.1. Постановка задачи и описание алгоритма 23
2.2. Инструменты и технологии 26
2.3. Реализация алгоритма 32
2.4. Оценка работы алгоритма 40
2.5. Выводы к главе II 44
Заключение 46
Список использованной литературы 49
Приложение 1. Словарь положительно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 54
Приложение 2. Словарь отрицательно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 61
Приложение 3. Словарь отрицательно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 72
Приложение 4. Словарь положительно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 76
С развитием интернета и появлением социальных сетей пользователи получили возможность выражать свое мнение. Это мнение может быть относительно услуги или товара, фильма или книги, компании или политического деятеля. Возникла потребность обрабатывать огромные объемы информации для определения отношения пользователей к тому или иному объекту. Однако, количество отзывов достигает десятков тысяч, и обработка отзывов вручную оказывается невозможной. В связи с этим широкое распространение получили автоматизированные подходы к анализу тональности (sentiment analysis).
Цель работы - разработка и реализация алгоритма автоматического пополнения предметно-ориентированных тональных словарей.
В соответствии с поставленной целью решаются следующие задачи:
- изучить литературу, посвященную анализу тональности;
- рассмотреть существующие методы анализа тональности;
- рассмотреть методы пополнения тональных словарей;
- разработать алгоритм автоматического пополнения тональных словарей для банковской сферы;
- применить полученный алгоритм и оценить качество работы алгоритма.
Актуальность работы. В последнее время большое внимание направлено на решение задачи анализа тональности в различных предметных областях. Автоматизированные подходы к анализу тональности могут быть полезны как для государственных органов и политиков, так и для компаний и простых пользователей. Одной из важнейших задач для анализа тональности является создание словарей оценочных слов.
Многие исследователи создают словари общеупотребительных оценочных слов. Однако известно, что в разных предметных областях могут применяться достаточно разные наборы оценочных выражений. Так, например, одно и то же слово может выражать противоположные тональности: «The battery life is long» (Батарея работает долго - положительная тональность) и «The time taken to focus is long» (Долго фокусируется - отрицательная тональность). Необходимость разработки алгоритма автоматического пополнения предметно-ориентированных тональных словарей обусловливает актуальность данной работы.
Научная новизна работы заключается в обращении к ранее мало изученной предметной области - тональным словарям банковской сферы.
Методы исследования. В качестве основных методов исследования следует назвать описательный метод, статистический метод и метод машинного обучения.
Практическая значимость данной работы состоит в том, что разработанный алгоритм можно применять для извлечения тональных словарей для других предметных областей, а также использовать его для маркетинговых исследований.
Материалом для исследования стали отзывы пользователей о банковских организациях, собранные на сайте banki.ru. Объем корпуса - 2500 отзывов.