Тема: АВТОМАТИЧЕСКОЕ ПОПОЛНЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ТОНАЛЬНЫХ СЛОВАРЕЙ (НА МАТЕРИАЛЕ ОТЗЫВОВ О БАНКОВСКИХ ОРГАНИЗАЦИЯХ)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава I. Автоматический анализ тональности как область прикладной лингвистики 5
1.1. Автоматический анализ тональности в современном мире 5
1.2. Задачи анализа тональности 6
1.3. Виды классификации тональности 8
1.4. Проблемы автоматического определения тональности 9
1.5. Методы определения тональности текстов 11
1.6. Обзор работ по автоматическому составлению тональных словарей 16
1.7. Выводы к главе 1 21
Глава II. Разработка системы автоматического пополнения тональных
словарей для банковской сферы 23
2.1. Постановка задачи и описание алгоритма 23
2.2. Инструменты и технологии 26
2.3. Реализация алгоритма 32
2.4. Оценка работы алгоритма 40
2.5. Выводы к главе II 44
Заключение 46
Список использованной литературы 49
Приложение 1. Словарь положительно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 54
Приложение 2. Словарь отрицательно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 61
Приложение 3. Словарь отрицательно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 72
Приложение 4. Словарь положительно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 76
📖 Введение
Цель работы - разработка и реализация алгоритма автоматического пополнения предметно-ориентированных тональных словарей.
В соответствии с поставленной целью решаются следующие задачи:
- изучить литературу, посвященную анализу тональности;
- рассмотреть существующие методы анализа тональности;
- рассмотреть методы пополнения тональных словарей;
- разработать алгоритм автоматического пополнения тональных словарей для банковской сферы;
- применить полученный алгоритм и оценить качество работы алгоритма.
Актуальность работы. В последнее время большое внимание направлено на решение задачи анализа тональности в различных предметных областях. Автоматизированные подходы к анализу тональности могут быть полезны как для государственных органов и политиков, так и для компаний и простых пользователей. Одной из важнейших задач для анализа тональности является создание словарей оценочных слов.
Многие исследователи создают словари общеупотребительных оценочных слов. Однако известно, что в разных предметных областях могут применяться достаточно разные наборы оценочных выражений. Так, например, одно и то же слово может выражать противоположные тональности: «The battery life is long» (Батарея работает долго - положительная тональность) и «The time taken to focus is long» (Долго фокусируется - отрицательная тональность). Необходимость разработки алгоритма автоматического пополнения предметно-ориентированных тональных словарей обусловливает актуальность данной работы.
Научная новизна работы заключается в обращении к ранее мало изученной предметной области - тональным словарям банковской сферы.
Методы исследования. В качестве основных методов исследования следует назвать описательный метод, статистический метод и метод машинного обучения.
Практическая значимость данной работы состоит в том, что разработанный алгоритм можно применять для извлечения тональных словарей для других предметных областей, а также использовать его для маркетинговых исследований.
Материалом для исследования стали отзывы пользователей о банковских организациях, собранные на сайте banki.ru. Объем корпуса - 2500 отзывов.
✅ Заключение
Во второй главе мы описали разработку и реализацию алгоритма по автоматическому пополнению тональных словарей для банковской сферы.
Основные шаги реализации алгоритма включали в себя формирование двух подкорпусов: текстов с описаниями достоинств и текстов с описаниями недостатков; отбор слов-кандидатов на включение в тональные словари на основе полученных подкорпусов; заполнение тональных словарей на основе проведенного анализа слов и тональных конструкций; оценка работы алгоритма на основе метрик полноты и точности с использованием кросс-валидации.
В качестве языка разработки был выбран Python в связи с наличием библиотек, наиболее подходящих для реализации алгоритма по функционалу, затрачиваемой памяти и скорости выполнения. Для реализации алгоритма использовались библиотеки Pymorphy2 (библиотека для морфологического анализа), Codecs (библиотека, осуществляющая связь между интерпретатором и файловой системой операционной системы), Math (работа с математическими функциями).
В качестве основного критерия анализа распределения слов по тональным словарям была выбрана оценка корреляции двух случайных событий: «слово содержится в отзыве» и «отзыв описывает недостатки/достоинства». Для оценки корреляции мы построили таблицы сопряженности и использовали критерия согласия Пирсона («Хи-квадрат»).
Затем были эмпирически выбраны пороги значений для полученных списков слов и получены словари тонально окрашенных прилагательных, наречий, существительных и глаголов (702 слова), а также словосочетаний (прилагательное + существительное, наречие + глагол, существительное + глагол и др.) (400 словосочетаний). Удалось выделить как общеупотребительные тонально окрашенные слова и словосочетания (грубый, отвратительный, доброжелательный, потрясающе, неприятная ситуация, страшный сон), так и относящиеся к банковской сфере (ипотечный кредит, приличный кэшбэк, минимальный процент, банкомат зажевал (карту), огромная комиссия).
Для оценки качества работы алгоритма был использован метод кросс-валидации, показавший достаточно высокие результаты: полнота (67,4%) и точность (78,4%). Также к достоинствам разработанного алгоритма можно отнести простоту реализации и его легкую адаптацию к другим предметным областям.
Были замечены также и некоторые недостатки:
- недостаточно большой исследуемый корпус для полного охвата лексики банковской сферы;
- использование оценок пользователей в отзывах для разбиения корпуса на 2 части (подкорпус достоинств и подкорпус недостатков) влечет большое количество шума.
В заключении стоит отметить, что во время проведения исследования были выявлены следующие факты:
1. На основе полученных словарей можно сделать вывод, что тонально окрашенная лексика банковской сферы, в основном, носит общеупотребительный характер (хороший, положительный, удобный, грубый).
2. В собранном корпусе оказалось, что количество отрицательных отзывов более, чем в 1,5 раза превышает количество положительных отзывов. Так, объем подкорпуса достоинств составил 833 отзыва, объем подкорпуса недостатков - 1345 отзывов. Это отражает негативный характер обслуживания в банковской сфере в целом.
Данный алгоритм в дальнейшем можно применить для автоматического составления предметно-ориентированных тональных словарей других предметных областей, а также его можно использовать для маркетинговых исследований банковских услуг.





