Аннотация
ВВЕДЕНИЕ 2
Глава 1. Теоретические основы применения методов сентимент-анализа для построения клиентоориентированных диалоговых систем 5
1.1 Сентимент-анализ в контексте обработки естественного языка 5
1.2 Методы сентимент-анализа 8
1.3 Нейронные сети и их преимущества 13
1.4 Чат-бот как диалоговая система: история, современное состояние и
классификации 18
1.5 Чат-боты в сфере бизнеса: клиентоориентированность 23
1.6 Сентимент-анализ в сфере бизнеса 26
Выводы по главе 1 29
Глава 2. Построение модели сентимент-анализа и создание прототипа чат-бота
31
2.1 Определение задач и функционала чат-бота 31
2.2 Сбор и анализ материала 32
2.3 Использование LSTM для построения алгоритма сентимент-анализа 39
2.4 Rasa: функционал и архитектура 43
2.5 Разработка минимального жизнеспособного продукта чат-бота 45
2.6 Интеграция чат-бота Rasa в мессенджер Telegram 56
Выводы по главе 2 58
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 62
ПРИЛОЖЕНИЕ А. Листинг кода на языке программирования Python 69
ПРИЛОЖЕНИЕ Б. Графики метрик для различных значений epochs и betch_size 75
ПРИЛОЖЕНИЕ В. Примеры размеченных по интентам и сущностям отзывов 79
Исследования чат-ботов и сентимент-анализа в сфере услуг известны еще с конца прошлого века, но именно в последнее десятилетие наблюдается заметный рост количества статей по данным темам (ср. 1130 публикаций в период с 2000 по 2010 гг. и 17500 с 2015 по 2023 гг. только по теме сентимент- анализ в сфере услуг). Проводятся сравнения существующих методов и классификаторов [13], разрабатываются новые конструкторы на основе существующих методов [48], создаются системы, объединяющие чат-ботов и сентимент-анализ [4].
Сентимент-анализ клиентских отзывов также является актуальной проблемой для изучения как в отечественной научной парадигме, так и в англоязычной, причем англоязычные публикации по теме распознания тональности средствами машинного обучения известный ещё в начале 2000-х [18], в то время как аналогичные публикации на русском языке появляются в 2012 году [29, 42, 60]. Примечательно использование в качестве материала исследований как отзывов и рецензий из социальных сетей и форумов [1, 51, 56], внутренних сайтов заинтересованных компаний [38], так и специализированных площадок, таких как Amazon Customer Reviews, ConsumerReports, irecommend, yelp.com и пр. [34, 49].
Применение методов машинного обучения для обработки и порождения естественного языка именно для нужд кинотеатров можно встретить в научных исследованиях, затрагивающих следующие аспекты: бронирование билетов с помощью чат-бота [10], сентимент-анализ удовлетворенности пользователей сети Интернет закрытием кинотеатров в связи с ограничениями в период COVID-19 [24], оценка влияния кинотеатров как носителей
культурного наследия путем анализа мнения интернет-пользователей [5]. Таким образом, вопрос анализа тональности отзывов на услуги кинотеатров в целях синтеза клиентоориентированного ответа чат-бота не был изучен, в чем также заключается актуальность нашей работы.
Объектом исследования являются эмоционально-оценочные аспекты в использовании диалоговых систем для взаимодействия с клиентами.
Предмет исследования - особенности использования сентимент- анализа в клиентоориентированном русскоязычном чат-боте как средство автоматизации взаимодействия между кинотеатром и клиентом.
Цель данной работы - разработка прототипа чат-бота, способного распознать тональность клиентского отзыва на качество обслуживания в кинотеатре.
Для достижения цели работы были поставлены следующие задачи:
1. Охарактеризовать диалоговые системы в контексте методов сентимент- анализа в коммуникации с клиентом;
2. Обосновать клиентоориентированность как подход в построении коммуникативных схем в разработке чат-ботов;
3. Разработать парсер для скачивания клиентских отзывов по тематике работы кинотеатра и провести тематическую систематизацию материала для построения датасета;
4. Апробировать применение модели рекуррентной нейронной сети для сентимент-анализа клиентских отзывов;
5. Изучить платформу для построения пользовательских чат-ботов Rasa Open Source;
6. Создать минимальный жизнеспособный продукт виртуальной диалоговой системы по тематике работы кинотеатра;
7. Интегрировать чат-бот в социальную сеть Telegram.
Методы исследования были следующие:
Основной метод - метод автоматической обработки естественного языка, в частности, прием предварительной обработки текстовых данных, анализ текста с применением моделей автоматического анализа; методы машинного обучения, а также методы оценки качества нейронных сетей. Для отбора материала одной из моделей чат-бота был применен метод целенаправленной выборки. Также используются общенаучные методы обобщения и систематизации.
Материалом исследования послужили текстовые данные отзывов на кинотеатры со специализированного сайта flamp.ru объёмом 10036 текстов (776.125 слов), из которых 4574 - негативные отзывы, и 5462 - позитивные.
Практическая значимость данной работы заключается в создании клинтоориентированной диалоговой системы на русском языке, призванной автоматизировать работу персонала кинотеатров, отвечающих за связи с общественностью и формирующих имидж компании среди клиентов.
Теоретическую основу исследования составили работы в области обработки естественного языка (Natural Language Processing): определение тональности текстов [3, 15, 18, 44] и разработка диалоговых систем [7, 16, 21, 41, 42].
Структурно исследование соответствует поставленным задачам и включает в себя введение, две главы, заключение, список использованных источников и литературы и приложения.
Во введении обоснована актуальность и практическая значимость выбранной темы, поставлены цель и задачи исследования, представлены методы, материалы и теоретическая основа исследования.
Развитием технологий и становление сети Интернет в качестве основного ресурса данных и площадки коммуникации привело к тому, что основные усилия компаний направлены улучшение и поддержание своего имиджа именно в виртуальной среде. В сети проводятся акции, разыгрываются призы, в мессенджеры и социальные сети приглашают клиентов как знак взаимного сотрудничества. Даже встречи, организуемые руководством компаний ради клиентов всё чаще проводятся в онлайн-режиме. Онлайн предоставляет больше возможностей, он более доступен широкому пользователю и потому более эффективен в качестве площадки коммерции. Однако эта открытость ресурса и проводит к тому, что компаниям нужно тщательно следить за своими аккаунтами в социальных сетях, на сайтах, своевременно и корректно отвечая на отзывы клиентов, прослеживая тенденции в изменении настроений. Это подтверждает актуальность исследований и проектов в области сентимент-анализа и диалоговых систем.
В ходе работы было создано два минимальных жизнеспособных продукта русскоязычного чат-бота, распознающего положительный и отрицательный сентименты в клиентских отзывах, получаемых из чата в популярном мессенджере Telegram, и синтезирующего соответствующий ответ.
В результате сравнительного анализа двух моделей был сделан вывод о том, что модель «с нуля», опирающаяся на рекуррентную нейронную сеть LSTM в вопросах определения тональности, демонстрирует свое превосходство в анализе хаотичной живой речи клиентов кинотеатров над чат- ботом Rasa, опирающегося на правила, как минимум в том, что способен самостоятельно и верно принимать решение относительно общего сентимента политонального отзыва. Эмпирический анализ ответов чат-бота на монотональные отзывы также подтверждает преимущество чат-бота на основе LSTM, несмотря на более высокое значение метрик для чат-бота Rasa (ср. accuracy = 0.87 для чат-бота «с нуля» и accuracy = 0,98 для чат-бота Rasa).
При этом оба чат-бота показывают слабую эффективность в ситуациях, когда клиентский отзыв содержит несколько объектов сентимента. В этих случаях объект либо не определяется вовсе, либо определяется последний упомянутый.
Тем не менее, Rasa имеет преимущество над чат-ботом «с нуля» в том, что обладает встроенным функционалом для определения и сохранения конкретных употреблений объектов через компоненты slots и forms. Это оказывается очень полезным для понимания компанией того, что конкретно в их товарах и услугах не устраивает клиента, и на какие цели должны быть направлены денежные средства для большего притока и удержания потребителей и, соответственно, для получения прибыли с них. В добавлении компонентов slots и forms, позволяющих сохранять информацию по объектам, оцениваемых клиентами негативно и требующих исправления, заключается одна из перспектив нашей работы.
Также в перспективе появляется необходимость разрешения проблемы распознания нескольких объектов одновременно, каждого со своим сентиментом.
1. Alyami S. N., Olatunji S. O. Application of support vector machine for Arabic sentiment classification using twitter-based dataset //Journal of Information & Knowledge Management. - 2020. - Т. 19. - №. 01.
2. Andres Paredes-Valverde M. [и др.]. Sentiment Analysis in Spanish for Improvement of Products and Services: A Deep Learning Approach. - 2017.
3. Cambria E. et al. (ed.). A practical guide to sentiment analysis. - 2017.
4. El-Ansari A., Beni-Hssane A. Sentiment Analysis for Personalized Chatbots in E-Commerce Applications // Wireless Personal Communications. - 2023. - Т. 129. - №. 3. - С. 1623-1644.
5. Ercole P. et al. Cinema heritage in Europe: preserving and sharing culture by engaging with film exhibition and audiences // ALPHAVILLE. - 2016. - №. 11.
- С. 1-12.
6. Fedorova E. A., Bechvaya K. Z., Rogov O. Y. Влияние тональности новостей на курс биткоина // Финансы: теория и практика/Finance: Theory and Practice. - 2018. - № 4 (22). - C. 104-113.
7. Fornell C., Rust R. T., Dekimpe M. G. The effect of customer satisfaction on consumer spending growth // Journal of Marketing Research. - 2010. - Т. 47. - №. 1. - С. 28-35.
8. Henderson M., Thomson B., Young S. Word-based dialog state tracking with recurrent neural networks // Proceedings of the 15th annual meeting of the special interest group on discourse and dialogue (SIGDIAL). - 2014. - С. 292-299.
9. Jurafsky D., Martin J. H. Speech and language processing (3rd (draft) ed.).
- 2019.
10. Khiu Z. H. Chatbot assisted inquiry and ticket booking system for cinema : дис. - UTAR, 2020.
11. Kochergina K. S. Approaches to Forming an Evaluative Lexicon (Juridical Linguistic Aspect) // Актуальные проблемы лингвистики и литературоведения : сборник материалов I (XVI) Международной конференции молодых ученых.
- 2015. - 16. - C. 365-367.
12. Krause B. et al. Edina: Building an open domain socialbot with selfdialogues // arXiv preprint arXiv: 1709.09816. - 2017.
13. Mathews D. M., Abraham S. Opinion Mining on Twitter Data Using Supervised Machine Learning Algorithms. - 2018.
14. Mejova Y. Sentiment analysis: An overview // University of Iowa, Computer Science Department. - 2009.
15. Medhat W., Hassan A., Korashy H. Sentiment analysis algorithms and applications: A survey //Ain Shams engineering journal. - 2014. - Т. 5. - №. 4. - С. 1093-1113....61