Аннотация 2
Abstract 3
Введение 5
Глава 1 Анализ текущего состояния исследований в области определения тональности текста 8
1.1 Технологии анализа тональности текста (sentiment analysis) 8
1.2 Обзор программных аналогов для оценки тональности текста 13
Глава 2 Разработка алгоритма для классификации тональности текста 17
2.1 Алгоритм использования разрабатываемой системы 17
2.2 Выбор модели векторизации текста 19
2.3 Выбор модели классификации 21
Глава 3 Разработка приложения для классификации тональности текста 25
3.1 Особенности в реализации программного обеспечения 25
3.2 Тестирование классификации текстов 31
Заключение 41
Список используемой литературы и используемых источников 42
При развитии своей предпринимательской деятельности, представители бизнес-сообщества ориентируются в том числе и на отзывы клиентов об предоставляемых ими услуг и товаров. Отзывы клиентов является одним из важнейших источников информации об удовлетворенности коммерческой деятельностью компании. В конечном счете клиентоориентированность обеспечивает большинству компаний устойчивую позицию на рынке товаров и услуг за счет выработки лояльности клиентов и формирования постоянного потока новых заказов.
В настоящее время в глобальной сети существует большое количество специализированных ресурсов, форумов, а также социальных сетей, где клиенты компании делятся своим мнением о качестве получаемых услуг. Анализ отзывов клиентов позволяется диагностировать текущие проблемы, имеющиеся при оказании компанией соответствующих услуг. Поэтому поиск отзывов, анализ их содержания, а также подведение статистики на основе полученной из отзывов информации является одной из актуальных задач современного бизнес-сообщества.
В рамках данной работы исследуются технологии анализа текстовых комментариев пользователей для оценки их тональности. Для анализа текстовой информации применяются методы text mining.
В качестве общедоступного источника отзывов пользователей используется сервис «Народный рейтинг банков», расположенный на по адресу https://www.banki.ru/services/responses/list/. Этот сервис выбран в качестве источника данных для обучающий выборки, так как в нем содержится одновременно и текстовый комментарий пользователей и в виде числа от «1» до «5» удовлетворенность пользователя предоставляемыми банковскими услугами. Оценка пользователей в виде числа используется в качестве метки класса, а текст комментариев в качестве входных данных для разрабатываемой системы анализа тональности. Оценка «1» обозначает резко негативную тональность комментария и недовольство качеством оказанной услуги, а оценка «5» обозначает позитивный комментарий и полную удовлетворенность пользователя...
При выполнении бакалаврской работы были получены следующие результаты:
- на языке программирования python разработано программное обеспечение для определения тональности текстов. Для преобразования текстов в числовой формат применяется подход Bag-of-words, а в качестве классификатора используется XgBoost Classifier.
- предложена методика тестирования эффективности алгоритмов распознавания тональности текста, которая включает себя проверку работы классификатора на тестовой выборке данных, построение по результатам тестирования матрицы, которая впоследствии используется для корректировки работы алгоритма под конкретную выборку данных.
- разработанное программное обеспечение протестировано на отзывах клиентов о качестве предоставляемых банковских услуг, собранных с сайта banki.ru. При этом точность классификации отзывов пользователей составляет 81%.
1. Левченко, С.В. Разработка метода кластеризации слов по смысловым характеристикам с использованием алгоритмов Word2Vec / Левченко С.В. // Новые информационные технологии в автоматизированных системах. 2017. №20. URL: https://cyberleninka.ru/article/n/razrabotka-metoda- klasterizatsii-slov-po-smyslovym-harakteristikam-s-ispolzovaniem-algoritmov- word2vec (дата обращения: 05.04.2023).
2. Нугуманова, А.Б. Обогащение модели Bag-of-words
семантическими связями для повышения качества классификации текстов предметной области / А.Б. Нугуманова, И.А. Бессмертный, П. Пецина, Е.М. Байбурин // Программные продукты и системы. 2016. №2 (114). URL:
https://cyberleninka.ru/article/n/obogaschenie-modeli-bag-of-words- semanticheskimi-svyazyami-dlya-povysheniya-kachestva-klassifikatsii-tekstov- predmetnoy-oblasti (дата обращения: 06.04.2023).
3. Полозов, И.К. Применение технологии Word2Vec в задаче
выделения инверторов тональности / Полозов И.К., Волкова И.А. // МНИЖ. 2020. №4-1 (94). URL: https://cyberleninka.ru/article/n/primenenie-tehnologii-
word2vec-v-zadache-vydeleniya-invertorov-tonalnosti (дата обращения:
19.04.2023).
4. Проскурин, А.А. Объектно-ориентированная реализация
обработки текста на основе алгоритма continuous bag of words / Проскурин А.А., Авсеева О.В. // Объектные системы. 2016. №13. URL:
https://cyberleninka.ru/article/n/obektno-orientirovannaya-realizatsiya-obrabotki- teksta-na-osnove-algoritma-continuous-bag-of-words (дата обращения:
01.04.2023).
5. Рожкин, П.А. Конструирование системы интеллектуального поиска ответов на вопросы обучающихся на онлайн-курсе на основе WORD2VEC / Рожкин Павел Александрович, Нехаев Игорь Николаевич,
Маркин Кирилл Анатольевич // IJAS. 2018. №1. URL:
https://cyberleninka.ru/article/nZkonstruirovanie-sistemy-intellektualnogo-poiska- otvetov-na-voprosy-obuchayuschihsya-na-onlayn-kurse-na-osnove-word2vec (дата обращения: 24.04.2023).
6. Ромашко, Д.А. Применение word2vec в задаче кластеризации
оперонов / Ромашко Дмитрий Александрович, Медведев Александр Юрьевич // Программные системы и вычислительные методы. 2018. №1. URL:
https://cyberleninka.ru/article/n/primenenie-word2vec-v-zadache-klasterizatsii- operonov (дата обращения: 11.04.2023).
7. Тарасова, А.Н. Сентиментальный анализ постов в социальных сетях посредством Python / Тарасова А.Н., Иванов К.О. // Символ науки.
2022. №3-1. URL: https://cyberleninka.ru/article/n/sentimentalnyy-analiz-postov- v-sotsialnyh-setyah-posredstvom-python (дата обращения: 20.04.2022).
8. Dragoni, M. The FeatureSent System at ESWC-2018 Challenge on Semantic Sentiment Analysis / Mauro Dragoni // Semantic Web Evaluation Challenge SemWebEval 2018: Semantic Web Challenges. - Springer Nature Switzerland AG, 2018. - pp. 216-231.
9. Kharlamov, A. Dynamic Semantic Network Analysis of Unstructured Text Corpora / Alexander Kharlamov, Galina Gradoselskaya, Sofia Dokuka // International Conference on Analysis of Images, Social Networks and Texts AIST 2017: Analysis of Images, Social Networks and Texts. - Springer International Publishing AG, 2018. - pp. 392-403.
10. Kharlamov, A.A. Social Network Sentiment Analysis and Message Clustering / Alexander A. Kharlamov, Andrey V. Orekhov, Svetlana S. Bodrunova, Nikolay S. Lyudkevich // International Conference on Internet Science, INSCI 2019: Internet Science. - Springer Nature Switzerland AG, 2019. - pp. 18-31.
11. Kosseim, L. Generating grammatical and lexical anaphora in assembly instructional texts / Leila Kosseim, Agnes Tutin, Richard Kittredge, Guy Lapalme // European Workshop on Trends in Natural Language Generation EWNLG 1993: Trends in Natural Language Generation An Artificial Intelligence Perspective. - Springer-Verlag Berlin Heidelberg, 1996. - pp. 260-271.
12. Logumanov, A. Sentiment Analysis of Telephone Conversations Using Multimodal Data / Alexander Gafuanovich Logumanov, Julius Dmitrievich Klenin & Dmitry Sergeevich Botov // International Conference on Analysis of Images, Social Networks and Texts AIST 2018: Analysis of Images, Social Networks and Texts. - Springer Nature Switzerland AG, 2018. - pp. 88-98.
13. Maslova, N. Neural Network Doc2vec in Automated Sentiment Analysis for Short Informal Texts / Natalia Maslova, Vsevolod Potapov // International Conference on Speech and Computer SPECOM 2017: Speech and Computer. - Springer International Publishing AG, 2017. - pp. 546-554
14. Noll, T. Exploring the Syntonic Side of Major-Minor Tonality / Thomas Noll, David Clampitt // International Conference on Mathematics and Computation in Music MCM 2019. - Springer Nature Switzerland AG, 2019. - pp. 125-136.
15. Pang, B. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales / Pang Bo, Lee Lillian // Proceedings of the Association for Computational Linguistics (ACL), 2005. - pp. 115-124...26