Введение 1
1. Теоретические основы анализа тональности 4
1.1. Понятие «анализ тональности», сферы применения и материалы 4
1.2. Методы для проведения анализа тональности 13
1.2.1. Лингвистические методы 13
1.2.2. Подход, основанный на машинном обучении 19
1.2.3. Гибридный подход 39
1.3. Выводы к Главе 1 40
2. Практическая реализация 41
2.1. Подбор данных 41
2.2. Реализация классификатора 57
2.3. Оценка полученных результатов 66
2.4. Выводы к Главе 2 72
Заключение 73
Список использованной литературы 75
С развитием интернета и использованием социальных сетей объем текстовой информации, доступной для анализа, резко возрос. Применение методов автоматической обработки текстов (NLP, Natural Language Processing) стало важным инструментом в различных областях, таких как маркетинг, анализ отзывов, рекомендательные системы и другие.
Одной из наиболее важных задач в области NLP является определение эмоциональной окраски. Авторское отношение к обсуждаемым событиям, продуктам или услугам, выраженное через эмоциональную окраску текста, играет ключевую роль в успешном управлении бизнесом и принятии решений. Анализ эмоциональной окраски текстовых данных позволяет автоматически выявлять отзывы, комментарии или сообщения с положительной, негативной или нейтральной эмоциональной окраской, что представляет собой важный инструмент для оценки информации и принятия управленческих решений в различных сферах деятельности.
Актуальность работы связана с растущей потребностью компаний и организаций в понимании эмоциональной реакции потребителей на предлагаемые продукты и услуги.
Научная новизна данного исследования заключается в том, что на сегодняшний день наблюдается ограниченное количество научных работ, посвященных анализу эмоциональной окраски отзывов о сфере обслуживания. В данной работе описывается разработка и применение нейросетевого подхода к анализу тональности. В работе проводится сравнительный анализ различных методов анализа тональности, что позволяет выявить их преимущества и недостатки в контексте анализа тональности отзывов о сфере обслуживания.
Гипотеза исследования предполагает, что разработка и обучение нейронной сети, специализированной на классификации, позволит создать эффективное средство для автоматического выявления эмоциональной окраски отзывов о сфере обслуживания.
Объектом исследования являются отзывы о сфере обслуживания, а предметом исследования - их эмоциональная окраска.
Целью работы является разработка и обучение нейросетевого классификатора для анализа эмоциональной окраски отзывов о сфере обслуживания на материале отзывов, размещенных на платформе «2ГИС».
Для достижения поставленной цели предполагается решение следующих задач:
1. Сбор и подготовка данных для обучения нейросетевого классификатора.
2. Разработка архитектуры нейронной сети для анализа эмоциональной окраски отзывов.
3. Обучение нейросетевого классификатора на полученных данных.
4. Оценка точности и эффективности созданного классификатора.
Материалом исследования являются отзывы о ресторанах, кафе и продовольственных магазинах, размещенные на платформе «2ГИС».
Практическая значимость работы заключается в возможности использования разработанного нейросетевого классификатора для автоматического анализа эмоциональной окраски отзывов о сфере обслуживания.
Теоретическая значимость работы заключается в расширении применимости методов глубокого обучения, в частности нейронных сетей, для анализа текстовой информации применительно к материалу, отличающемуся своей разнородностью (в контексте эмоциональной окраски отзывов о сфере обслуживания). Полученные результаты могут быть полезны для оптимизации качества обслуживания, что поможет улучшить удовлетворенность клиентов и принимать более обоснованные управленческие решения....
В ходе данного исследования была успешно разработана и применена нейросетевая модель для анализа тональности текстовых отзывов о сфере обслуживания. Сравнительный анализ различных методов определения эмоциональной окраски, включая лингвистические подходы, методы машинного обучения и гибридные методы, позволил определить достоинства и недостатки каждого из методов, а также показал превосходство нейросетевого подхода в данном контексте.
В исследовании были успешно решены основные поставленные задачи исследования:
1. Был проведен сбор и предварительная обработка данных для использования в обучении модели.
2. Была разработана и реализована архитектура нейросетевого классификатора, способного определять эмоциональную окраску текстовых данных.
3. На основе подготовленных данных был проведен процесс обучения нейросетевой модели для определения тональности отзывов.
4. Была выполнена оценка точности и эффективности разработанного нейросетевого классификатора на основе полученных результатов анализа.
Разработанный нейросетевый классификатор продемонстрировал высокую точность и эффективность в определении эмоциональной окраски отзывов о сфере обслуживания на основе данных с платформы "2ГИС". Это подтверждает гипотезу о возможности создания эффективного инструмента для автоматизированного анализа эмоциональной окраски текстовых данных в данной сфере.
Для дальнейшего развития исследования рекомендуется увеличить объем и разнообразие данных, изучить влияние эмоциональной окраски на поведение потребителей, улучшить архитектуру нейронной сети, расширить область применения модели на другие сферы.
1. Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult [Electronic resource] // IEEE Transactions on Neural Networks. 1994. Vol. 5. №2. p. 157-166. URL:
https://www.comp.hkbu.edu.hk/~markus/teaching/comp7650/tnn-94-gradient.pdf(date of treatment: 23.03.2024).
2. Bojanowski P., Grave E., Joulin A., et al. Enriching word vectors with subword information [Electronic resource] // Transactions of the association for computational linguistics. 2017. Vol. 5. p. 135-146. URL: https://arxiv.org/pdf/1607.04606(date of treatment: 18.03.2024).
3. Cataldi M., Ballatore A., Tiddi I., et al. Good Location, Terrible Food: Detecting Feature Sentiment in User-Generated Reviews [Electronic resource] // Social Network Analysis and Mining. 2013. Vol. 3. p. 1149-1163. URL: https://www.researchgate.net/publication/257801355 Good Location Terrible F ood Detecting F eature Sentiment in User-Generated Reviews(date of treatment: 02.03.2024).
4. Cho K., van Merrienboer B., Bahdanau D., et al. On the properties of neural machine translation: Encoder-decoder approaches [Electronic resource] // arXiv preprint arXiv:1409.1259. 2014. URL: https://arxiv.org/pdf/1409.1259(date of treatment: 27.03.2024).
5. Chumakov S., Kovantsev A., Surikov A. Generative approach to Aspect Based Sentiment Analysis with GPT Language Models [Electronic resource] // Procedia Computer Science. 2023. Vol. 229. p. 284-293. URL: https ://www. sciencedirect.com/science/article/pii/S 1877050923020203(date of treatment: 17.04.2024).
6. Dai J., Yan H., Sun T., et al. Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa [Electronic resource] // arXiv preprint arXiv:2104.04986. 2021. URL: https://arxiv.org/pdf/2104.04986(date of treatment: 05.04.2024).
7. Dang N. C., Moreno-Garcia M. N., De la Prieta F. Sentiment Analysis Based on Deep Learning: A Comparative Study [Electronic resource] // Electronics. 2020. Vol. 9. №3. p. 483. URL: https://doi.org/10.3390/electronics9030483(date of treatment: 17.03.2024).
8. Danyal M. M., Khan S. S., Khan M., et al. Proposing sentiment analysis model based on BERT and XLNet for movie reviews [Electronic resource] // Multimedia Tools and Applications. 2024. p. 1-25. URL: https://link.springer.com/article/10.1007/s11042-024-18156-5(date of treatment: 08.04.2024).
9. Dave K., Lawrence S., Pennock D. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews [Electronic resource] // Proceedings of the 12th international conference on World Wide Web. 2003. p. 519-528. URL: https://www.researchgate.net/publication/2904559 Mining the PeanutGallery Opinion Extraction and Semantic Classification of ProductReviews(date of treatment: 26.02.2024).
10. Devlin J., Chang M., Lee K., et al. BERT: Pre-training of deep bidirectional transformers for language understanding [Electronic resource] // arXiv preprint arXiv:1810.04805. 2018. URL: https://arxiv.org/pdf/1810.04805(date of treatment: 03.04.2024).
11. GigaChat API [Электронный ресурс] // Решения для бизнеса: технологии и сервисы для компании от экосистема Сбербанка. 2024. URL: https://developers. sber.ru/ docs/ru/ gigachat/api/overview (дата обращения: 15.04.2024).
12. Habbat N., Anoun H., Hassouni L. Combination of GRU and CNN deep learning models for sentiment analysis on French customer reviews using XLNet model [Electronic resource] // IEEE Engineering Management Review. 2022. Vol. 51. №1. p. 41-51. URL: https://ieeexplore.ieee.org/abstract/document/9900423(date of treatment: 08.04.2024).
13. Hatzivassiloglou V., McKeown K. R. Predicting the Semantic Orientation of Adjectives [Electronic resource] // 35th annual meeting of the association for computational linguistics and 8th conference of the european chapter of the association for computational linguistics. 1997. p. 174-181. URL:https://aclanthology.org/P97-1023.pdf(date of treatment: 25.02.2024).
14. Hatzivassiloglou V., Wiebe J. M. Effects of Adjective Orientation and Gradability on Sentence Subjectivity [Electronic resource] // COLING 2000 Volume 1: The 18th international conference on computational linguistics. 2000. URL:https://aclanthology.org/C00-1044.pdf(date of treatment: 25.02.2024).
15. Ho V., Nguyen D., Nguyen D. et al. Emotion Recognition for Vietnamese Social Media Text [Electronic resource] // Computational Linguistics: 16th International Conference of the Pacific Association for Computational Linguistics, PACLING 2019, Hanoi, Vietnam, October 11-13, 2019, Revised Selected Papers...(51)