Тип работы:
Предмет:
Язык работы:


Методы анализа тональности отзывов пользователей ресторанов

Работа №129169

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы35
Год сдачи2020
Стоимость4295 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
82
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1 Формирование корпуса данных 10
1.1 Корпус данных 10
1.2 Предобработка данных 10
1.3 Построение векторного пространства признаков 13
1.4 Проблема несбалансированных данных 14
Глава 2 Алгоритмы классификации 17
2.1 Наивный байесовский классификатор 17
2.1 Логистическая регрессия 18
2.3 Метод стохастического градиента 19
2.4 AdaBoost классификатор 19
2.5 Метод опорных векторов 20
Глава 3 Программная реализация и анализ результатов 22
3.1 Парсинг данных 22
3.2 Кросс-валидация 23
3.3 Методы оценки качества классификации 25
3.4 Результаты 27
Выводы 30
Заключение 31
Список литературы 32


Распространение интернета в современном мире позволило многим видам бизнеса полностью или частично перейти в онлайн. Коммуникация между бизнесом и клиентом в настоящее время зачастую происходит с использованием интернет технологий. Ежедневно тысячи людей заказывают товары в интернет магазинах, бронируют столики в ресторанах через приложения, а также оставляют отзывы на товары и услуги. Наличие отзывов на товары и услуги повышает доверие клиентов к бизнесу и способствует увеличению продаж. Добавление отзывов на страницу товара в интернет магазине может увеличить его продажи более чем в 1,4 раза [1]. Кроме того отзывы пользователей повышают количество уникального контента на сайте, что способствует продвижению сайта в поисковых системах.
Успех бизнеса напрямую зависит от его способности удовлетворять желания и потребности клиентов. Это утверждение верно как для производителей товаров, так и для предприятий, оказывающих услуги. Например, уровень качества сервиса и еды в ресторанах оказывает непосредственное влияние не только на удовлетворенность клиентов, но и на число постоянных клиентов [2].
Анализ тональности отзывов является полезным инструментом для бизнеса, так как позволяет автоматически получать мнения пользователей о товаре или услуге для анализа их качества и сравнения его с конкурентами. Популярные рекомендательные системы, такие как Yelp, Tripadvisor, Foursquare позволяют пользователям помимо отзывов ставить оценки бизнесу, и эта оценка может являться показателем значения тональности соответствующего отзыва. Однако если пользователь не оставил отзыв на одном из таких сайтов, владельцы бизнеса могут попросить клиента дать обратную связь через email рассылку. При больших объемах обратной связи возникает необходимость автоматической классификации полученных отзывов.
При покупке новых товаров и заказе новых услуг люди очень сильно полагаются на отзывы о товарах. Согласно опросу BrightLocal [3] положительные отзывы увеличивают вероятность использования услуги у 91% респондентов, в то время как 82% опрошенных отпугнут отрицательные отзывы. Использование автоматического анализа тональности в рекомендательных системах позволяет пользователям не знакомым с товаром или услугой узнать, что думают о данном товаре или услуге те, кто уже их использовал без необходимости в чтении всех отзывов.
В данной работе будет продемонстрировано сравнение алгоритмов машинного обучения в задаче классификации русскоязычных отзывов на рестораны, а также некоторые методы улучшения качества классификации.
Постановка задачи
Целью данной работы является разработка метода автоматического определения тональности русскоязычных отзывов на рестораны. Каждый отзыв должен быть классифицирован как положительный, нейтральный или отрицательный. Качество работы алгоритма, оцениваемое F-мерой должно быть не меньше 60%.
Для достижения поставленной в работе цели были поставлены следующие задачи:
1. Написание программы для сбора отзывов. Формирование корпуса данных.
2. Предобработка данных.
3. Построение векторных моделей отзывов.
4. Реализация некоторых алгоритмов машинного обучения.
5. Решение проблемы несбалансированных классов.
6. Реализация системы перекрестной проверки алгоритмов и векторных моделей. Выбор алгоритма и векторной модели с лучшими показателями F-меры.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате данной работы была разработана система выбора моделей для задачи многоклассовой классификации текстов. Для решения задачи автоматического определения тональности русскоязычных отзывов на рестораны был выбран алгоритм логистическая регрессия. Качество классификации было улучшено с помощью добавления биграмм и применения алгоритма SMOTE к обучающему множеству.
В качестве направления для дальнейших исследований может выступать анализ тональности отзывов на уровне аспектов. Например, для отзывов на рестораны имеет смысл узнать тональность аспектов: еда, интерьер и сервис.



1. Askalidis, Y., and Malthouse, E. C. (2016). vv RecSys 2016 - Proceedings of the 10th ACM Conference on Recommender Systems, 155-158. Association for Computing Machinery, Inc.
2. Al-Tit, Ahmad. (2015). The Effect of Service and Food Quality on Customer Satisfaction and Hence Customer Retention. Asian Social Science. 11. 129-139. 10.5539/ass.v11n23p129.
3. https://www.brightlocal.com/research/local-consumer-review-survey/
4. Baccianella, Stefano & Esuli, Andrea & Sebastiani, Fabrizio. (2010). SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. Proceedings of LREC. 10.
5. Loukachevitch, N.,Levchik,A.: Creating a generalRussian sentiment lexicon. In: Proceedings of Language Resources and Evaluation Conference, LREC 2016, pp. 1171-1176 (2016)
6. Kotelnikova A.V., Kotelnikov E.V. SentiRusColl: Russian
Collocation Lexicon for Sentiment Analysis // 8th conference on Artificial Intelligence and Natural Language (AINL-2019). Tartu, Estonia.
7. Pang, Bo & Lee, Lillian & Vaithyanathan, Shivakumar. (2002). Thumbs up? Sentiment Classification Using Machine Learning Techniques. EMNLP. 10. 10.3115/1118693.1118704.
8. Yu, Boya & Zhou, Jiaxu & Zhang, Yi & Cao, Yunong. (2017). Identifying Restaurant Features via Sentiment Analysis on Yelp Reviews.
9. O. Sharif, M. M. Hoque and E. Hossain, "Sentiment Analysis of Bengali Texts on Online Restaurant Reviews Using Multinomial Naive Bayes," 2019 1st International Conference on Advances in Science, Engineering and Robotics Technology (ICASERT), Dhaka, Bangladesh, 2019, pp. 1-6, doi: 10.1109/ICASERT.2019.8934655.
10. Turney, Peter. (2002). Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Computing Research Repository - CORR. 417-424. 10.3115/1073083.1073153.
11. Putri, Indiati & Kusumaningrum, Retno. (2017). Latent Dirichlet
Allocation (LDA) for Sentiment Analysis Toward Tourism Review in Indonesia. Journal of Physics: Conference Series. 801. 012073.
10.1088/1742-6596/801/1/012073.
12. Devlin, Jacob & Chang, Ming-Wei & Lee, Kenton & Toutanova, Kristina. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
13. Yang, Zhilin et al. “XLNet: Generalized Autoregressive Pretraining for Language Understanding.” NeurIPS (2019).
14. https: //habr.com/ru/company/ods/blog/458928/
15. M. G. Sousa, K. Sakiyama, L. d. S. Rodrigues, P. H. Moraes, E. R. Fernandes and E. T. Matsubara, "BERT for Stock Market Sentiment Analysis," 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI), Portland, OR, USA, 2019, pp. 1597¬1601, doi: 10.1109/ICTAI.2019.00231.
16. X. Gong, J. Jin and T. Zhang, "Sentiment Analysis Using
Autoregressive Language Modeling and Broad Learning System," 2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), San Diego, CA, USA, 2019, pp. 1130-1134, doi: 10.1109/BIBM47256.2019.8983025.
17. C. P. Chen and Z. Liu, “Broad learning system: an effective and efficient incremental learning system without the need for deep architecture,” IEEE transactions on neural networks and learning systems, vol. 29, no. 1, pp. 10-24, 2018.
18. Bing Liu. Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012. , pp. 58-60.
19. V.Rybakov, A.Malafeev, “Aspect-Based Sentiment Analysis of Russian Hotel Reviews“, Supplementary Proceedings of the 7th International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2018), Moscow, Russia, July 5-7, 2018, pp. 75-84
20. Nobre, Guilherme et al. “BooViews : Aspect-based Sentiment Analysis on Product Reviews combining SVM and CRF in Portuguese.” (2016).
21. https: //emoj ipedia. org/faq/
22. T. LeCompte and J. Chen, "Sentiment Analysis of Tweets Including Emoji Data," 2017 International Conference on Computational Science and Computational Intelligence (CSCI), Las Vegas, NV, 2017, pp. 793-798, doi: 10.1109/CSCI.2017.137.
23.S. Wankhede, R. Patil, S. Sonawane and P. A. Save, "Data Preprocessing for Efficient Sentimental Analysis," 2018 Second International Conference on Inventive Communication and Computational Technologies (ICICCT), Coimbatore, 2018, pp. 723¬726, doi: 10.1109/ICICCT.2018.8473277.
24. https: //ru.wikipedia. org/wiki/TF-IDF
25. Jones K. S. A statistical interpretation of term specificity and its application in retrieval (англ.) // Journal of Documentation : журнал.
— MCB University: MCB University Press, 2004. — Vol. 60, no. 5.
— P. 493-502. — ISSN 0022-0418.
26. Lango, Mateusz. (2019). Tackling the Problem of Class Imbalance in
Multi-class Sentiment Classification: An Experimental Study. Foundations of Computing and Decision Sciences. 44. 151-178.
10.2478/fcds-2019-0009.
27. Galar, M., Fernandez, A., Barrenechea, E., Bustince, H., Herrera, F.: A reviewon ensembles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches. IEEE Transactions on Systems, Man, and Cybernetics, Part C(Applications and Reviews), 42(4), 463-484 (2012)
28. https://basegroup.ru/community/articles/imbalance-datasets
29. Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, and W. Philip Kegelmeyer. 2002. SMOTE: synthetic minority over-sampling technique. J. Artif. Int. Res. 16, 1 (June 2002), 321-357.
30. Jurafsky, Daniel & Martin, James. (2019). Speech and Language
Processing: An Introduction to Natural Language Processing,
Computational Linguistics, and Speech Recognition, pp. 56 - 92.
31. К. В. Воронцов. Машинное обучение (курс лекций)
http: //www.machinelearning.ru/wiki/images/5/53/Voron-ML-Lin- SG.pdf
32. J. Zhu, H. Zou, S. Rosset, T. Hastie. “Multi-class AdaBoost”, 2009.
33. К. В. Воронцов. Лекции по методу опорных векторов. 2007.
34. Документация Beautiful Soup
http: //wiki. python. su/Документации/BeautifulSoup
35. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов. — Математические вопросы кибернетики / Под ред. О. Б. Лупанов. — М.: Физматлит, 2004. — T. 13. — С. 5-36
36. Е. Соколов. Семинары по методам выбора моделей. 2014.
http: //www.machinelearning.ru/wiki/images/a/af/Sem06_model_selec tion.pdf


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ