Тип работы:
Предмет:
Язык работы:


Разработка системы анализа мнений отзывов о фильмах

Работа №126103

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы40
Год сдачи2019
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
30
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Обзор предметной области 9
1.1 Обработка естественного языка 9
1.2 Анализ тональности 10
1.2.1 Виды шкал для определения тональности 10
1.2.2 Подходы к определению тональности текстов 10
1.2.3 Метод фрагментных правил 12
1.2.4 Оценка качества анализа тональностей 12
1.2.5 Оценка качества анализа тональностей в многоклассовом случае 14
1.2.6 Обзор существующих решений 15
Глава 2. Постановка эксперимента и результаты 17
2.1 Тестовые коллекции 17
2.2 Построение матрицы документ/термин 22
2.3 Random Forest 25
2.4 Построение классификатора 27
2.5 Результаты 29
2.6 Выводы 30
Глава 3. Разработка и создание Web-сайта 31
3.1 Web-crawler 31
3.2 ElasticSearch 32
3.3 Страница фильма 34
Заключение 36
Список литературы 37
Приложение 39

С появлением Web 2.0 различные платформы, такие как ВКонтакте1, Facebook1 2, Twitter3, Instagram4 позволяют гражданам делиться своими комментариями, мнениями, чувствами, суждениями по множеству тем, начиная от образования и заканчивая развлечениями. Эти платформы содержат огромное количество данных в виде твитов, блогов, обновлений статуса, сообщений и т.д. Анализ мнений направлен на определение полярности эмоций, таких как счастье, печаль, горе, ненависть, гнев, привязанность, а также на выделение мнения из текстов, обзоров, постов, которые доступны онлайн на этих платформах. Анализ мнений сложен из-за сленговых слов, орфографических ошибок, коротких форм, повторяющихся символов, использования диалектов, новых смайликов и т.д. Анализ мнений является одной из наиболее активных областей исследования и широко изучается в области интеллектуального анализа данных. Применяется практически во всех сферах бизнеса и социальной сферы.
Все больше и больше людей делятся своим личным опыт с незнакомцами благодаря интернету. Существует огромное множество ресурсов с отзывами на разные тематики, будь то книги, одежда или электронные предметы, пользователь первым делом прочитает мнения об этом конкретном продукте и затем только задумается о приобретении.
Дисциплину анализу мнений можно разделить на две большие части. Первая - извлечение тональности мнения, обычно подразумевает задачу классификации текста по тональности эмоции. Вторая - извлечение мнений, когда выделяется не только эмоция, но и объект этой эмоции и что именно вызвало эмоцию.
В данной работе используются обзоры на фильмы. Производители могут собирать обзоры пользователей, независимо от того, являются ли они положительным или нет, относительно фильма и в следующих своих работах попытаться повысить качество произведения киноискусства. Так к примеру на сайтах ivi5, tvzavr6 и кинотеатр.ру7 пользователи не могут выставлять свои собственные оценки фильму. Поэтому важно разработать классификатор по определению тональности мнений.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Все поставленные в работе задачи выполнены. Целью работы было улучшение качества работы алгоритмов определения тональности для их практического внедрения. Для достижения этой цели в работе были выполнено следующее:
• Рассмотрены возможные подходы и алгоритмы к построению моделей классификации отзывов фильмов по трем классам тональности: “негативные”, “нейтральные”, “позитивные”.
• Собраны наборы данных кинорецензий для тестирования моделей.
• Сравнены различные способы обработки текстовых данных и их влияние на модель классификации.
• Разработан Web-сайт для поиска необходимого фильма и рассмотрения отзывов о нем.


1. Васильев В. Г., Худякова М. В., Давыдов С. Классификация отзывов пользователей с использованием фрагментных правил // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Выпуск 11. Том 2. Бекасово: РГГУ, 2012. С. 66-76.
2. Котельников Е.; В., Клековкина М. В. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Выпуск 11. Том 2. Бекасово: РГГУ, 2012. С. 27-36
3. Четверкин И. И. Тестирование подхода к классификации отзывов об объектах из различных предметных областей — РОМИП 2011 // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Выпуск 11. Том 2. Бекасово: РГГУ, 2012. С. 15-26
4. Чистяков C. П. СЛУЧАЙНЫЕ ЛЕСА: ОБЗОР // Труды Карельского научного центра РАН № 1. 2013. С. 117-136.
5. Blinov P. D., Klekovkina M. V., Kotelnikov E. V., Pestov O. A. Research of lexical approach and machine learning methods for sentiment analysis. // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции «Диалог». Выпуск 12. Том 2. Бекасово: РГГУ, 2013. С. 51-61.
6. Ilia Chetviorkin; Natalia Loukachevitch. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // Proceedings of COLING 2012: Technical Papers, P. 593-610.
7. Leo Breiman: Random Forests. Machine Learning. 45(1):5-32.
8. Bo Pang, Lillian Lee. Seeing stars: exploiting class relationships for sentiment categorization with respect to rating scales // In Proceedings of the 43rd annual meeting of the Association for Computational Linguistics (ACL): журнал. University of Michigan, USA, 2005. P. 115-124.
9. Pang, B., Lee, L. Opinion Mining and Sentiment Analysis // Foundations and Trends® in Information Retrieval. Vol. 2. 2008. P. 1-135.
10. Peter Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews // Proceedings of the Association for Computational Linguistics. 2002. P. 417-424.
11. Sebastiani F. (2002), Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, P. 1-47.
12. Thelwall Mike, Buckley Kevan, Paltoglou Georgios, Cai Di, Kappas Arvid. Sentiment strength detection in short informal text // Journal of the American Society for Information Science and Technology: журнал. 2010. P. 2544-2558.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ