Тип работы:
Предмет:
Язык работы:


Анализ тональности отзывов пользователей

Работа №131763

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы42
Год сдачи2016
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
67
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 7
Глава 1. Word2Vec 8
Глава 2. Словарь сентиметов 12
Глава 3. Корпус данных 16
3.1. Отбор данных 16
3.2. Данные о корпусе 17
Глава 4. Экспериментальная часть 19
4.1. Предобработка данных 19
4.2. Создание словаря 20
4.2.1. Создание словаря коллекции 20
4.2.2. Создание словаря сентиментов 21
4.3. Используемая система для экспериментов 22
4.4. Классификаторы 22
4.4.1. Методы, основанные на машинном обучении 22
4.4.2. Методы, основанные на словарном подходе 26
4.5. Методы оценки качества алгоритма 26
4.6. Результаты 28
Заключение 39
Список литературы 40

Анализ тональности текста - это сложный процесс, касающийся выделение полезной субъективной информации из текста. Огромное множество пользовательского контента в интернете появляется с каждым днем. Миллионы пользователей ежедневно высказывают свое мнение о продуктах и услугах в блогах, социальных сетях и других информационных ресурсах. Предоставление надежного извлечения мнения из неструктурированного текста имеет важное значение для коммерческих организаций. С помощью предоставленных данных компании смогут узнать важное для них мнение покупателей, найти невидимые для их глаза недостатки и повысить свой уровень продаж.
Анализ тональности применяется на множестве текстовых документов, содержащих в себе эмоции и оценки определенных объектов, к примеру людей, событий, тем (например, отзывы о фильмах, книгах, продуктах). Анализ тональности предполагает идентификацию сентимента в документе, и в последствии определения его положительной/отрицательной полярности.
Анализ тональности может быть выполнен на различных уровнях - на уровне документа, предложения или аспекта. На уровне документа задача сентимент анализа классифицировать документ, состоящий из множества предложений с точки зрения полярности мнения, выраженного в нем. За основу, часто берется предположение, что в документе выражается мнение о единственном объекте, и в документе не рассматриваются различные точки зрения о данном объекте. [1] На уровне предложения документа задача сентимент анализа классифицировать мнение, и охарактеризовать предложение как положительное, отрицательное или нейтральное. В 2012 году Liu [2] утверждает, что нет никакого различия между уровнем документа и уровнем предложения, и предлагает рассматривать предложения как короткие тексты. Анализ тональности уровня аспекта документа задача сентимент анализа извлекать мнение, выраженные относительно определённых аспектов объекта. Например, предложение «Качество камеры этого телефона отвратительное, но работает он без подзарядки долго», выражает отрицательное мнение к камере продукта, но выражает положительное мнение относительно работы его аккумулятора.
Как правило, анализ тональности применяется на корпусах текстов, содержащих отзывы. Однако, анализ тональности может быть в том числе применен к новостным статьям [3] или блогам и социальным сетям. Сентимент анализ также применяют чтобы извлечь общественное мнение о различных темах в пределах от фондовых рынков [4] до политических споров [5].
Существуют два основных подхода к задаче автоматического извлечения тональности - подход, основанный на использовании словарей сентиментов и подход, основанный на машинном обучении.
Анализ мнений, основанный на словаре, состоит в анализе тональности слов и фраз представленный в тексте.
Анализ текста в основном ориентируется на использовании прилагательных в качестве сентиментов [7-10] или сочетания прилагательных и наречий [11]. На основе таких слов вместе с их тональностью (положительной или отрицательной) создается словарь сентиментов. Словари сентиметов могут быть созданы вручную [12,13] или автоматически [6,7,14].
Большинство данных методов в исследованиях использовалось для англоязычных словарей. Ряд исследователей из других стран предпринимали попытки создать неанглоязычный словарь различными методами.
Mihalcea [15] предложила два метода для перевода словарей эмоциональных слов (слов сентиментов) на румынский язык. Первый метод состоит в том, что использовались двуязычные словари. Первый - официальный англо-румынский словарь, состоящий из 41,500 слов - будет использоваться в качестве основного словаря для перевода лексики, второй - взятый с сайта Universal Dictionary, состоящий из 4500 записей, который будет использоваться как дополнение к основному словарю (при отсутствии слов в основном словаре), чтобы перевести английский словарь слов сентиментов, собранный с помощью OpinionFinder [16]. Таким образом был создан словарь, включивший в себя 4983 румынских слова. Второй метод основывается на параллельном корпусе. Корпус на английском языке содержит информацию о типе настроения каждого текста. Далее происходит перевод всех текстов на румынский язык. После попытки тестирования классификатора на текстах, переведенных с английского на румынский язык возникает следующая проблема - после неправильных переводов не распознается ирония, которая определяет тональность текста на английском языке.
Стенберг [17] в 2011 году предлагает свой метод для повышения качества словаря слов сентиментов на испанском языке. Он рассматривает два словаря эмоциональных слов - английский и испанский. Данные словари переводятся на интересующий нас язык с помощью google-переводчика. Новые, не совпадающие записи на испанском языке в дальнейшем добавляются в испанский словарь сентиментов. Исследования проводились для шести языков - итальянского, чешского, арабского, французского, немецкого и русского. Для русского языка объем словаря слов сентиментов составил 966 записей. В открытом доступе данный словарь не найден.
Анализ мнений, основанный на машинном обучении, существенно опирается на результаты из линейной алгебры, мат. анализа, методов оптимизации и теории вероятностей.
Обучение на размеченных данных или обучение с учителем - это наиболее распространенный класс задач машинного обучения. К нему относятся те задачи, где нужно научиться предсказывать некоторую величину для любого объекта, имея конечное число примеров [18], [19]. Это может быть предсказание уровня пробок на участке дороги, определение возраста пользователя по его действиям в интернете, предсказание цены, по которой будет куплена подержанная машина.
В задаче автоматического извлечения тональности с помощью машинного обучения используются заранее размеченные по тональности коллекции (корпусы) данных, на которых происходит обучение модели, которая в дальнейшем используется для классификации.
Для решения задачи анализа тональности отзывов пользователей в данной квалификационной работе будут использоваться два подхода - основанный на словаре и основанный на машинном обучении. За основу для создания собственного словаря сентиментов будет взят словарь ключевых слов, составленных на основе коллекций отзывов о фотоаппаратах, книгах и фильмах. Полученный словарь сентиментов будет расширен с помощью технологии word2vec. Для демонстрации подхода, основанного на машинном обучении будет использоваться наивный байесовский классификатор. В задаче используется базовый алгоритм машинного обучения, т.к. главная задача состоит в показе возможности улучшить словарь сентиментов с помощью word2vec, а подход основанный на машинном обучении будет использован для демонстрации сравнения с подходом основанном на словарях.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Целью данной работы являлось исследование и разработка метода анализа тональности данных. Для достижения поставленных целей были решены несколько задач. В рамках данной выпускной квалификационной работы была рассмотрена проблема определения тональности отзывов о фильмах. Было проведено исследование состояния дел в области и были определены подходы для решения задачи: с использованием словарей сентиментов и с использованием машинного обучения. Были разобраны разнообразные подходы, которые использовались для создания словаря сентиментов для других языков.
Было представлено исследование задач классификации отзывов по тональности с использованием двух подходов - основанного на словаре и основанного на машинном обучении. Был вручную построен словарь сентиментов, на основе которого были проведены исследования возможности его расширения с помощью технологии word2vec, которые привели к положительному результату - произошло повышения полноты и общего результата определения тональности. Было произведено сравнение оценки качества работы двух подходов на 30 выборках, созданных на основе 7500 отзывов, не входящих в обучающую выборку для наивного байесовского классификатора. Исследование показало более высокую точность подхода, основанного на словаре. При расширении словаря с помощью word2vec было отмечено высокое повышение полноты словаря.
Были определены перспективы развития - в дальнейшем было бы интересно расширить свой собственный словарь сентиментов на основе правил и рассмотреть вариант расширения словаря сентиментов, переведя «Harvard IV» и построить его расширенную версию. Также хотелось бы провести исследование используя как единицу словаря не одно слово, а синонимический ряд и полученные результаты представить в магистерской работе.


1. B. Pang, L. Lee, and S. Vaithyanathan, in Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - Volume 10, EMNLP '02 (Association for Computational Linguistics, 2002) p. 79-86.
2. B. Liu, Synthesis Lectures on Human Language Technologies 5, 1 (2012).
3. T. Xu, Q. Peng, and Y. Cheng, Knowledge-Based Systems 35, 279 (2012).
4. M. Hagenau, M. Liebmann, and D. Neumann, Decision Support Systems 55, 685 (2013).
5. I. Maks and P. Vossen, Decision Support Systems 53, 680 (2012).
6. P. D. Turney, in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,ACL '02 (Association for Computational Linguistics, 2002) pp. 417-424.
7. V. Hatzivassiloglou and K. R. McKeown, in Proceedings of the 35th annual meeting of the association for computational linguistics and eighth conference of the European chapter of the association for computational linguistics (Association for Computational Linguistics, 1997) p. 174-181.
8. J. Wiebe, in Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence (AAAI Press, 2000) pp. 735-740.
9. M. Hu and B. Liu, in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD '04 (ACM, 2004) p. 168-177.
10. M. Taboada, C. Anthony, and K. Voll, in Proceedings of the Fifth International Conference on Language Resources and Evaluation, LREC '06 (2006) p. 427-432.
11. F. Benamara, C. Cesarano, A. Picariello, D. R. Recupero, and V. S. Subrahmanian, in Proceedings of International Conference on Weblogs and Social Media, ICWSM '10 (2007).
12. M. Taboada, J. Brooke, M. Tofloski, K. Voll, and M. Stede, Computational linguistics 37, 267 (2011)
13. R. M. Tong, in Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification, Vol. 1 (2001) p. 6.
14. P. D. Turney and M. L. Littman, ACM Transactions on Information Systems 21, 315 (2003).
15. Mihalcea R., Banea C. and Wiebe J. (2007). Learning multilingual subjective language via cross-lingual projections. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 976-983, Prague, Czech Republic.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ