📄Работа №131763

Тема: Анализ тональности отзывов пользователей

📝

Тип работы Бакалаврская работа

📚

Предмет Математика

📄

Объем: 42 листов

📅

Год: 2016

👁️

4550 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 7
Глава 1. Word2Vec 8
Глава 2. Словарь сентиметов 12
Глава 3. Корпус данных 16
3.1. Отбор данных 16
3.2. Данные о корпусе 17
Глава 4. Экспериментальная часть 19
4.1. Предобработка данных 19
4.2. Создание словаря 20
4.2.1. Создание словаря коллекции 20
4.2.2. Создание словаря сентиментов 21
4.3. Используемая система для экспериментов 22
4.4. Классификаторы 22
4.4.1. Методы, основанные на машинном обучении 22
4.4.2. Методы, основанные на словарном подходе 26
4.5. Методы оценки качества алгоритма 26
4.6. Результаты 28
Заключение 39
Список литературы 40

📖 Введение

Анализ тональности текста - это сложный процесс, касающийся выделение полезной субъективной информации из текста. Огромное множество пользовательского контента в интернете появляется с каждым днем. Миллионы пользователей ежедневно высказывают свое мнение о продуктах и услугах в блогах, социальных сетях и других информационных ресурсах. Предоставление надежного извлечения мнения из неструктурированного текста имеет важное значение для коммерческих организаций. С помощью предоставленных данных компании смогут узнать важное для них мнение покупателей, найти невидимые для их глаза недостатки и повысить свой уровень продаж.
Анализ тональности применяется на множестве текстовых документов, содержащих в себе эмоции и оценки определенных объектов, к примеру людей, событий, тем (например, отзывы о фильмах, книгах, продуктах). Анализ тональности предполагает идентификацию сентимента в документе, и в последствии определения его положительной/отрицательной полярности.
Анализ тональности может быть выполнен на различных уровнях - на уровне документа, предложения или аспекта. На уровне документа задача сентимент анализа классифицировать документ, состоящий из множества предложений с точки зрения полярности мнения, выраженного в нем. За основу, часто берется предположение, что в документе выражается мнение о единственном объекте, и в документе не рассматриваются различные точки зрения о данном объекте. [1] На уровне предложения документа задача сентимент анализа классифицировать мнение, и охарактеризовать предложение как положительное, отрицательное или нейтральное. В 2012 году Liu [2] утверждает, что нет никакого различия между уровнем документа и уровнем предложения, и предлагает рассматривать предложения как короткие тексты. Анализ тональности уровня аспекта документа задача сентимент анализа извлекать мнение, выраженные относительно определённых аспектов объекта. Например, предложение «Качество камеры этого телефона отвратительное, но работает он без подзарядки долго», выражает отрицательное мнение к камере продукта, но выражает положительное мнение относительно работы его аккумулятора.
Как правило, анализ тональности применяется на корпусах текстов, содержащих отзывы. Однако, анализ тональности может быть в том числе применен к новостным статьям [3] или блогам и социальным сетям. Сентимент анализ также применяют чтобы извлечь общественное мнение о различных темах в пределах от фондовых рынков [4] до политических споров [5].
Существуют два основных подхода к задаче автоматического извлечения тональности - подход, основанный на использовании словарей сентиментов и подход, основанный на машинном обучении.
Анализ мнений, основанный на словаре, состоит в анализе тональности слов и фраз представленный в тексте.
Анализ текста в основном ориентируется на использовании прилагательных в качестве сентиментов [7-10] или сочетания прилагательных и наречий [11]. На основе таких слов вместе с их тональностью (положительной или отрицательной) создается словарь сентиментов. Словари сентиметов могут быть созданы вручную [12,13] или автоматически [6,7,14].
Большинство данных методов в исследованиях использовалось для англоязычных словарей. Ряд исследователей из других стран предпринимали попытки создать неанглоязычный словарь различными методами.
Mihalcea [15] предложила два метода для перевода словарей эмоциональных слов (слов сентиментов) на румынский язык. Первый метод состоит в том, что использовались двуязычные словари. Первый - официальный англо-румынский словарь, состоящий из 41,500 слов - будет использоваться в качестве основного словаря для перевода лексики, второй - взятый с сайта Universal Dictionary, состоящий из 4500 записей, который будет использоваться как дополнение к основному словарю (при отсутствии слов в основном словаре), чтобы перевести английский словарь слов сентиментов, собранный с помощью OpinionFinder [16]. Таким образом был создан словарь, включивший в себя 4983 румынских слова. Второй метод основывается на параллельном корпусе. Корпус на английском языке содержит информацию о типе настроения каждого текста. Далее происходит перевод всех текстов на румынский язык. После попытки тестирования классификатора на текстах, переведенных с английского на румынский язык возникает следующая проблема - после неправильных переводов не распознается ирония, которая определяет тональность текста на английском языке.
Стенберг [17] в 2011 году предлагает свой метод для повышения качества словаря слов сентиментов на испанском языке. Он рассматривает два словаря эмоциональных слов - английский и испанский. Данные словари переводятся на интересующий нас язык с помощью google-переводчика. Новые, не совпадающие записи на испанском языке в дальнейшем добавляются в испанский словарь сентиментов. Исследования проводились для шести языков - итальянского, чешского, арабского, французского, немецкого и русского. Для русского языка объем словаря слов сентиментов составил 966 записей. В открытом доступе данный словарь не найден.
Анализ мнений, основанный на машинном обучении, существенно опирается на результаты из линейной алгебры, мат. анализа, методов оптимизации и теории вероятностей.
Обучение на размеченных данных или обучение с учителем - это наиболее распространенный класс задач машинного обучения. К нему относятся те задачи, где нужно научиться предсказывать некоторую величину для любого объекта, имея конечное число примеров [18], [19]. Это может быть предсказание уровня пробок на участке дороги, определение возраста пользователя по его действиям в интернете, предсказание цены, по которой будет куплена подержанная машина.
В задаче автоматического извлечения тональности с помощью машинного обучения используются заранее размеченные по тональности коллекции (корпусы) данных, на которых происходит обучение модели, которая в дальнейшем используется для классификации.
Для решения задачи анализа тональности отзывов пользователей в данной квалификационной работе будут использоваться два подхода - основанный на словаре и основанный на машинном обучении. За основу для создания собственного словаря сентиментов будет взят словарь ключевых слов, составленных на основе коллекций отзывов о фотоаппаратах, книгах и фильмах. Полученный словарь сентиментов будет расширен с помощью технологии word2vec. Для демонстрации подхода, основанного на машинном обучении будет использоваться наивный байесовский классификатор. В задаче используется базовый алгоритм машинного обучения, т.к. главная задача состоит в показе возможности улучшить словарь сентиментов с помощью word2vec, а подход основанный на машинном обучении будет использован для демонстрации сравнения с подходом основанном на словарях.

✅ Заключение

Целью данной работы являлось исследование и разработка метода анализа тональности данных. Для достижения поставленных целей были решены несколько задач. В рамках данной выпускной квалификационной работы была рассмотрена проблема определения тональности отзывов о фильмах. Было проведено исследование состояния дел в области и были определены подходы для решения задачи: с использованием словарей сентиментов и с использованием машинного обучения. Были разобраны разнообразные подходы, которые использовались для создания словаря сентиментов для других языков.
Было представлено исследование задач классификации отзывов по тональности с использованием двух подходов - основанного на словаре и основанного на машинном обучении. Был вручную построен словарь сентиментов, на основе которого были проведены исследования возможности его расширения с помощью технологии word2vec, которые привели к положительному результату - произошло повышения полноты и общего результата определения тональности. Было произведено сравнение оценки качества работы двух подходов на 30 выборках, созданных на основе 7500 отзывов, не входящих в обучающую выборку для наивного байесовского классификатора. Исследование показало более высокую точность подхода, основанного на словаре. При расширении словаря с помощью word2vec было отмечено высокое повышение полноты словаря.
Были определены перспективы развития - в дальнейшем было бы интересно расширить свой собственный словарь сентиментов на основе правил и рассмотреть вариант расширения словаря сентиментов, переведя «Harvard IV» и построить его расширенную версию. Также хотелось бы провести исследование используя как единицу словаря не одно слово, а синонимический ряд и полученные результаты представить в магистерской работе.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. B. Pang, L. Lee, and S. Vaithyanathan, in Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - Volume 10, EMNLP '02 (Association for Computational Linguistics, 2002) p. 79-86.
2. B. Liu, Synthesis Lectures on Human Language Technologies 5, 1 (2012).
3. T. Xu, Q. Peng, and Y. Cheng, Knowledge-Based Systems 35, 279 (2012).
4. M. Hagenau, M. Liebmann, and D. Neumann, Decision Support Systems 55, 685 (2013).
5. I. Maks and P. Vossen, Decision Support Systems 53, 680 (2012).
6. P. D. Turney, in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,ACL '02 (Association for Computational Linguistics, 2002) pp. 417-424.
7. V. Hatzivassiloglou and K. R. McKeown, in Proceedings of the 35th annual meeting of the association for computational linguistics and eighth conference of the European chapter of the association for computational linguistics (Association for Computational Linguistics, 1997) p. 174-181.
8. J. Wiebe, in Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence (AAAI Press, 2000) pp. 735-740.
9. M. Hu and B. Liu, in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD '04 (ACM, 2004) p. 168-177.
10. M. Taboada, C. Anthony, and K. Voll, in Proceedings of the Fifth International Conference on Language Resources and Evaluation, LREC '06 (2006) p. 427-432.
11. F. Benamara, C. Cesarano, A. Picariello, D. R. Recupero, and V. S. Subrahmanian, in Proceedings of International Conference on Weblogs and Social Media, ICWSM '10 (2007).
12. M. Taboada, J. Brooke, M. Tofloski, K. Voll, and M. Stede, Computational linguistics 37, 267 (2011)
13. R. M. Tong, in Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification, Vol. 1 (2001) p. 6.
14. P. D. Turney and M. L. Littman, ACM Transactions on Information Systems 21, 315 (2003).
15. Mihalcea R., Banea C. and Wiebe J. (2007). Learning multilingual subjective language via cross-lingual projections. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 976-983, Prague, Czech Republic.
...

🖼 Скриншоты

Содержание с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210220)

Статьи

»» Все статьи

Вход в личный кабинет