Тема: Анализ тональности отзывов пользователей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 7
Глава 1. Word2Vec 8
Глава 2. Словарь сентиметов 12
Глава 3. Корпус данных 16
3.1. Отбор данных 16
3.2. Данные о корпусе 17
Глава 4. Экспериментальная часть 19
4.1. Предобработка данных 19
4.2. Создание словаря 20
4.2.1. Создание словаря коллекции 20
4.2.2. Создание словаря сентиментов 21
4.3. Используемая система для экспериментов 22
4.4. Классификаторы 22
4.4.1. Методы, основанные на машинном обучении 22
4.4.2. Методы, основанные на словарном подходе 26
4.5. Методы оценки качества алгоритма 26
4.6. Результаты 28
Заключение 39
Список литературы 40
📖 Введение
Анализ тональности применяется на множестве текстовых документов, содержащих в себе эмоции и оценки определенных объектов, к примеру людей, событий, тем (например, отзывы о фильмах, книгах, продуктах). Анализ тональности предполагает идентификацию сентимента в документе, и в последствии определения его положительной/отрицательной полярности.
Анализ тональности может быть выполнен на различных уровнях - на уровне документа, предложения или аспекта. На уровне документа задача сентимент анализа классифицировать документ, состоящий из множества предложений с точки зрения полярности мнения, выраженного в нем. За основу, часто берется предположение, что в документе выражается мнение о единственном объекте, и в документе не рассматриваются различные точки зрения о данном объекте. [1] На уровне предложения документа задача сентимент анализа классифицировать мнение, и охарактеризовать предложение как положительное, отрицательное или нейтральное. В 2012 году Liu [2] утверждает, что нет никакого различия между уровнем документа и уровнем предложения, и предлагает рассматривать предложения как короткие тексты. Анализ тональности уровня аспекта документа задача сентимент анализа извлекать мнение, выраженные относительно определённых аспектов объекта. Например, предложение «Качество камеры этого телефона отвратительное, но работает он без подзарядки долго», выражает отрицательное мнение к камере продукта, но выражает положительное мнение относительно работы его аккумулятора.
Как правило, анализ тональности применяется на корпусах текстов, содержащих отзывы. Однако, анализ тональности может быть в том числе применен к новостным статьям [3] или блогам и социальным сетям. Сентимент анализ также применяют чтобы извлечь общественное мнение о различных темах в пределах от фондовых рынков [4] до политических споров [5].
Существуют два основных подхода к задаче автоматического извлечения тональности - подход, основанный на использовании словарей сентиментов и подход, основанный на машинном обучении.
Анализ мнений, основанный на словаре, состоит в анализе тональности слов и фраз представленный в тексте.
Анализ текста в основном ориентируется на использовании прилагательных в качестве сентиментов [7-10] или сочетания прилагательных и наречий [11]. На основе таких слов вместе с их тональностью (положительной или отрицательной) создается словарь сентиментов. Словари сентиметов могут быть созданы вручную [12,13] или автоматически [6,7,14].
Большинство данных методов в исследованиях использовалось для англоязычных словарей. Ряд исследователей из других стран предпринимали попытки создать неанглоязычный словарь различными методами.
Mihalcea [15] предложила два метода для перевода словарей эмоциональных слов (слов сентиментов) на румынский язык. Первый метод состоит в том, что использовались двуязычные словари. Первый - официальный англо-румынский словарь, состоящий из 41,500 слов - будет использоваться в качестве основного словаря для перевода лексики, второй - взятый с сайта Universal Dictionary, состоящий из 4500 записей, который будет использоваться как дополнение к основному словарю (при отсутствии слов в основном словаре), чтобы перевести английский словарь слов сентиментов, собранный с помощью OpinionFinder [16]. Таким образом был создан словарь, включивший в себя 4983 румынских слова. Второй метод основывается на параллельном корпусе. Корпус на английском языке содержит информацию о типе настроения каждого текста. Далее происходит перевод всех текстов на румынский язык. После попытки тестирования классификатора на текстах, переведенных с английского на румынский язык возникает следующая проблема - после неправильных переводов не распознается ирония, которая определяет тональность текста на английском языке.
Стенберг [17] в 2011 году предлагает свой метод для повышения качества словаря слов сентиментов на испанском языке. Он рассматривает два словаря эмоциональных слов - английский и испанский. Данные словари переводятся на интересующий нас язык с помощью google-переводчика. Новые, не совпадающие записи на испанском языке в дальнейшем добавляются в испанский словарь сентиментов. Исследования проводились для шести языков - итальянского, чешского, арабского, французского, немецкого и русского. Для русского языка объем словаря слов сентиментов составил 966 записей. В открытом доступе данный словарь не найден.
Анализ мнений, основанный на машинном обучении, существенно опирается на результаты из линейной алгебры, мат. анализа, методов оптимизации и теории вероятностей.
Обучение на размеченных данных или обучение с учителем - это наиболее распространенный класс задач машинного обучения. К нему относятся те задачи, где нужно научиться предсказывать некоторую величину для любого объекта, имея конечное число примеров [18], [19]. Это может быть предсказание уровня пробок на участке дороги, определение возраста пользователя по его действиям в интернете, предсказание цены, по которой будет куплена подержанная машина.
В задаче автоматического извлечения тональности с помощью машинного обучения используются заранее размеченные по тональности коллекции (корпусы) данных, на которых происходит обучение модели, которая в дальнейшем используется для классификации.
Для решения задачи анализа тональности отзывов пользователей в данной квалификационной работе будут использоваться два подхода - основанный на словаре и основанный на машинном обучении. За основу для создания собственного словаря сентиментов будет взят словарь ключевых слов, составленных на основе коллекций отзывов о фотоаппаратах, книгах и фильмах. Полученный словарь сентиментов будет расширен с помощью технологии word2vec. Для демонстрации подхода, основанного на машинном обучении будет использоваться наивный байесовский классификатор. В задаче используется базовый алгоритм машинного обучения, т.к. главная задача состоит в показе возможности улучшить словарь сентиментов с помощью word2vec, а подход основанный на машинном обучении будет использован для демонстрации сравнения с подходом основанном на словарях.
✅ Заключение
Было представлено исследование задач классификации отзывов по тональности с использованием двух подходов - основанного на словаре и основанного на машинном обучении. Был вручную построен словарь сентиментов, на основе которого были проведены исследования возможности его расширения с помощью технологии word2vec, которые привели к положительному результату - произошло повышения полноты и общего результата определения тональности. Было произведено сравнение оценки качества работы двух подходов на 30 выборках, созданных на основе 7500 отзывов, не входящих в обучающую выборку для наивного байесовского классификатора. Исследование показало более высокую точность подхода, основанного на словаре. При расширении словаря с помощью word2vec было отмечено высокое повышение полноты словаря.
Были определены перспективы развития - в дальнейшем было бы интересно расширить свой собственный словарь сентиментов на основе правил и рассмотреть вариант расширения словаря сентиментов, переведя «Harvard IV» и построить его расширенную версию. Также хотелось бы провести исследование используя как единицу словаря не одно слово, а синонимический ряд и полученные результаты представить в магистерской работе.





