Тип работы:
Предмет:
Язык работы:


Аспектно-ориентированный анализ тональности отзывов

Работа №126045

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы44
Год сдачи2020
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
24
Не подходит работа?

Узнай цену на написание


Перечень сокращений и обозначений 4
Термины и определения 5
Введение 7
Постановка задачи 10
Глава 1. Обзор литературы 11
1.1. Извлечение аспектных терминов 11
1.1.1 Статистический 11
1.1.2 Лингвистический 12
1.1.3 Машинное обучение 13
1.2. Определение тональности 15
Глава 2. Обработка данных 17
2.1. Проверка орфографии 17
2.2. Векторное представление слов 18
2.3. Синтаксическая структура предложения 20
2.3.1 Грамматика составляющих 20
2.3.2 Грамматика зависимостей 21
2.4. Универсальные зависимости 22
Глава 3. Рекуррентные нейронные сети 24
3.1. Простейшая RNN 24
3.2. LSTM 27
3.2.1 Bi LSTM 28
3.2.2 Tree LSTM 29
Глава 4. Извлечение аспектных терминов 31
4.1. Аспектные категории предложения 31
4.2. Извлечение и классификация аспектных терминов 34
Глава 5. Определение тональности 36
5.1. Архитектура нейронной сети 36
5.2. Обучение сети 38
Заключение 40
Список литературы 41

В современной сети широко распространены различные платформы, где пользователи (как зарегистрированные так и анонимные) могут остав­лять свои отзывы о товарах или услугах. Эта информация позволяет дру­гим потенциальным покупателям при выборе между различными постав­щиками товаров и услуг полагаться не только на их фактические характе­ристики, но и мнение других потребителей.
И для подавляющего большинства пользователей эта информация значима. Как показывают результаты опросов[1],[2] 9 из 10 покупателей признают, что пользовательский контент влияет на их решения о покуп­ке. Такие результаты во многом связаны с тем, что техническая харак­теристика товара не дает представления об удобстве пользования им. В процессе эксплуатации в нем могут быть выявлены значительные дефек­ты. Поэтому зачастую пользователь нацелено просматривает негативные отзывы (на большинстве платформ им соответствуют отзывы с низкими оценками), чтобы выявить недостатки товара и определить являются ли эти недостатки существенными для него.
Так как отзывы оказывает значительное влияние на решение о по­купке потребителя, то они так же важны и для производителя. Отзывы служат механизмом обратной связи и показывают, какие особенности про­дукта нравятся пользователям, и потому их стоит оставить неизменными в дальнейшем развитии линейки товаров, а какие аспекты продукта, на­оборот, необходимо дорабатывать.
Но многочисленность отзывов, отсутствие в них структуры не поз­воляет вручную извлекать из них интересующую информацию. Отсюда возникает необходимость в инструментах автоматического определения ас­пектных категорий объекта, выражений, характеризующих заданный ас­пект, и тональности обнаруженного выражения. Эти задачи являются под­задачами аспектно-ориентированного анализа тональности.
Эта задача была представлена в рамках международного семинара SemEval-2016 [?], посвященного семантическому анализу. Организаторами соревнования был предоставлен набор отзывов1 из определенных предмет­ных областей (рестораны, автомобили, ноутбуки и т.д.). Для каждой пред­метной области был выбран набор аспектных категорий, которые пред­ставляют собой пару: сущность и атрибут (в таблице 1 строки представ­ляют множество сущностей, а столбцы множество атрибутов. Если пара сущность-атрибут является аспектной категорией, то в соответствующей ячейке стоит галочка, иначе - крестик).
Таблица 1: Сущности и атрибуты аспектных категорий в отзывах о ресторанах.
Сущности | Атрибуты
категорий | Общее | Цена | Качество | Оформление | Прочее
Обстановка | X | v | v | v | v
Напитки | v | X | X | X | v
Еда | v | X | X | X | v
Расположение | X | v | v | v | v
Ресторан | X | X | v | v | X
Сервис | X | v | v | v | v
Конец таблицы 1.
В рамках семина задача рассматривалась в двух форматах: анализ на уровне предложений и всего отзыва. В данной работе рассматривается только первый формат.
Каждое упоминание в отзыве того или иного аспекта отмечалось экс­пертом в виде тройки: аспектный термин, категория аспекта, тональность. В дальнейшем будем называть такие тройки мнениями. Тональность мог­ла быть представлена одним из четырех значений: положительная, ней­тральная, отрицательная и конфликт 2. Например, в предложении: "Резю­ме следующее: место в целом отличное, цены не кусаются, но следует серьезно задуматься о замене персонала..." выделены следующие тройки: (место; ресторан-общее; положительный), (персонала; сервис-общее; отри­цательный).
Задачу аспектно-ориентированного анализа тональности можно сфор­мулировать как извлечение из предложения мнений. Тогда ее можно раз­делить на подзадачи:
1. Извлечение аспектных терминов - для полученного предложения вы­делить слова, посвященные какой-то из заданных аспектных катего­рий и определить какой3.
2. Определение тональности - для заданного предложения, для которого указаны пары: категория аспекта и целевой объект. Требуется опреде­лить тональность каждой такой пары (положительная, нейтральная, негативная, конфликт).

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе было проведено исследование методов машинного обучения для задачи аспектно-ориентированного анализа отзывов на рус­ском языке. Рассмотрены существующие методы извлечения аспектных терминов и определения тональности.
Построен конвейер для решения задачи аспектно-ориентированного анализа, который состоит из следующих этапов1:
• предобработка текстов
• разбиение на токены
• проверка орфографии
• построение деревьев зависимости предложений
• извлечение и классификация аспектных терминов
• определение аспектных категорий предложения
• определение аспектных категорий отдельных слов
• объединение результатов классификаторов для определения яв­ных и неявных мнений
• определение тональности аспектного термина
Описана работа рекуррентных нейронных сетей. Предложена и реа­лизована архитектура нейронной сети, состоящей из Bi LSTM и Tree LSTM слоев, для определения тональности аспектного термина. Построенные клас­сификаторы превосходят метрики качества контрольных алгоритмов.


[1] «88% Of Consumers Trust Online Reviews As Much As Personal Recommendations». https://searchengineland.com/88-consumers-trust- online-reviews-much-personal-recommendations-195803
[2] «Исследование: влияние отзывов на мнение потребителя». https://vc.ru/marketing/91417-issledovanie-vliyanie-otzyvov-na-mnenie- potrebitelya
[3] Рой Д.А., Ефремова Н.Э. «Методы извлечения аспектных терминов из мнений». Новые информационные технологии в автоматизированных системах. 2018.
[4] Turney P. «Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classifi cation of Reviews». 2002. pp. 417-424.
[5] Блинов П., Котельников Е. «Семантическое сходство в задаче аспектно-эмоционального анализа».
[6] Ramshaw L., Marcus M. «Text chunking using transformation-based learning». Natural language processing using very large corpora, Springer Netherlands, 1999, pp. 157-176.
[7] Chernyshevich M. «IHS R&D Belarus: Cross-domain Extraction of Product Features using Conditional Random Fields». Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), pp.309-313.
[8] Jakob N., Gurevych I. «Extracting opinion targets in a single- and cross­domain setting with conditional random fields». In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. 2010. pp. 1035-1045.
[9] Lafferty J., McCallum A., Pereira F. «Conditional random fields: probabilistic models for segmenting and labeling sequence data». Proceedings of the Eighteenth International Conference on Machine Learning. 2001. pp. 282-289.
[10] Четвёркин И., Лукашевич Н. «Автоматическое извлечение оценочных слов для конкретной предметной области». 2010.
[11] Sowjanya M., Srividya K. «Aspect Based Sentiment Anaysis using POS Tagging and TFIDF».
[12] Popescu A., Etzioni O. «Extracting Product Features and Opinions from Reviews»
[13] Rana T., Cheah Y. «Improving Aspect Extraction Using Aspect Frequency and Semantic Similarity-Based Approach for Aspect-Based Sentiment Analysis». Recent Advances in Information and Communication Technology 2017, Advances in Intelligent Systems and Computing 566.
[14] (Rubenstein H., Goodenough J. «Contextual correlates of synonymy». Communications of the ACM 8(10). 1965. pp. 627-633.
[15] Pantel P. «Inducing ontological cooccurrence vectors». Proceedings of the 43rd Conference of the Association for Computational Linguistics. Association for Computational Linguistics. 2005. pp. 125-132.
...


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ