Введение 3
Глава 1. Философский и лингвистический аспекты категории оценки 5
1.1. Философский аспект оценок 5
1.2. Оценки как предмет изучения лингвистики 12
1.3. Типология оценок 17
Глава 2. Словари оценочной лексики для целей анализа тональности 22
2.1. Анализ тональности 22
2.1.1. Понятие анализа тональности 22
2.1.2. Подходы к определению тональности текстов 27
2.1.3. Системы анализа тональности текстов на русском языке 29
2.2. Словари оценочной лексики 31
Глава 3. Создание тезауруса оценочной лексики 37
3.1. Материал исследования 37
3.2. Этапы разработки тезауруса оценочной лексики 41
3.2.1. Извлечение оценочных слов и словосочетаний и группировка в
семантические категории 41
3.2.2. Расширение тезауруса с помощью правил 44
3.2.3. Характеристика полученного тезауруса 49
3.3. Экспериментальная проверка 58
Заключение 62
Список литературы 63
Приложение А. Код программы для автоматического извлечения отзывов с ресурса Яндекс.Маркет 69
Приложение Б. Пример правила для
В последние годы стремительно развивается интернет, в том числе его русскоязычный сегмент. В интернете и повседневной жизни мы ежечасно сталкиваемся с оценками: прежде чем что-нибудь купить, мы знакомимся с отзывами, ставим «лайки», сочиняем комментарии, оставляем записи в блогах. Нас окружает мир оценок, рейтинговый мир. Это явление приобрело такую тотальную массовость, что возникает потребность в ее внимательном изучении, обратившись к языковым проявлениям всех форм оценки.
В современном языкознании стала активно развиваться область исследований, которая занимается анализом мнений, чувств, эмоций, оценок людей по отношению к различным объектам. Эта область называется оценкой тональности. Наше исследование вписывается в эту область.
Основные подходы к изучению тональности текста можно разделить на две большие группы. Подходы первой группы основаны на использовании словарей и правил, вторая группа использует методы машинного обучения.
В данной работе предлагается подход к составлению словаря оценочной лексики для заданной предметной области.
Актуальность выбранной темы обусловлена необходимостью разработки новых методов автоматического анализа оценочной лексики.
Цель работы – представить систему оценок объекта в виде словаря тезауруса, основанного на иерархическом принципе.
В качестве базы для исследования использовались отзывы на товары, размещенные на портале Яндекс.Маркет.
В соответствии с данной целью необходимо решить следующие задачи:
дать понятие оценки и рассмотреть, как развивались философские взгляды на определение оценок;
выделить отличительные характеристики оценок как предмета изучения лингвистики;4
проанализировать различные существующие классификации оценок;
дать характеристику проблеме анализа тональности;
проанализировать существующие словари оценочной лексики для целей анализа тональности;
создать словарь-тезаурус оценочной лексики потребительских отзывов.
Практическая значимость работы заключается в том, что её результаты могут быть использованы для автоматического анализа тональности текстов.
Апробация исследования: основные положения исследования и полученные результаты были представлены в докладе на XIX
Международной научной конференции молодых филологов, проходившей в период с 15 до 17 февраля 2018 года в Таллине.
Структура квалификационной работы: работа состоит из введения, трёх глав, заключения, списка использованной литературы и приложений.
В первой главе рассматривается сущность оценок с философской точки зрения, а также особенности категории оценки как предмета изучения лингвистики. В конце главы приводятся различные подходы к классификации оценок.
Во второй главе дается характеристика проблемы анализа тональности.
Затем приводится обзор существующих словарей оценочной лексики для задач анализа тональности.
В третьей главе описывается материал исследования, этапы составления тезауруса оценочных слов и словосочетаний. В заключении главы дается характеристика полученного тезауруса, приводится экспериментальная проверка применения тезауруса для анализа тональности
Таким образом, данная работа посвящена проблеме разработки тезауруса оценочных слов для заданной предметной области.
В работе были проанализированы особенности оценок как предмета изучения философии и лингвистики. Было показано, что оценочная лексика является неотъемлемым компонентом систем автоматического анализа тональности. В работе были рассмотрены подходы к анализу тональности, особое внимание было уделено подходу с использованием словарей оценочной лексики, дана характеристика некоторым существующим словарям оценочных слов.
В работе был описан собственный подход к созданию тезауруса оценочной лексики для заданной предметной области. На основе коллекции из 3850 отзывов на кофемашины был составлен тезаурус оценочных слов и словосочетаний, упорядоченных по семантическим категориям трех уровней, который затем был автоматически расширен с помощью правил. Общий
объем словаря составил 2900 словарных единиц. Полученная нами структура семантических категорий оценок может носить в некоторой степени универсальный характер применительно к отзывам на разные группы товаров.
Применение разработанного тезауруса может служить основой для глубокого анализа тональности, позволяющего определять, не только, как пользователь оценивает объект в целом – положительно или отрицательно, но и выявить, что именно в объекте ему нравится, а что нет.
Первичная оценка результатов показала неплохие значения точности и
полноты для задачи классификации отзывов по общей полярности.
В дальнейшем планируется расширить спектр правил и настроить систему весов оценочных слов для улучшения производительности. Кроме этого, планируется более тщательно оценить эффективность тезауруса и попытаться адаптировать тезаурус к другим предметным областям