Введение 4
Глава 1. Обзор известных методов анализа тональности 6
1.1 Общий анализ мнений 6
1.2 Сложность анализа тональности текста 7
1.3 Классификация и подходы 7
1.3.1 Подход основанный на словарях 8
1.3.2 Языковые модели 8
1.3.3 Дискурс структуры и семантики 9
1.4 Методы классификации 9
1.4.1 Наивный байесовский классификатор 11
1.4.2 Метод опорных векторов 11
1.4.3 Ансамбль алгоритмов классификации 12
1.4.4 Искусственные нейронные сети 13
Глава 2. Глубокие нейронные сети для двуязычного анализа тональности текста 15
2.1 Обзор литературы и перспектив 15
2.1.1 Основы нейронных сетей: метод обратного
распространения ошибки 15
2.1.2 Глубокое обучение и подготовка сетей без учителя 18
2.1.3 Сверточные нейронные сети 19
2.1.4 Реккурентные нейронные сети 20
2.1.5 Другие архитектуры реккурентных нейронных сетей ...21
2.2 Основные идеи предлагаемого подхода 22
2.3 Двуязычные векторные представления слов 23
2.3.1 Существующие методы создания двуязычных векторных
представлений слов 23
2.3.2 Новый метод создания двуязычных векторных
представлений слов 25
2.4 LSTM модель для анализа тональности текста 26
2.4.1 Архитектура 26
2.4.2 Регуляризация 26
Глава 3. Экспериментальная оценка 28
3.1 Подготовка к экспериментам 28
3.1.1 Метрики оценивания 28
3.1.2 Сбор и предварительная обработка данных 29
3.1.3 Настройка модели 30
3.2 Построение двуязычных векторов 31
3.2.1 Линейные трансформации 31
3.2.2 Предлагаемый метод 32
3.3 Результаты 32
3.3.1 Английский - Русский 32
3.3.2 Русский - Казахский 33
Заключение 35
Список литературы
В диссертационной работе исследуются проблема анализа тональности текста в различных медиаресурсах, такие как новости и социальные сети. Анализ тональности (sentiment analysis англ.) - это процесс автоматического определения тональности текста написанного на естественном языке. Этот термин достаточно широкого охвата и зависит, как правило, от контекста его использования. В данной работе нас интересует определенное подмножество настроения - мнения. Таким образом проблемой исследования является определение общего мнения, выраженные в текстах, написанных на естественном языке.
Анализ тональности становится все более актуальной темой. Потребители используют Интернет в качестве консультативного органа, влияющего на их мнение по интересующим их вопросам. Информация, полученная из определенных высказываний в интернете, позволяет реагировать на негативные настроения и отслеживать позитивные. Обработка этих данных вручную является очень сложной, если не невозможной задачей. С ростом интернета и особенно социальных медиа, все больше и больше внимания уделяется автоматическому анализу тональности во всех видах источников.
С тех пор как социальные медиа начали охватывать практически весь мир, люди постоянно высказывают мнения в интернете на сотнях языков. Социальные медиа производят значительную часть информации присутствующей в интернете. Так, например, Твиттер производит 500 миллионов сообщений в день, в среднем 350 000 твитов в минуту. Легкость, с которой такой твит может разместить любой, стимулирует людей распространять свои мнения. Этот впечатляющий поток информации требует оперативно реагировать на изменения в настроениях или растущие тренды.
Хотя тема анализ тональности текста была уже достаточно хорошо исследована, довольно мало было проведено исследований в области двуязычного/много- язычного анализа. А также, эта тема практически никак не представлена для казахского языка. Таким образом, в данной работе перед нами стоит задача исследования автоматической обработки мнений для разных языков в едином потоке неструктурированной информации.
Целью данной работы является исследование существующих методов анализа тональности текста, разработка новых методов для анализа тональности, в частности, для казахского языка, и проверка выдвинутых гипотез на предмет обощаемости.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Исследовать существующие методы анализа тональности текста.
2. Исследовать существующие методы многоязычной обработки текста.
3. Разработать метод многоязычного анализа тональности текста.
4. Проверить выдвинутые гипотезы экспериментально.
Научная новизна:
1. Был предложен метод двуязычного анализа тональности текста, который не требует предварительной сложной обработки текста.
2. Впервые была построена модель анализа тональности текста для казахского языка.
Объем и структура работы. Диссертация состоит из введения, трех глав и заключения. Полный объём диссертации составляет 40 страниц, включая 12 рисунков и 4 таблицы. Список литературы содержит 60 наименований.
Основные результаты работы заключаются в следующем.
1. Был проведен обзор существующих методов анализа тональности текста.
2. Был построен baseline в анализе тональности текста для казахского языка.
3. Был предложен и экспериментально исследован новый метод генерации двуязычных векторных представлений слов.
4. Был предложен и экспериментально исследован новый метод двуязычного анализа тональности текста.
Предложенный метод может быть использован для анализа настроений в другом языке, который не имеет достаточного количества размеченных корпусов. Для этого исследования достаточно иметь только словари для перевода слов. Также предложенная модель может быть использована для создания или расширения размеченных по тональности корпусов, например, в казахском языке. В качестве будущей работы, автору хотелось бы реализовать предложенный метод на основе другой архитектуры нейронной сети, например, сверточные сети, описанные дос Сантосом в работе [14]. Кроме того, проверить возможность применения нашей модели совместно с методами активного обучения.
В заключение автор выражает благодарность и большую признательность научному руководителю Иванову В.В. за поддержку, помощь, обсуждение результатов и научное руководство.