ГЛОССАРИЙ 3
ВВЕДЕНИЕ 4
1. ОБЗОР МЕТОДОВ АНАЛИЗА ТОНАЛЬНОСТИ 6
1.1 Подходы к анализу тональности на основе моделей глубокого обучения 7
1.1.1 Рекуррентные нейронные сети 7
1.1.2 Сверточные нейронные сети 12
1.2 Векторные представления слов 15
1.2.1 Word2Vec 16
1.2.2 GloVe 19
1.2.3 ELMo 20
1.3 Признаки тональности, используемые для классификации текстов 22
1.4 Метрики качества классифицирующей модели 24
2. ПРОЦЕСС РАЗРАБОТКИ КЛАССИФИКАТОРОВ 27
2.1 Выбор данных для обучения и тестирования 27
2.2 Инструменты для разработки 28
2.3 Предобработка данных 29
2.3 Разработка моделей 30
3. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 34
ЗАКЛЮЧЕНИЕ 39
СПИСОК ЛИТЕРАТУРЫ
На сегодняшний день среди интернет ресурсов имеет большую популярность такая разновидность блогинга как микроблогинг, использующая концепцию коротких постов (100-200 слов). На популярных веб-сайтах, предоставляющих услуги микроблогинга (Twitter, Tumblr и Facebook), ежедневно появляются миллионы новых сообщений. Авторы этих сообщений пишут о своей жизни, обмениваются мнениями по различным темам и обсуждают актуальные проблемы. Поскольку пользователи часто высказываются о продуктах и услугах, которые они используют или же выражают свои политические и религиозные взгляды, веб-сайты микроблогов становятся ценными источниками мнений и настроений. Такие данные могут быть эффективно использованы для маркетинга или социальных исследований. Например, производственные компании могут быть заинтересованы в следующих вопросах:
• Какие ключевые аспекты продукта пользователи обсуждают?
• Насколько положительно или отрицательно люди относятся к нашему продукту?
• Какие функции продуктов пользователи хотят улучшить?
Политические партии могут быть заинтересованы в том, поддерживают
ли люди их программу [1, 2]. Общественные организации могут узнать мнение людей о текущих дебатах.
Чтобы извлечь такую информацию необходимо анализировать внушительные объёмы текстовых данных. Решению этой проблемы посвящен специальный раздел компьютерной лингвистики - автоматический анализ тональности текста (sentiment analysis или opinion mining) [3].
Несмотря на множество решений данной проблемы, все они не идеальны и не обладают совершенной точностью в силу специфических особенностей текстовых сообщений в микроблогах: такие сообщения ограничены по длине, обычно охватывают одно предложение или меньше, а также содержат опечатки, сленг, эмотиконы и сокращенные формы слов.
Целью данной работы является разработка эффективного классификатора тональности коротких сообщений, опубликованных в сети Интернет, на основе современных методов глубокого обучения с учителем.
В связи с поставленной целью были поставлены следующие задачи:
• Провести обзор современных архитектур нейронных сетей (рекуррентные и сверточные нейронные сети) и эффективных методов обработки естественного языка (модели векторного представления слов, методы подсчета признаков на основе словарей тональности), применяемых для решения задачи классификации тональности.
• Выбрать программные средства для разработки и тестирования моделей классификации, спроектировать архитектуру системы.
• Разработать модели глубокого обучения на основе рассмотренных методов.
• Оценить качество моделей с различной конфигурацией на коллекции коротких сообщений социальной сети Твиттер и выбрать среди них наилучшую.
Объектом исследования является анализ тональности текстов на естественном языке.
Предметом исследования является классификатор на основе методов автоматического анализа тональности текста.
В ходе данной работы были выполнены следующие задачи:
• Были рассмотрены архитектуры рекуррентных и сверточных нейронных сетей, в том числе была рассмотрена разновидность ячейки рекуррентных нейронных сетей LSTM.
• Были рассмотрены методы векторного представления слов Word2Vec, GloVE и ELMo.
• Был рассмотрен метод классификации тональности на основе словарей тональности, построенных вручную и автоматически.
• На основе рассмотренных методов и выбранных инструментов разработки были построены модели классификации тональности различной архитектуры.
• Разработанные модели были апробированы на данных соревнования по семантическому анализу SemEval 2017 для задачи анализа тональности сообщений социальной сети Твиттер и сравнены с лучшими моделями данного соревнования.
По результатам экспериментов с имеющимися моделями была выявлена модель, обладающая наилучшими показателями - модель на основе нескольких сверточных слоев и модели векторного слов ELMo, для которой были получены оценки качества, превосходящие оценки моделей соревнования SemEval.
Таким образом цель данной работы была достигнута.