Введение 4
2. Постановка задачи 8
3. Обзор предметной области 9
3.1 Выявление психотипа респондента 9
3.2 Генерация отношения социальным агентом 9
3.3 Анализ эмоциональной окраски текста 10
3.4 Подходы к классификации тональности 11
3.4.1 Подход, основанный на правилах 11
3.4.2 Подход, основанный на словарях тональной лексики 12
3.4.3 Машинное обучение с учителем 14
3.4.4 Машинное обучение без учителя 15
3.5 Структура классов 16
3.6 Выбор признаков классификации 17
3.7 Вывод 18
4. Исследование и построение решения задачи 19
4.1 Исследование особенностей сообщений при коммуникации
с социальным агентом 19
4.2 Выделение искомых психотипов 20
4.3 Определение принципа генерации отношения собеседнику 21
4.4 Разработка структуры классификации 21
4.5 Реализация алгоритмов классификации сообщений 22
4.5.1 Выбор меры эффективности алгоритмов 23
4.5.2 Выбор признаков классификации 25
4.5.3 Подготовка текста для анализа 26
4.5.4 Реализуемые алгоритмы классификации 27
4.5.4.1 Наивный байесовский классификатор 27
4.5.4.2 Метод опорных векторов 28
4.5.4.3 Метод опорных векторов + delta TF-IDF 29
4.5.5 Выбор обучающего корпуса 30
4.5.6 Тестирование эффективности 31
4.6 Описание практической части 33
5. Заключение 35
6. Список литературы
Компьютерные технологии развиваются огромными темпами. И уже сейчас они окружают нас практически везде. Компьютеры могут управлять как домашним телевизором, так и целым запуском ракеты в космос. Такое бурное развитие информационных технологий привело к потребности в новых интерфейсах, которые должны упростить взаимодействие компьютера и человека. Тем самым проникнуть в нашу жизнь и автоматизировать ее еще сильнее. Одним из решений данной проблемы можно считать антропоморфные интерфейсы (интерфейсы, по своему облику похожие на человека), которые позволяют полностью или частично (в зависимости от реализации) отказаться от стандартных компьютерных интерфейсных устройств (клавиатура, мышь, джойстик и т. д.) и за счет этого увеличить эргономику пользователей.
Разработка антропоморфного социального агента - это кросс- дисциплинарная, трудоемкая и ресурсозатратная задача. Это довольно серьезный проект, который состоит из большого количества разных частей. Вот лишь несколько составляющих человеко-машинного интерфейса: распознавание человеческой речи, анализ человеческой речи, симуляция речи человека, симуляция мимики, движений человека, симуляция психоэмоциональных состояний и реакций, рассуждения на основе здравого смысла, поддержание контекста, диалоговый режим [1].
В данной работе будет исследован такой аспект, как выявление психотипа респондента и генерация отношения к нему социальным агентом. Эта задача далеко нетривиальна. Выделить психотип собеседника можно разными способами. Например, по интонации речи, по мимике лица, по текстовому диалогу. Каждая из этих частей требует отдельной глубокой исследовательской работы. В этой работе будет решаться проблема определения эмоционального состояния собеседника на основе текста. Эту задачу можно свести к задаче анализа тональности текста, учитывая особенности, присущие выбранной теме. Кроме того, в работе будут рассмотрены принципы генерации отношения социального агента к респонденту и изменение его эмоционального настроя на протяжении общения.
Научная новизна исследуемой проблемы
Разработки и исследования социальных агентов, помощников и собеседников развиваются уже довольно продолжительное время. Каждый год создаются новые системы, а также улучшаются уже существующие.
Успешным примером одной из таких систем можно назвать виртуального собеседника Женю Густмана (Eugene Goostman) [2], который в 2014 году смог пройти тест Тьюринга [3].
Активно развивающееся направление интеллектуальных агентов используют и самые крупные мировые компании. Например, компания Apple с ее персональным помощником и вопросно-ответной системой - Siri, которая была разработана для iOS. Данная программа обрабатывает естественную речь, отвечает на вопросы и дает рекомендации; продукт компании Amazon - Amazon Echo (Alexa) - система голосового управления способная отвечать на вопросы, а также обладающая способностью воспроизведения музыки; Google Now — сервис кастомного поиска от Google Inc, используется в приложении Google Search. Из российских компаний хотелось бы отметить компанию Яндекс с ее системой SpeechKit, которая реализована в частности в их продукте Яндекс.Навигатор. SpeechKit включает в себя распознавание речи и ее синтез, активацию голосом, выделение смысловых объектов, определение эмоциональной окраски произнесенного текста.
Если же брать именно антропоморфные социальные агентов, то следует отметить проект Кембриджского университета Zoe [4]. Данный агент способен распознавать и синтезировать речь, а также обладает интерфейсом в виде женского лица, которое способно отображать различные эмоции.
Существует также немало проектов, направленных на выделение эмоциональной составляющей из текста. Чаще всего эти системы занимаются исследованием отношения людей к тому или иному продукту. Например, фильм, книга, техника. Ещё существуют системы, позволяющие определять мнения пользователей социальный сетей о каких-либо событиях (политических, спортивных и других). К сожалению, такие системы в основном работают с англоязычными текстами. Но в последнее время область анализа тональности активно развивается и для других языков [5, 6].
Из всего вышеперечисленного можно сделать вывод, что направление разработки социальных агентов и направление автоматического определения эмоций из текста на русском языке - это две перспективные области. Однако на данный момент неизвестно о существовании проектов, объединяющих эти две темы. Это и определило научную новизну работы.
Практическая значимость
Реализация поставленной задачи с помощью языка программирования Python, работа с реальными данными, а также проведенный анализ алгоритмов классификации, основанных на подходах машинного обучения, определили практическую значимость работы.
В рамках дипломной работы были решены следующие задачи:
1. Определены принципы выделения психотипов и генерации отношения к собеседнику;
2. Проведен обзор существующих методов автоматического анализа тональности текстов;
3. Проведено исследование особенностей сообщений при коммуникации с социальным агентом в контексте разработки методов анализа их эмоциональной окраски;
4. Разработаны методы автоматического анализа эмоционально окрашенных сообщений и генерации отношения;
5. Проведена экспериментальная оценка эффективности алгоритмов классификации.