Введение .................................................................................................................. 3
Глава 1. Автоматический анализ тональности как задача прикладной
лингвистики ........................................................................................................... 7
1.1. Основные понятия анализа тональности ..................................................... 7
1.2. Задачи автоматического анализа тональности ............................................ 9
1.3. Проблемы автоматического анализа тональности .................................... 11
1.4. Методы автоматического анализа тональности ........................................ 15
1.5. Выводы к главе 1 .......................................................................................... 20
Глава 2. Разработка алгоритма автоматического анализа тональности 22
2.1. Создание и характеристика корпуса текстов как материала исследования
............................................................................................................................... 22
2.2. Анализ особенностей материала ................................................................. 23
2.3. Создание и структура базы данных для хранения корпуса текстов ....... 32
2.4. Предварительная обработка текстов на основе их особенностей ........... 36
2.5. Разработка алгоритма и описание используемого метода ....................... 38
2.6. Выводы к главе 2 .......................................................................................... 46
Глава 3. Создание системы автоматического анализа тональности и
анализ результатов ............................................................................................. 47
3.1. Проектирование архитектуры системы и реализация алгоритма ........... 47
3.2. Оценка эффективности системы ................................................................. 51
3.3. Разработка веб-интерфейса для дальнейшего взаимодействия эксперта с
системой ............................................................................................................... 54
3.4. Анализ результатов и дальнейшее направление исследований .............. 60
3.5. Выводы к главе 3 .......................................................................................... 63
Заключение ........................................................................................................... 64
Cписок использованной литературы .............................................................. 67
С появлением и стремительным распространением таких социальных
сервисов Web 2.0, как блоги, социальные сети, вики-проекты, интернет-
пользователи получили возможность формировать собственный Web-контент
и обмениваться мнениями касательно любых процессов и явлений.
Взаимодействие и обмен информацией, доступ к которой можно получить,
находясь практически в любой точке мира, происходит почти в режиме
реального времени. Так, например, спортивные обозреватели ведут
текстовые репортажи матчей прямо с места событий, туристы-блогеры
делятся впечатлениями о посещаемых ими странах с аудиторией,
представители которой, в свою очередь, также находятся в самых разных
местах земного шара и не имеют возможности увидеть всё своими глазами.
Профиль в социальных сетях имеют все компании, организации,
знаменитости, политические и общественные деятели, заинтересованные в
создании, формировании и поддержании имиджа и репутации. Всё это
приводит к образованию огромных массивов текстовых данных, которые
увеличиваются в объёмах с каждой минутой, что делает затруднительным
какой-либо ручной экспертный анализ и сбор статистики для определения
отношения пользователей к тому или иному лицу, событию, продукту и так
далее. Для решения подобных задач существует набор автоматизированных
методов, объединённых названием «Анализ тональности текста» (англ.
«Sentiment Analysis»).
Цель данной работы состоит в разработке и реализации системы
автоматического анализа тональности на материале сообщений о
политических партиях в социальных сетях.
Сформулированная подобным образом цель определяет ряд стоящих
перед нами задач:
1. Обзор существующих исследований в области автоматического
анализа тональности и определение методов, сообразных с данным исследованием.
2. Анализ проблем и трудностей, которые существуют в области
анализа тональности и могут негативно сказаться на результатах
исследования, и поиск возможных решений данных проблем.
3. Создание корпуса, состоящего из сообщений о политических
партиях и представляющего материал исследования, и базы данных для
хранения корпуса и операций с материалом.
3. Анализ особенностей материала и соответствующая обозначенным
особенностям предварительная обработка.
4. Разработка системы автоматического анализа тональности на основе
особенностей материала и её реализация в виде программного средства.
5. Проведение экспериментального исследования для определения
эффективности работы системы и анализ результатов.
6. Определение дальнейшего направления исследований.
Объектом исследования являются сообщения о политических партиях
в социальных сетях, представленные в виде неструктурированных текстов на
естественном языке, тогда как предметом выступает тональность данных сообщений.
Настоящее исследование проводится на материале сообщений из
социальных сетей. Социальная сеть — онлайн-сервис, созданный на
платформе Web 2.0, структура которого представляет собой граф: в узлах
(вершинах) графа находятся пользователи, каждый из которых имеет
профиль с определённой информацией, а рёбрами являются связи между
пользователями. Примерами наиболее популярных социальных сетей служат:
Facebook1, Instagram2, Twitter3, ВКонтакте4. Материалом для исследования
послужил корпус сообщений (постов), отобранный по определённым
параметрам из базы постов социальной сети Твиттер (англ. Twitter). Пост в
Твиттере также называют твит. Данная социальная сеть была выбрана на
основании того, что Twitter предоставляет официальный доступ к базе
сообщений через API 5 (Application Programming Interface — интерфейс
прикладного программирования).
Данное исследование проводится на материале сообщений о
политических партиях, преодолевших пятипроцентный порог на выборах
депутатов Государственной думы Федерального собрания Российской
Федерации, которые состоялись 18 сентября 2016 года (Единая Россия,
ЛДПР, КПРФ, Справедливая Россия). Политическая партия —
«общественное объединение, созданное в целях участия граждан Российской
Федерации в политической жизни общества посредством формирования и
выражения их политической воли, участия в общественных и политических
акциях, в выборах и референдумах, а также в целях представления интересов
граждан в органах государственной власти и органах местного самоуправления»6.
Работа состоит из введения, трёх глав, заключения и списка
используемой литературы. В первой главе разрабатывается понятийно-
терминологический аппарат автоматического анализа тональности,
исследуются задачи, проблемы и методы анализа тональности.
Во второй главе содержится описание процесса отбора материала и
создания базы данных, а также характеристика особенностей материала, на
основе которых производится предобработка и разрабатывается алгоритм
автоматического анализа тональности.
В третьей главе рассматривается реализация системы
автоматического анализа тональности в виде программного средства,
производится оценка эффективности системы, анализируются результаты и
определяется дальнейшее направление исследований. Список литературы
содержит 54 наименования.
Актуальность исследования определяется стремительным развитием
сети Интернет, ростом популярности социальных сетей и увеличением
генерируемого пользователями контента, вследствие чего появляется
необходимость и возможность исследования общественного мнения и
настроений на основе автоматического анализа и обработки Больших Данных.
Научная новизна работы заключается в разработке оригинального
метода, основанного на особенностях текстов малоизученной в контексте
анализа тональности предметной области политики.
Практическая значимость состоит в том, что полученные результаты
могут применяться при проведении социологических и политических
исследований, а также для решения задач интеллектуального анализа текстов.
За последние годы автоматический анализ тональности стал одной из
самых популярных задач прикладной лингвистики, что объясняется не
только научным, но и коммерческим интересом к исследованиям
общественного мнения и настроений на основе обработки и анализа
постоянно увеличивающегося потока Больших Данных.
В ходе данного исследования была разработана и реализована система
автоматического анализа тональности на материале сообщений о
политических партиях в социальных сетях, получившая название Sentimentor.
В процессе работы были поэтапно решены следующие задачи:
1. Изучена область автоматического анализа тональности: исследован
понятийно-терминологический аппарат данной области, а также задачи,
проблемы и существующие методы анализа тональности;
2. Создан корпус текстов, представляющий материал исследования и
состоящий из сообщений о политических партиях в социальной сети
Твиттер. Объём корпуса составил: 74 817 твитов или 1 031 321 словоупотреблений;
3. Для хранения корпуса текстов с помощью Microsoft SQL Server
создана база данных SentDB;
4. На основе анализа корпуса выделены и подробно описаны
особенности текстов данной сети и данной предметной области, которые
были учтены при предварительной обработке материала и разработке метода.
5. С учётом особенностей материала разработан оригинальный метод,
основанный на комбинации лингвистических методов и методов машинного
обучения. Данный метод предполагает обучение Наивного байесовского
классификатора на выборке небольшого объёма и дальнейший перерасчёт
вероятностей принадлежности текста к определённому классу с помощью
данных из тональных словарей;
6. Для реализации разрабатываемого метода была сформирована
обучающая выборка, в которую вошли 2000 размеченных экспертами твитов,
а также составлены словари тональной лексики: универсальный словарь
тональный лексики объёмом 3042 лексические единицы и предметно-
ориентированный словарь объёмом 386 лексических единиц, а также
тональный словарь эмоджи объёмом 360 единиц;
7. На языке C# создана и протестирована система автоматического
анализа тональности Sentimentor, показавшая достаточно высокую
эффективность: точность системы в целых числах составляет 86%, полнота
— 83%, а значение F-меры достигает 84%.
8. Для дальнейшего взаимодействия эксперта с системой и повышения
её эффективности разработан веб-интерфейс, доступный по адресу:
https://sent.xxoniii.com/. С его помощью эксперт может исправить результат
классификации системы, пополнить обучающую выборку, предложить
слово-кандидат для пополнения тональных словарей, подобрать
оптимальные параметры расчёта вероятностей, рассчитать метрики оценки
эффективности системы.
9. В ходе анализа результатов было определено последующее
направление исследований и выявлены задачи, решение которых поможет в
дальнейшем улучшить результат классификации. К ним относятся
пополнение обучающей выборки и тональных словарей с помощью
разработанного веб-интерфейса и создание модулей извлечения
именованных сущностей, выявления объекта оценки, распознавания сарказма
и иронии, а также выполнения мультимодального анализа.
Таким образом, цель исследования была достигнута, а его основные задачи решены.
В исследуемом материале длина твита редко превышает одно
предложение, а потому задача определения тональности твита может быть
приравнена к задаче определения тональности предложения. Из этого
следует, что предложенная методика может быть применена и к текстам из
других социальных сетей.
Также разработанная система может быть настроена на анализ
тональности текстов других предметных областей за счёт составления
дополнительных предметно-ориентированных словарей.
1. Алексеева, С.В. Linis-crowd.org: лексический ресурс для анализа
тональности социально-политических текстов на русском языке / С.В.
Алексеева, Е.Ю. Кольцова, С.Н. Кольцов // Компьютерная лингвистика и
вычислительные онтологии: сборник научных статей. Труды XVIII
объединенной конференции «Интернет и современное общество» (IMS-
2015). — 2015. — С. 25-32.
2. Баринова, С.О. Классификация сокращений в языке Интернета
(на материале английского языка) / С.О. Баринова // Известия РГПУ им. А.И.
Герцена. 2007. — Т. 12. — No33. — С. 24-27.
3. Белоедова А. В. Типы источников информации в современном
медиадискурсе и проблемы их достоверности // А.В. Белоедова // Научные
ведомости БелГУ. Серия: Гуманитарные науки. — 2017. — No7 (256). — С. 87-94.
4. Большие Данные: как извлечь из них информацию / А. Моррисон
[и др.] // Технологический прогноз. — 2010. — No3. — С. 22-29.
5. Гусейнов, Г. Ч. Берлога веблога. Введение в эрратическую
семантику [Электронный ресурс] / Г.Ч. Гусейнов // «Говорим по-русски». —
2005. — Режим доступа: http://speakrus.ru/gg/microprosa_erratica-1.htm. —
(Дата обращения: 05.05.2017).
6. Коршунов, А.В. Тематическое моделирование текстов на
естественном языке / А.В. Коршунов, А.Г. Гомзин // Труды ИСП РАН. —
2012. — Т. 23. — С. 215-244.
7. Сорокин, Ю.А. Креолизованные тексты и их коммуникативная
функция / Ю.А. Сорокин, Е.Ф. Тарасов // Оптимизация речевого воздействия.
— 1990. — С. 180-186.
8. Худякова, М.В. Классификация отзывов пользователей с
использованием фрагментных правил / М.В. Худякова, С. Давыдов, В.Г. Васильев
// Компьютерная лингвистика и интеллектуальные технологии; по материалам
ежегодной Международной конференции «Диалог». — 2012. — С. 66-78.
9. Araújo, M. iFeel: A system that compares and combines sentiment analysis
methods / M. Araújo [et al.] // Proceedings of the companion publication of the 23rd
international conference on World wide web companion. — 2014. — P. 75—78.
10. Baum, R. Die Verwendung von Emojis in der
Konsumentenkommunikation. Eine stimmungsanalytische Betrachtung von
Kurznachrichten im Social Web / R. Baum, T.Egelhof // Junior Management
Science. — 2017. — No2. — P. 1-42.
11. Bravo-Marquez, F. Meta-level sentiment models for big social data
analysis / F. Bravo-Marquez, M. Mendoza, B. Poblete // Knowledge-Based
Systems. — 2014. — No69. — P. 86-99.
12. Calvo, R. Affect detection: An interdisciplinary review of models,
methods, and their applications / R. Calvo R., S. D’Mello // IEEE Transactions on
Affective Computing. — 2010. — No1. — P. 18-37.
13. Cambria, E. Affective computing and sentiment analysis / E. Cambria
// IEEE Intelligent Systems. — 2016. — No2. — P. 102-107.
14. Cambria, E. Sentic computing: A common-sense-based framework for
concept-level sentiment analysis / E. Cambria, A. Hussain. — Cham, 2015. — 196 p.
15. Cambria, E. The hourglass of Emotions / E. Cambria, A. Livingstone,
A. Hussain // Cognitive Behavioural Systems. Lecture Notes in Computer Science;
ed. A. M. Esposito, A. Vinciarelli, and R. Hoffmann, V. C. Muller. — Berlin,
2012. — P. 144-157.
...