Автоматический анализ тональности на материале сообщений о политических партиях в социальных сетях
|
Введение .................................................................................................................. 3
Глава 1. Автоматический анализ тональности как задача прикладной
лингвистики ........................................................................................................... 7
1.1. Основные понятия анализа тональности ..................................................... 7
1.2. Задачи автоматического анализа тональности ............................................ 9
1.3. Проблемы автоматического анализа тональности .................................... 11
1.4. Методы автоматического анализа тональности ........................................ 15
1.5. Выводы к главе 1 .......................................................................................... 20
Глава 2. Разработка алгоритма автоматического анализа тональности 22
2.1. Создание и характеристика корпуса текстов как материала исследования
............................................................................................................................... 22
2.2. Анализ особенностей материала ................................................................. 23
2.3. Создание и структура базы данных для хранения корпуса текстов ....... 32
2.4. Предварительная обработка текстов на основе их особенностей ........... 36
2.5. Разработка алгоритма и описание используемого метода ....................... 38
2.6. Выводы к главе 2 .......................................................................................... 46
Глава 3. Создание системы автоматического анализа тональности и
анализ результатов ............................................................................................. 47
3.1. Проектирование архитектуры системы и реализация алгоритма ........... 47
3.2. Оценка эффективности системы ................................................................. 51
3.3. Разработка веб-интерфейса для дальнейшего взаимодействия эксперта с
системой ............................................................................................................... 54
3.4. Анализ результатов и дальнейшее направление исследований .............. 60
3.5. Выводы к главе 3 .......................................................................................... 63
Заключение ........................................................................................................... 64
Cписок использованной литературы .............................................................. 67
Глава 1. Автоматический анализ тональности как задача прикладной
лингвистики ........................................................................................................... 7
1.1. Основные понятия анализа тональности ..................................................... 7
1.2. Задачи автоматического анализа тональности ............................................ 9
1.3. Проблемы автоматического анализа тональности .................................... 11
1.4. Методы автоматического анализа тональности ........................................ 15
1.5. Выводы к главе 1 .......................................................................................... 20
Глава 2. Разработка алгоритма автоматического анализа тональности 22
2.1. Создание и характеристика корпуса текстов как материала исследования
............................................................................................................................... 22
2.2. Анализ особенностей материала ................................................................. 23
2.3. Создание и структура базы данных для хранения корпуса текстов ....... 32
2.4. Предварительная обработка текстов на основе их особенностей ........... 36
2.5. Разработка алгоритма и описание используемого метода ....................... 38
2.6. Выводы к главе 2 .......................................................................................... 46
Глава 3. Создание системы автоматического анализа тональности и
анализ результатов ............................................................................................. 47
3.1. Проектирование архитектуры системы и реализация алгоритма ........... 47
3.2. Оценка эффективности системы ................................................................. 51
3.3. Разработка веб-интерфейса для дальнейшего взаимодействия эксперта с
системой ............................................................................................................... 54
3.4. Анализ результатов и дальнейшее направление исследований .............. 60
3.5. Выводы к главе 3 .......................................................................................... 63
Заключение ........................................................................................................... 64
Cписок использованной литературы .............................................................. 67
С появлением и стремительным распространением таких социальных
сервисов Web 2.0, как блоги, социальные сети, вики-проекты, интернет-
пользователи получили возможность формировать собственный Web-контент
и обмениваться мнениями касательно любых процессов и явлений.
Взаимодействие и обмен информацией, доступ к которой можно получить,
находясь практически в любой точке мира, происходит почти в режиме
реального времени. Так, например, спортивные обозреватели ведут
текстовые репортажи матчей прямо с места событий, туристы-блогеры
делятся впечатлениями о посещаемых ими странах с аудиторией,
представители которой, в свою очередь, также находятся в самых разных
местах земного шара и не имеют возможности увидеть всё своими глазами.
Профиль в социальных сетях имеют все компании, организации,
знаменитости, политические и общественные деятели, заинтересованные в
создании, формировании и поддержании имиджа и репутации. Всё это
приводит к образованию огромных массивов текстовых данных, которые
увеличиваются в объёмах с каждой минутой, что делает затруднительным
какой-либо ручной экспертный анализ и сбор статистики для определения
отношения пользователей к тому или иному лицу, событию, продукту и так
далее. Для решения подобных задач существует набор автоматизированных
методов, объединённых названием «Анализ тональности текста» (англ.
«Sentiment Analysis»).
Цель данной работы состоит в разработке и реализации системы
автоматического анализа тональности на материале сообщений о
политических партиях в социальных сетях.
Сформулированная подобным образом цель определяет ряд стоящих
перед нами задач:
1. Обзор существующих исследований в области автоматического
анализа тональности и определение методов, сообразных с данным исследованием.
2. Анализ проблем и трудностей, которые существуют в области
анализа тональности и могут негативно сказаться на результатах
исследования, и поиск возможных решений данных проблем.
3. Создание корпуса, состоящего из сообщений о политических
партиях и представляющего материал исследования, и базы данных для
хранения корпуса и операций с материалом.
3. Анализ особенностей материала и соответствующая обозначенным
особенностям предварительная обработка.
4. Разработка системы автоматического анализа тональности на основе
особенностей материала и её реализация в виде программного средства.
5. Проведение экспериментального исследования для определения
эффективности работы системы и анализ результатов.
6. Определение дальнейшего направления исследований.
Объектом исследования являются сообщения о политических партиях
в социальных сетях, представленные в виде неструктурированных текстов на
естественном языке, тогда как предметом выступает тональность данных сообщений.
Настоящее исследование проводится на материале сообщений из
социальных сетей. Социальная сеть — онлайн-сервис, созданный на
платформе Web 2.0, структура которого представляет собой граф: в узлах
(вершинах) графа находятся пользователи, каждый из которых имеет
профиль с определённой информацией, а рёбрами являются связи между
пользователями. Примерами наиболее популярных социальных сетей служат:
Facebook1, Instagram2, Twitter3, ВКонтакте4. Материалом для исследования
послужил корпус сообщений (постов), отобранный по определённым
параметрам из базы постов социальной сети Твиттер (англ. Twitter). Пост в
Твиттере также называют твит. Данная социальная сеть была выбрана на
основании того, что Twitter предоставляет официальный доступ к базе
сообщений через API 5 (Application Programming Interface — интерфейс
прикладного программирования).
Данное исследование проводится на материале сообщений о
политических партиях, преодолевших пятипроцентный порог на выборах
депутатов Государственной думы Федерального собрания Российской
Федерации, которые состоялись 18 сентября 2016 года (Единая Россия,
ЛДПР, КПРФ, Справедливая Россия). Политическая партия —
«общественное объединение, созданное в целях участия граждан Российской
Федерации в политической жизни общества посредством формирования и
выражения их политической воли, участия в общественных и политических
акциях, в выборах и референдумах, а также в целях представления интересов
граждан в органах государственной власти и органах местного самоуправления»6.
Работа состоит из введения, трёх глав, заключения и списка
используемой литературы. В первой главе разрабатывается понятийно-
терминологический аппарат автоматического анализа тональности,
исследуются задачи, проблемы и методы анализа тональности.
Во второй главе содержится описание процесса отбора материала и
создания базы данных, а также характеристика особенностей материала, на
основе которых производится предобработка и разрабатывается алгоритм
автоматического анализа тональности.
В третьей главе рассматривается реализация системы
автоматического анализа тональности в виде программного средства,
производится оценка эффективности системы, анализируются результаты и
определяется дальнейшее направление исследований. Список литературы
содержит 54 наименования.
Актуальность исследования определяется стремительным развитием
сети Интернет, ростом популярности социальных сетей и увеличением
генерируемого пользователями контента, вследствие чего появляется
необходимость и возможность исследования общественного мнения и
настроений на основе автоматического анализа и обработки Больших Данных.
Научная новизна работы заключается в разработке оригинального
метода, основанного на особенностях текстов малоизученной в контексте
анализа тональности предметной области политики.
Практическая значимость состоит в том, что полученные результаты
могут применяться при проведении социологических и политических
исследований, а также для решения задач интеллектуального анализа текстов.
сервисов Web 2.0, как блоги, социальные сети, вики-проекты, интернет-
пользователи получили возможность формировать собственный Web-контент
и обмениваться мнениями касательно любых процессов и явлений.
Взаимодействие и обмен информацией, доступ к которой можно получить,
находясь практически в любой точке мира, происходит почти в режиме
реального времени. Так, например, спортивные обозреватели ведут
текстовые репортажи матчей прямо с места событий, туристы-блогеры
делятся впечатлениями о посещаемых ими странах с аудиторией,
представители которой, в свою очередь, также находятся в самых разных
местах земного шара и не имеют возможности увидеть всё своими глазами.
Профиль в социальных сетях имеют все компании, организации,
знаменитости, политические и общественные деятели, заинтересованные в
создании, формировании и поддержании имиджа и репутации. Всё это
приводит к образованию огромных массивов текстовых данных, которые
увеличиваются в объёмах с каждой минутой, что делает затруднительным
какой-либо ручной экспертный анализ и сбор статистики для определения
отношения пользователей к тому или иному лицу, событию, продукту и так
далее. Для решения подобных задач существует набор автоматизированных
методов, объединённых названием «Анализ тональности текста» (англ.
«Sentiment Analysis»).
Цель данной работы состоит в разработке и реализации системы
автоматического анализа тональности на материале сообщений о
политических партиях в социальных сетях.
Сформулированная подобным образом цель определяет ряд стоящих
перед нами задач:
1. Обзор существующих исследований в области автоматического
анализа тональности и определение методов, сообразных с данным исследованием.
2. Анализ проблем и трудностей, которые существуют в области
анализа тональности и могут негативно сказаться на результатах
исследования, и поиск возможных решений данных проблем.
3. Создание корпуса, состоящего из сообщений о политических
партиях и представляющего материал исследования, и базы данных для
хранения корпуса и операций с материалом.
3. Анализ особенностей материала и соответствующая обозначенным
особенностям предварительная обработка.
4. Разработка системы автоматического анализа тональности на основе
особенностей материала и её реализация в виде программного средства.
5. Проведение экспериментального исследования для определения
эффективности работы системы и анализ результатов.
6. Определение дальнейшего направления исследований.
Объектом исследования являются сообщения о политических партиях
в социальных сетях, представленные в виде неструктурированных текстов на
естественном языке, тогда как предметом выступает тональность данных сообщений.
Настоящее исследование проводится на материале сообщений из
социальных сетей. Социальная сеть — онлайн-сервис, созданный на
платформе Web 2.0, структура которого представляет собой граф: в узлах
(вершинах) графа находятся пользователи, каждый из которых имеет
профиль с определённой информацией, а рёбрами являются связи между
пользователями. Примерами наиболее популярных социальных сетей служат:
Facebook1, Instagram2, Twitter3, ВКонтакте4. Материалом для исследования
послужил корпус сообщений (постов), отобранный по определённым
параметрам из базы постов социальной сети Твиттер (англ. Twitter). Пост в
Твиттере также называют твит. Данная социальная сеть была выбрана на
основании того, что Twitter предоставляет официальный доступ к базе
сообщений через API 5 (Application Programming Interface — интерфейс
прикладного программирования).
Данное исследование проводится на материале сообщений о
политических партиях, преодолевших пятипроцентный порог на выборах
депутатов Государственной думы Федерального собрания Российской
Федерации, которые состоялись 18 сентября 2016 года (Единая Россия,
ЛДПР, КПРФ, Справедливая Россия). Политическая партия —
«общественное объединение, созданное в целях участия граждан Российской
Федерации в политической жизни общества посредством формирования и
выражения их политической воли, участия в общественных и политических
акциях, в выборах и референдумах, а также в целях представления интересов
граждан в органах государственной власти и органах местного самоуправления»6.
Работа состоит из введения, трёх глав, заключения и списка
используемой литературы. В первой главе разрабатывается понятийно-
терминологический аппарат автоматического анализа тональности,
исследуются задачи, проблемы и методы анализа тональности.
Во второй главе содержится описание процесса отбора материала и
создания базы данных, а также характеристика особенностей материала, на
основе которых производится предобработка и разрабатывается алгоритм
автоматического анализа тональности.
В третьей главе рассматривается реализация системы
автоматического анализа тональности в виде программного средства,
производится оценка эффективности системы, анализируются результаты и
определяется дальнейшее направление исследований. Список литературы
содержит 54 наименования.
Актуальность исследования определяется стремительным развитием
сети Интернет, ростом популярности социальных сетей и увеличением
генерируемого пользователями контента, вследствие чего появляется
необходимость и возможность исследования общественного мнения и
настроений на основе автоматического анализа и обработки Больших Данных.
Научная новизна работы заключается в разработке оригинального
метода, основанного на особенностях текстов малоизученной в контексте
анализа тональности предметной области политики.
Практическая значимость состоит в том, что полученные результаты
могут применяться при проведении социологических и политических
исследований, а также для решения задач интеллектуального анализа текстов.
За последние годы автоматический анализ тональности стал одной из
самых популярных задач прикладной лингвистики, что объясняется не
только научным, но и коммерческим интересом к исследованиям
общественного мнения и настроений на основе обработки и анализа
постоянно увеличивающегося потока Больших Данных.
В ходе данного исследования была разработана и реализована система
автоматического анализа тональности на материале сообщений о
политических партиях в социальных сетях, получившая название Sentimentor.
В процессе работы были поэтапно решены следующие задачи:
1. Изучена область автоматического анализа тональности: исследован
понятийно-терминологический аппарат данной области, а также задачи,
проблемы и существующие методы анализа тональности;
2. Создан корпус текстов, представляющий материал исследования и
состоящий из сообщений о политических партиях в социальной сети
Твиттер. Объём корпуса составил: 74 817 твитов или 1 031 321 словоупотреблений;
3. Для хранения корпуса текстов с помощью Microsoft SQL Server
создана база данных SentDB;
4. На основе анализа корпуса выделены и подробно описаны
особенности текстов данной сети и данной предметной области, которые
были учтены при предварительной обработке материала и разработке метода.
5. С учётом особенностей материала разработан оригинальный метод,
основанный на комбинации лингвистических методов и методов машинного
обучения. Данный метод предполагает обучение Наивного байесовского
классификатора на выборке небольшого объёма и дальнейший перерасчёт
вероятностей принадлежности текста к определённому классу с помощью
данных из тональных словарей;
6. Для реализации разрабатываемого метода была сформирована
обучающая выборка, в которую вошли 2000 размеченных экспертами твитов,
а также составлены словари тональной лексики: универсальный словарь
тональный лексики объёмом 3042 лексические единицы и предметно-
ориентированный словарь объёмом 386 лексических единиц, а также
тональный словарь эмоджи объёмом 360 единиц;
7. На языке C# создана и протестирована система автоматического
анализа тональности Sentimentor, показавшая достаточно высокую
эффективность: точность системы в целых числах составляет 86%, полнота
— 83%, а значение F-меры достигает 84%.
8. Для дальнейшего взаимодействия эксперта с системой и повышения
её эффективности разработан веб-интерфейс, доступный по адресу:
https://sent.xxoniii.com/. С его помощью эксперт может исправить результат
классификации системы, пополнить обучающую выборку, предложить
слово-кандидат для пополнения тональных словарей, подобрать
оптимальные параметры расчёта вероятностей, рассчитать метрики оценки
эффективности системы.
9. В ходе анализа результатов было определено последующее
направление исследований и выявлены задачи, решение которых поможет в
дальнейшем улучшить результат классификации. К ним относятся
пополнение обучающей выборки и тональных словарей с помощью
разработанного веб-интерфейса и создание модулей извлечения
именованных сущностей, выявления объекта оценки, распознавания сарказма
и иронии, а также выполнения мультимодального анализа.
Таким образом, цель исследования была достигнута, а его основные задачи решены.
В исследуемом материале длина твита редко превышает одно
предложение, а потому задача определения тональности твита может быть
приравнена к задаче определения тональности предложения. Из этого
следует, что предложенная методика может быть применена и к текстам из
других социальных сетей.
Также разработанная система может быть настроена на анализ
тональности текстов других предметных областей за счёт составления
дополнительных предметно-ориентированных словарей.
самых популярных задач прикладной лингвистики, что объясняется не
только научным, но и коммерческим интересом к исследованиям
общественного мнения и настроений на основе обработки и анализа
постоянно увеличивающегося потока Больших Данных.
В ходе данного исследования была разработана и реализована система
автоматического анализа тональности на материале сообщений о
политических партиях в социальных сетях, получившая название Sentimentor.
В процессе работы были поэтапно решены следующие задачи:
1. Изучена область автоматического анализа тональности: исследован
понятийно-терминологический аппарат данной области, а также задачи,
проблемы и существующие методы анализа тональности;
2. Создан корпус текстов, представляющий материал исследования и
состоящий из сообщений о политических партиях в социальной сети
Твиттер. Объём корпуса составил: 74 817 твитов или 1 031 321 словоупотреблений;
3. Для хранения корпуса текстов с помощью Microsoft SQL Server
создана база данных SentDB;
4. На основе анализа корпуса выделены и подробно описаны
особенности текстов данной сети и данной предметной области, которые
были учтены при предварительной обработке материала и разработке метода.
5. С учётом особенностей материала разработан оригинальный метод,
основанный на комбинации лингвистических методов и методов машинного
обучения. Данный метод предполагает обучение Наивного байесовского
классификатора на выборке небольшого объёма и дальнейший перерасчёт
вероятностей принадлежности текста к определённому классу с помощью
данных из тональных словарей;
6. Для реализации разрабатываемого метода была сформирована
обучающая выборка, в которую вошли 2000 размеченных экспертами твитов,
а также составлены словари тональной лексики: универсальный словарь
тональный лексики объёмом 3042 лексические единицы и предметно-
ориентированный словарь объёмом 386 лексических единиц, а также
тональный словарь эмоджи объёмом 360 единиц;
7. На языке C# создана и протестирована система автоматического
анализа тональности Sentimentor, показавшая достаточно высокую
эффективность: точность системы в целых числах составляет 86%, полнота
— 83%, а значение F-меры достигает 84%.
8. Для дальнейшего взаимодействия эксперта с системой и повышения
её эффективности разработан веб-интерфейс, доступный по адресу:
https://sent.xxoniii.com/. С его помощью эксперт может исправить результат
классификации системы, пополнить обучающую выборку, предложить
слово-кандидат для пополнения тональных словарей, подобрать
оптимальные параметры расчёта вероятностей, рассчитать метрики оценки
эффективности системы.
9. В ходе анализа результатов было определено последующее
направление исследований и выявлены задачи, решение которых поможет в
дальнейшем улучшить результат классификации. К ним относятся
пополнение обучающей выборки и тональных словарей с помощью
разработанного веб-интерфейса и создание модулей извлечения
именованных сущностей, выявления объекта оценки, распознавания сарказма
и иронии, а также выполнения мультимодального анализа.
Таким образом, цель исследования была достигнута, а его основные задачи решены.
В исследуемом материале длина твита редко превышает одно
предложение, а потому задача определения тональности твита может быть
приравнена к задаче определения тональности предложения. Из этого
следует, что предложенная методика может быть применена и к текстам из
других социальных сетей.
Также разработанная система может быть настроена на анализ
тональности текстов других предметных областей за счёт составления
дополнительных предметно-ориентированных словарей.





