Введение ............................................................................................................. 3
Глава 1. Обзор предметной области ............................................................. 6
1.1 Применение анализа тональности ...............................................................................................6
1.2 Основные понятия ..........................................................................................................................7
1.3 Задачи анализа тональности ...................................................................................................... 11
1.4 Проблемы автоматического определения тональности ....................................................... 14
1.5 Выводы к главе 1.......................................................................................................................... 16
Глава 2. Методы автоматического определения тональности ............. 17
2.1 Основные подходы ....................................................................................................................... 17
2.2 Методы, основанные на обучении с учителем ........................................................................ 19
2.3 Выводы к главе 2.......................................................................................................................... 25
Глава 3. SentiStrength как инструмент для анализа тональности ....... 27
3.1. Предпосылки создания SentiStrength ...................................................................................... 27
3.2. Методы SentiStrength в системе других подходов к анализу тональности ...................... 30
3.3. Источник данных для создания SentiStrength ....................................................................... 33
3.4. Описание алгоритма SentiStrength .......................................................................................... 36
3.5 Выводы к главе 3.......................................................................................................................... 39
Глава 4. Настройка системы SentiStrength на украинский язык ........ 40
4.1. Обзор предыдущих работ по анализу тональности текстов на украинском языке ....... 40
4.2. Файлы исходных данных системы SentiStrength .................................................................. 41
4.3. Создание словарей для украинского языка ........................................................................... 43
4.4. Создание золотого стандарта и обучение программы.......................................................... 44
4.5 Выводы к главе 4.......................................................................................................................... 52
Заключение ...................................................................................................... 54
Список литературы ....................................................................................... 56
Приложение 1. Исходные данные программы SentiStrength для
украинского языка......................................................................................... 63
Приложение 2. Примеры оцененных программой SentiStrength твитов 72
Анализ тональности текста (сентимент-анализ, англ. Sentiment analysis) —
класс методов анализа текста в компьютерной лингвистике, предназначенный для
автоматизированного выявления в текстах эмоционально окрашенной лексики и
эмоциональной оценки авторов относительно объектов в тексте [58].
Мнение окружающих на протяжении многих веков влияло на различные
сферы деятельности человека. Однако с распространением интернета это влияние
значительно укрепилось. Раньше людям предоставлялась возможность узнать
мнение лишь у ограниченного числа собеседников. Теперь же с появлением
интернет-магазинов, блогов, социальных сетей, специализированных ресурсов
(«Яндекс.Маркет», «Epinions.com», «Кинопоиск») пользователи могут обращаться
за мнением к большой аудитории.
Крупные компании и организации также активно используют подобные
ресурсы для исследования конкурентной среды, наблюдения за состоянием рынка
с целью его оценки.
Социальные сети предоставляют исследователям широкое поле для
проведения детального анализа мнений пользователей. К примеру, американский
проект Pulse of the Nation [61] был создан для того, чтобы в течение дня
отслеживать настроение граждан, пользующихся соцсетью Twitter.
«Твиттер» (Twitter) — одна из самых популярных социальных сетей для
публичного обмена сообщениями. По состоянию на февраль 2016 года сервис
насчитывает около 305 млн активных пользователей. Сообщения настроены на 140
символов для совместимости с SMS-сообщениями.
Целью данной работы является выявление и анализ проблем, связанных с
разработкой системы оценки тональности текстов на украинском языке на примере
системы SentiStrength. Программа SentiStrength, созданная как часть проекта
CyberEmotions, автоматически производит анализ тональности коротких текстов.
Она основана на использовании словаря эмоциональной лексики и
корректирующих правил.
Для достижения поставленной цели перед нами были поставлены следующие
теоретические и практические задачи:
1) изучить применение, задачи и проблемы анализа тональности, а также
основные понятия, связанные с ним;
2) рассмотреть основные подходы для решения задач сентимент-анализа;
3) описать основные принципы работы инструмента SentiStrength для анализа тональности;
4) провести настройку программы SentiStrength на украинский язык;
5) оценить эффективность работы программы для украинских текстов.
В работе мы использовали методы машинного обучения и анализа
тональности с использованием словарей эмоциональной и оценочной лексики
также. Словарь эмоциональных слов украинского языка создавался с помощью
экспертов и автоматически. Материалом исследования стала случайная выборка
коротких текстов на украинском языке из социальной сети твиттер объёмом 1200 сообщений.
Данная работа имеет большую практическую значимость, так как
результаты настройки программы SentiStrength могут быть использованы
разработчиками инструмента, что позволит исследователям аудитории носителей
украинского языка, а также различным компаниям и организациям использовать
данный продукт для анализа текстов на украинском языке.
Новизна работы определяется тем, что в мире пока не существует
доступных систем автоматической оценки тональности текстов на украинском языке.
Работа состоит из введения, четырёх глав, заключения, списка литературы и
двух приложений. В первой главе даётся подробный обзор предметной области. Во
второй главе рассматриваются различные методы определения тональности
текстов. В третьей главе подробно описывается работа программы SentiStrength, а
также приводятся предпосылки её создания. В четвертой главе работы описывается
процесс настройки программы на украинский язык и оценена эффективность системы.
Анализ тональности сообщений — это быстро развивающаяся область
компьютерной лингвистики, открывающая большие возможности для различных
лингвистических, социологических, психологических исследований и перспективы
в коммерческом применении.
Программа SentiStrength является эффективным инструментом для оценки
силы тональности коротких сообщений, написанных на неформальном языке.
Главной причиной достаточно успешной работы алгоритма является возможность
распознавания слов с ненормативной орфографией.
Результаты данной работы показали, что анализ сообщений из социальной
сети твиттер является довольно непростой задачей в силу изобретательности
пользователей в языковых выражениях, передачи тональности без использования
эмотивной лексики и различных взглядов на тональность экспертов, кодирующих
данные. Последнее означает, что, по-видимому, не существует истинно верной
классификации для многих сообщений.
В рамках данной работы были достигнуты следующие результаты:
1) была изучена предметная область анализа тональности текста, было
разобрано применение анализа, его задачи и основные методы;
2) был детально описан процесс работы систем программы SentiStrength;
3) был проведен процесс настройки данной системы на украинский язык,
улучшение работы алгоритма было достигнуто с применением методов
машинного обучения;
4) была проведена оценка результатов работы созданной системы.
При последней оценке работы программы были получены следующие
значения точности: 73% и 70% для положительных и отрицательных сообщений
соответственно при однозначном совпадении и 82% и 78% для совпадений с
разницей в единицу.
Результаты работы были представлены на студенческой конференции
филологического факультета СПбГУ в апреле 2017 года.
Полученные данные будут добавлены в систему SentiStrength университета
Уольверхэмптон в Великобритании со ссылкой на кафедру математической
лингвистики СПбГУ.
1. Клековкина М.В., Котельников Е.В. Метод автоматической классификации
текстов по тональности, основанный на словаре эмоциональной лексики (рус.).
RCDL-2012, Переславль-Залесский, Россия: конференция, 2012.
2. Котельников Е.В., Клековкина М.В. Автоматический анализ тональности
текстов на основе методов машинного обучения.
3. Пазельская А., Соловьев А. Метод определения эмоций в текстах на русском
языке. The international conference on computational linguistics and intellectual
technologies “Dialogue 2011”: конференция. Москва, 2011. с. 510-522. Что такое тональность.
4. Паничева П. Система сентиментного анализа ATEX, основанная на правилах,
при обработке текстов различных тематик. Sentiment Analysis Track at ROMIP, 2012.
5. Поляков П.Ю., Калинина М.В., Плешко В.В. Исследование применимости
методов тематической классификации в задаче классификации отзывов о
книгах. ООО «ЭР СИ О», Москва, Россия.
6. Романишин М., Романюк А. Тональний словник української мови на основі
сентимент-анотованого корпусу. Українське мовознавство, 2013. Вип. 43, c. 63-74.
7. Asur Sitaram and Bernardo A. Huberman. Predicting the future with social media.
Arxiv preprint arXiv: 1003.5699, 2010.
8. Babbar Rohit, Partalas Ioannis, Gaussier Eric, Amini Massih-Reza. On Flat versus
Hierarchical Classification in Large-Scale Taxonomies.
9. Baccianella, S., Esuli, A., & Sebastiani, F. (2010). SentiWordNet 3.0: An enhanced
lexical resource for sentiment analysis and opinion mining. Proceedings of the Seventh
conference on International Language Resources and Evaluation, pp. 2200-2204.
10. Balahur, A., Steinberger, R., Kabadjov, M., Zavarella, V., Goot, E. v. d., Halkia, M.,
Pouliquen, B., & Belyaeva, J. (2010). Sentiment analysis in the news. In Proceedings
of the international conference on language, resources and evaluation, pp. 2216-2220.
Valletta, Malta.
11. boyd, d. (2008). Taken out of context: American teen sociality in networked publics.
University of California, Berkeley, Berkeley.
12. boyd, d. (2008). Why youth (heart) social network sites: The role of networked publics
in teenage social life. In D. Buckingham (Ed.), Youth, identity, and digital media, pp.
119-142. Cambridge, MA: MIT Press.
13. Bradley, M. M., & Lang, P. J. (1999). Affective Norms for English Words (ANEW):
Stimuli, instruction manual, and affective ratings (Tech. Report C-1). Gainesville:
University of Florida, Center for Research in Psychophysiology.
14. Brill, E. (1992). A simple rule-based part of speech tagger. Proceedings of the Third
Conference on Applied Natural Language Processing, pp. 152-155.
15. Cha, M., Haddadi, H., Benevenuto, F., and Gummadi, K.P. Measuring User Influence
in Twitter: The Million Follower Fallacy. Proceedings of the 4th International AAAI
Conference on Weblogs and Social Media (ICWSM), Washington, May 2010.
...