Аннотация 3
Введение 4
Постановка задачи 8
Обзор литературы 9
Обзор существующих решений 12
Глава 1. Формирование коллекции комментариев для обучающей выборки 14
Глава 2. Определение тональности методами машинного обучения 16
Глава 3. Программная реализация и анализ результатов 20
Выводы 25
Заключение 26
Список литературы 27
Приложение 1. Код Youtube Downloader 31
Приложение 2. Код comment-сutter'a 33
Сегодня в мире бурно развивается процесс формирования информационного общества. Этому способствует быстрое развитие технологий, появление новых каналов коммуникаций, формирование активной гражданской позиции, а также внедрение новых коммуникационных платформ. Интернет создает принципиально новую среду коммуникации, стирая территориальные границы и расширяя возможности общения. Современный исследователь медиапространства А. Калмаков дал следующее определение информационному обществу: «информационное общество - это глобальный экономико-политический, антропосоциальный и технологический проект, предполагающий управляемый переход к общественному устройству, при котором доминирующую роль во всех областях жизни будет играть система массовых коммуникаций (далее - СМК), реализованная с помощью компьютерных телекоммуникационных технологий, в частности, технологий интернета »[1].
За внедрением новых технологий в производство, хранение и распространение информации СМК, пришло время новых средств массовой информации (далее - СМИ). Телевидение, радио и печать - это уже вчерашние традиционные СМИ, а новыми медиа принято считать мобильные платформы, социальные медиа, интернет-версии традиционных медиа. На фоне большого роста аудитории новых СМИ, традиционные СМИ теряют своих зрителей, слушателей и читателей. Так, по данным TNS за июнь 2016 года, социальные медиа «Вконтакте», Youtube, «Одноклассники» обогнали федеральный Первый канал по охвату аудитории[2].
Информация, размещаемая сегодня в современных средствах массовой информации все больше модифицируется в товар. Для того чтобы продать информацию, современные интернет-медиа борются за внимание зрителя. На медиаконференциях профессионалы из индустрии говорят о том, что необходимо руководствоваться законами драматургии при создании мультимедийного контента в цифровой среде. Логика, верстка, расположение модулей, тип и размер картинки - все должно работать ради «якорей», чтобы читатель смог до конца прочесть материал и не переключиться. Как и в драматургии, размещаемый контент должен вызывать эмоциональный отклик у зрителя. А эмоции уже конвертируются в просмотры, лайки, комментарии и перепосты в социальных сетях, на количество которых обращают внимания рекламодатели - один из основных источников доходов современных медиа.
Отклик аудитории в виде огромного количества лайков, перепостов и комментариев используются крупными медиакомпаниями для исследования мнения аудитории. В то время, как показатели просмотров, лайков, дизлайков можно легко посчитать доступными инструментами, размещаемые в комментариях мнения читателей остаются неиследованными по причине неструктурированности текста. Анализ этой информации позволил бы медиакомпаниям повысить качество своего контента, выделить целевую аудиторию, определить настрой масс по отношению к контенту и компании в целом.
Автоматическое решение данной задачи в прошлом было невозможно. Сегодня же активное развитие компьютерной лингвистики позволяет извлекать информацию из текстов при помощи компьютерных технологий и математических моделей. Одним из напрапвлений данной дисциплины является задача определения эмоциональной окраски текста (анализ тональности текста, контент анализ, сентимент-анализ).
Анализ тональности текста - набор методов для определения эмоциональной окраски лексики текстов, эмоций автора по отношению к объекту и других свойств. Решение этой задачи компьютерной лингвистики позволит понимать текстовую информацию и упростит дальнейшее использование данных, полученных в результате ее систематизации и обработки.
Технология сентимент-анализа находит широкое применение у крупных компаний - владельцев брендов для анализа социальных медиа. Современные приложения сентимент-анализа дают возможность не только оценить тональность высказываний о бренде, но и получить целый ряд дополнительных инструментов, упрощающих управление социальной аудиторией, интересующейся брендом, установление контактов, обмен информацией, влияние на взращивание социального контента, поиск лидеров мнений социального сообщества, снабжение их информацией и привлечение к продвижению бренда.
Анализ тональности также применяется в области переводов текстов на другой язык, в котором первичная обработка текста повышает качество перевода. Методы анализа тональности могут применяться в разработке рекомендательной системы, которая будет советовать пользователю товары или услуги. Также стоит упомянуть, что технологии сентимент-анализа могут быть полезны политическим партиям, службам разведки. Применение таких технологий позволит им изучать мнения пользователей об определенном кандидате или событии.
Существуют несколько подходов для определения тональности текстов [3]:
• на основе правил;
• с помощью тональных словарей;
• машинное обучение с учителем;
• машинное обучение без учителя.
В первом подходе анализ текста проводится на основе заранее составленных набора правил. В рамках второго подхода каждому слову из текста присваивается тональность со значением тональности из тонального словаря (если оно присутствует в словаре). Общая тональность вычисляется как среднее арифметическое всех значений.
Третий подход обеспечивает высокую точность оценки текста. На основе обучающей выборки классификатор самостоятельно выделяет признаки, влияющие на тональность. Таким образом, проблема зависимости от предметной области решается с помощью использования обучающей выборки из той же области. В четвертом подходе не требуется обучающая выборка для классификатора, но точность алгоритма ниже чем у алгоритмов, основанных на обучении с учителем.
Таким образом, поскольку основанные на обучении с учителем подходы показывают более высокие результаты при анализе текстов из социальных медиа и сайтов с рецензиями, мнениями, в данной работе будет подробно описаны именно эти методы и используемые в них способы представления данных. Кроме того, в работе будут использоваться некоторые приемы для улучшений точности работы алгоритмов.
Русскоязычные тексты отличаются от англоязычных сложной структурой. Реализованные методы машинного обучения при работе с англоязычными текстами показывают более хорошие результаты. Для получения более высоких результатов необходимы глубокие исследования.
Таким образом, можно выделить следующие направления для дальнейших исследований:
1) Дополнение алгоритма элементами лингвистического анализа;
2) Определение контекста обрабатываемого текста и сопоставление с темой видеозаписи, публикации;
3) Учет противительных союзов, лексем, хештегов.
4) Использование при сентимент-анализе эмодзи-смайлов, форм записей слов верхним регистром, как признаков выражения эмоциональности;
5) Распознавание спама и текстов, не относящихся к видеозаписи.
1. Калмыков А. А. Информационное общество // Экономико-математический энциклопедический словарь / под ред. В. И. Данилов- Данильян. М.: ИНФРА-М, 2003. C. 180-182.
2. Отчет TNS интернет аудитории// TNS Россия - Июнь, 2016. http://mediascope.net/services/media/media-audience/internet/information/ - Дата обращения: 24.05.2017
3. Обучаем компьютер чувствам (sentiment analysis по-русски) — http://habrahabr.ru/post/149605/ - Дата обращения: 24.05.2017
4. Nasukawa T., Yi J. Sentiment analysis: Capturing favorability using natural language processing // Proc. of the 2nd Int. Conf. on Knowledge capture (K- CAP), 2003. P. 7077.
5. Dave K., Lawrence St., Pennock D. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews // Proc. of the Int. Conf. on World Wide Web (WWW), 2003. P. 519528.
6. Котельников Е.В., Клековкина М.В. Автоматический анализ тональности текстов на основе методов машинного обучения. РОМИП 2011.
7. Tang, X. Yang, C., Wong, Y., Wei C. Understanding Online Consumer Review Opinions with Sentiment Analysis using Machine Learning // Pacific Asia Journal of the Association for Information Systems. - 2010. - № 3(2). - С. 73-89.
8. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Международная конференция по компьютерной лингвистике Диалог, 2011. С. 510 - 522.
9. Усталов Д. Извлечение терминов из русскоязычных текстов при помощи графовых моделей // Теория графов и приложений, 2012. С. 62-69.
10. Котельников Е.В., Клековкина М.В. Определение весов оценочных слов на основе генетического алгоритма в задаче анализа тональности текстов // Программные продукты и системы, 2013. Вып. 4. С. 296-301.
11. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Труды XIV Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) / Переславль-Залесский: изд-во «Университет города Переславль», 2012. С. 118-123.
12. Худякова М.В., Давыдов С., Васильев В.Г. Классификация отзывов пользователей с использованием фрагментных правил. РОМИП 2011.
13. ИСП РАН [Электронный ресурс]: TEXTERRA. Технология автоматического построения онтологий и семантического анализа текста. http://www.ispras.ru/technologies/texterra/ - Дата обращения: 24.05.2017
14. NL Pub[Электронный ресурс]: Eureka Engine. Режим доступа: https://nlpub.ru/Eureka Engine - Дата обращения: 24.05.2017
15. SentiStrength [Электронный ресурс]: SentiStrength - sentiment strength detection in short texts. - Режим доступа: http://sentistrength.wlv.ac.uk/#About - Дата обращения: 24.05.2017
...