Анализ тональности русскоязычных комментариев в социальных медиа
|
Аннотация 3
Введение 4
Постановка задачи 8
Обзор литературы 9
Обзор существующих решений 12
Глава 1. Формирование коллекции комментариев для обучающей выборки 14
Глава 2. Определение тональности методами машинного обучения 16
Глава 3. Программная реализация и анализ результатов 20
Выводы 25
Заключение 26
Список литературы 27
Приложение 1. Код Youtube Downloader 31
Приложение 2. Код comment-сutter'a 33
Введение 4
Постановка задачи 8
Обзор литературы 9
Обзор существующих решений 12
Глава 1. Формирование коллекции комментариев для обучающей выборки 14
Глава 2. Определение тональности методами машинного обучения 16
Глава 3. Программная реализация и анализ результатов 20
Выводы 25
Заключение 26
Список литературы 27
Приложение 1. Код Youtube Downloader 31
Приложение 2. Код comment-сutter'a 33
Сегодня в мире бурно развивается процесс формирования информационного общества. Этому способствует быстрое развитие технологий, появление новых каналов коммуникаций, формирование активной гражданской позиции, а также внедрение новых коммуникационных платформ. Интернет создает принципиально новую среду коммуникации, стирая территориальные границы и расширяя возможности общения. Современный исследователь медиапространства А. Калмаков дал следующее определение информационному обществу: «информационное общество - это глобальный экономико-политический, антропосоциальный и технологический проект, предполагающий управляемый переход к общественному устройству, при котором доминирующую роль во всех областях жизни будет играть система массовых коммуникаций (далее - СМК), реализованная с помощью компьютерных телекоммуникационных технологий, в частности, технологий интернета »[1].
За внедрением новых технологий в производство, хранение и распространение информации СМК, пришло время новых средств массовой информации (далее - СМИ). Телевидение, радио и печать - это уже вчерашние традиционные СМИ, а новыми медиа принято считать мобильные платформы, социальные медиа, интернет-версии традиционных медиа. На фоне большого роста аудитории новых СМИ, традиционные СМИ теряют своих зрителей, слушателей и читателей. Так, по данным TNS за июнь 2016 года, социальные медиа «Вконтакте», Youtube, «Одноклассники» обогнали федеральный Первый канал по охвату аудитории[2].
Информация, размещаемая сегодня в современных средствах массовой информации все больше модифицируется в товар. Для того чтобы продать информацию, современные интернет-медиа борются за внимание зрителя. На медиаконференциях профессионалы из индустрии говорят о том, что необходимо руководствоваться законами драматургии при создании мультимедийного контента в цифровой среде. Логика, верстка, расположение модулей, тип и размер картинки - все должно работать ради «якорей», чтобы читатель смог до конца прочесть материал и не переключиться. Как и в драматургии, размещаемый контент должен вызывать эмоциональный отклик у зрителя. А эмоции уже конвертируются в просмотры, лайки, комментарии и перепосты в социальных сетях, на количество которых обращают внимания рекламодатели - один из основных источников доходов современных медиа.
Отклик аудитории в виде огромного количества лайков, перепостов и комментариев используются крупными медиакомпаниями для исследования мнения аудитории. В то время, как показатели просмотров, лайков, дизлайков можно легко посчитать доступными инструментами, размещаемые в комментариях мнения читателей остаются неиследованными по причине неструктурированности текста. Анализ этой информации позволил бы медиакомпаниям повысить качество своего контента, выделить целевую аудиторию, определить настрой масс по отношению к контенту и компании в целом.
Автоматическое решение данной задачи в прошлом было невозможно. Сегодня же активное развитие компьютерной лингвистики позволяет извлекать информацию из текстов при помощи компьютерных технологий и математических моделей. Одним из напрапвлений данной дисциплины является задача определения эмоциональной окраски текста (анализ тональности текста, контент анализ, сентимент-анализ).
Анализ тональности текста - набор методов для определения эмоциональной окраски лексики текстов, эмоций автора по отношению к объекту и других свойств. Решение этой задачи компьютерной лингвистики позволит понимать текстовую информацию и упростит дальнейшее использование данных, полученных в результате ее систематизации и обработки.
Технология сентимент-анализа находит широкое применение у крупных компаний - владельцев брендов для анализа социальных медиа. Современные приложения сентимент-анализа дают возможность не только оценить тональность высказываний о бренде, но и получить целый ряд дополнительных инструментов, упрощающих управление социальной аудиторией, интересующейся брендом, установление контактов, обмен информацией, влияние на взращивание социального контента, поиск лидеров мнений социального сообщества, снабжение их информацией и привлечение к продвижению бренда.
Анализ тональности также применяется в области переводов текстов на другой язык, в котором первичная обработка текста повышает качество перевода. Методы анализа тональности могут применяться в разработке рекомендательной системы, которая будет советовать пользователю товары или услуги. Также стоит упомянуть, что технологии сентимент-анализа могут быть полезны политическим партиям, службам разведки. Применение таких технологий позволит им изучать мнения пользователей об определенном кандидате или событии.
Существуют несколько подходов для определения тональности текстов [3]:
• на основе правил;
• с помощью тональных словарей;
• машинное обучение с учителем;
• машинное обучение без учителя.
В первом подходе анализ текста проводится на основе заранее составленных набора правил. В рамках второго подхода каждому слову из текста присваивается тональность со значением тональности из тонального словаря (если оно присутствует в словаре). Общая тональность вычисляется как среднее арифметическое всех значений.
Третий подход обеспечивает высокую точность оценки текста. На основе обучающей выборки классификатор самостоятельно выделяет признаки, влияющие на тональность. Таким образом, проблема зависимости от предметной области решается с помощью использования обучающей выборки из той же области. В четвертом подходе не требуется обучающая выборка для классификатора, но точность алгоритма ниже чем у алгоритмов, основанных на обучении с учителем.
Таким образом, поскольку основанные на обучении с учителем подходы показывают более высокие результаты при анализе текстов из социальных медиа и сайтов с рецензиями, мнениями, в данной работе будет подробно описаны именно эти методы и используемые в них способы представления данных. Кроме того, в работе будут использоваться некоторые приемы для улучшений точности работы алгоритмов.
За внедрением новых технологий в производство, хранение и распространение информации СМК, пришло время новых средств массовой информации (далее - СМИ). Телевидение, радио и печать - это уже вчерашние традиционные СМИ, а новыми медиа принято считать мобильные платформы, социальные медиа, интернет-версии традиционных медиа. На фоне большого роста аудитории новых СМИ, традиционные СМИ теряют своих зрителей, слушателей и читателей. Так, по данным TNS за июнь 2016 года, социальные медиа «Вконтакте», Youtube, «Одноклассники» обогнали федеральный Первый канал по охвату аудитории[2].
Информация, размещаемая сегодня в современных средствах массовой информации все больше модифицируется в товар. Для того чтобы продать информацию, современные интернет-медиа борются за внимание зрителя. На медиаконференциях профессионалы из индустрии говорят о том, что необходимо руководствоваться законами драматургии при создании мультимедийного контента в цифровой среде. Логика, верстка, расположение модулей, тип и размер картинки - все должно работать ради «якорей», чтобы читатель смог до конца прочесть материал и не переключиться. Как и в драматургии, размещаемый контент должен вызывать эмоциональный отклик у зрителя. А эмоции уже конвертируются в просмотры, лайки, комментарии и перепосты в социальных сетях, на количество которых обращают внимания рекламодатели - один из основных источников доходов современных медиа.
Отклик аудитории в виде огромного количества лайков, перепостов и комментариев используются крупными медиакомпаниями для исследования мнения аудитории. В то время, как показатели просмотров, лайков, дизлайков можно легко посчитать доступными инструментами, размещаемые в комментариях мнения читателей остаются неиследованными по причине неструктурированности текста. Анализ этой информации позволил бы медиакомпаниям повысить качество своего контента, выделить целевую аудиторию, определить настрой масс по отношению к контенту и компании в целом.
Автоматическое решение данной задачи в прошлом было невозможно. Сегодня же активное развитие компьютерной лингвистики позволяет извлекать информацию из текстов при помощи компьютерных технологий и математических моделей. Одним из напрапвлений данной дисциплины является задача определения эмоциональной окраски текста (анализ тональности текста, контент анализ, сентимент-анализ).
Анализ тональности текста - набор методов для определения эмоциональной окраски лексики текстов, эмоций автора по отношению к объекту и других свойств. Решение этой задачи компьютерной лингвистики позволит понимать текстовую информацию и упростит дальнейшее использование данных, полученных в результате ее систематизации и обработки.
Технология сентимент-анализа находит широкое применение у крупных компаний - владельцев брендов для анализа социальных медиа. Современные приложения сентимент-анализа дают возможность не только оценить тональность высказываний о бренде, но и получить целый ряд дополнительных инструментов, упрощающих управление социальной аудиторией, интересующейся брендом, установление контактов, обмен информацией, влияние на взращивание социального контента, поиск лидеров мнений социального сообщества, снабжение их информацией и привлечение к продвижению бренда.
Анализ тональности также применяется в области переводов текстов на другой язык, в котором первичная обработка текста повышает качество перевода. Методы анализа тональности могут применяться в разработке рекомендательной системы, которая будет советовать пользователю товары или услуги. Также стоит упомянуть, что технологии сентимент-анализа могут быть полезны политическим партиям, службам разведки. Применение таких технологий позволит им изучать мнения пользователей об определенном кандидате или событии.
Существуют несколько подходов для определения тональности текстов [3]:
• на основе правил;
• с помощью тональных словарей;
• машинное обучение с учителем;
• машинное обучение без учителя.
В первом подходе анализ текста проводится на основе заранее составленных набора правил. В рамках второго подхода каждому слову из текста присваивается тональность со значением тональности из тонального словаря (если оно присутствует в словаре). Общая тональность вычисляется как среднее арифметическое всех значений.
Третий подход обеспечивает высокую точность оценки текста. На основе обучающей выборки классификатор самостоятельно выделяет признаки, влияющие на тональность. Таким образом, проблема зависимости от предметной области решается с помощью использования обучающей выборки из той же области. В четвертом подходе не требуется обучающая выборка для классификатора, но точность алгоритма ниже чем у алгоритмов, основанных на обучении с учителем.
Таким образом, поскольку основанные на обучении с учителем подходы показывают более высокие результаты при анализе текстов из социальных медиа и сайтов с рецензиями, мнениями, в данной работе будет подробно описаны именно эти методы и используемые в них способы представления данных. Кроме того, в работе будут использоваться некоторые приемы для улучшений точности работы алгоритмов.
Русскоязычные тексты отличаются от англоязычных сложной структурой. Реализованные методы машинного обучения при работе с англоязычными текстами показывают более хорошие результаты. Для получения более высоких результатов необходимы глубокие исследования.
Таким образом, можно выделить следующие направления для дальнейших исследований:
1) Дополнение алгоритма элементами лингвистического анализа;
2) Определение контекста обрабатываемого текста и сопоставление с темой видеозаписи, публикации;
3) Учет противительных союзов, лексем, хештегов.
4) Использование при сентимент-анализе эмодзи-смайлов, форм записей слов верхним регистром, как признаков выражения эмоциональности;
5) Распознавание спама и текстов, не относящихся к видеозаписи.
Таким образом, можно выделить следующие направления для дальнейших исследований:
1) Дополнение алгоритма элементами лингвистического анализа;
2) Определение контекста обрабатываемого текста и сопоставление с темой видеозаписи, публикации;
3) Учет противительных союзов, лексем, хештегов.
4) Использование при сентимент-анализе эмодзи-смайлов, форм записей слов верхним регистром, как признаков выражения эмоциональности;
5) Распознавание спама и текстов, не относящихся к видеозаписи.
Подобные работы
- ДИСКУРСИВНЫЕ АСПЕКТЫ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭМОЦИОНАЛЬНО-ОЦЕНОЧНЫХ ТОНАЛЬНОСТЕЙ В РУССКОЯЗЫЧНЫХ СМИ
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4855 р. Год сдачи: 2020 - РАЗРАБОТКА МОДУЛЯ РАНЖИРОВАНИЯ МЕСТ ПРОВЕДЕНИЯ ДОСУГА НА ОСНОВЕ ТОНАЛЬНОСТИ ОТЗЫВОВ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4325 р. Год сдачи: 2019 - Извлечение лингвистической информации из социальных медиа для предсказания трендов на рынке криптовалют
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4875 р. Год сдачи: 2022 - ПРИНЦИПЫ ФОРМИРОВАНИЯ ТОНАЛЬНОСТИ ТЕКСТА КОММЕНТАРИЕВ В АККАУНТЕ КОМПАНИИ В СОЦИАЛЬНЫХ СЕТЯХ
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4550 р. Год сдачи: 2022 - ТЕМА ЕДЫ БУДУЩЕГО В ЗЕРКАЛЕ АНАЛИТИКИ ДАННЫХ И ДИСКУРС- АНАЛИЗА МАССОВЫХ И СОЦИАЛЬНЫХ МЕДИА
Бакалаврская работа, журналистика. Язык работы: Русский. Цена: 4285 р. Год сдачи: 2022 - СПЕЦИФИКА РЕЧЕВОГО ПОВЕДЕНИЯ СПОРТИВНОГО КОММЕНТАТОРА В РОССИИ И АНГЛИИ:
СРАВНИТЕЛЬНЫЙ АСПЕКТ
Магистерская диссертация, журналистика. Язык работы: Русский. Цена: 5650 р. Год сдачи: 2017 - Механизмы вирулентности новостного контента в социальных сетях (на примере «RT», «РБК» и «Meduza»)
Дипломные работы, ВКР, журналистика. Язык работы: Русский. Цена: 4320 р. Год сдачи: 2016 - ДИСКУРСИВНЫЕ ПРАКТИКИ КОНСТРУИРОВАНИЯ ДОСТОВЕРНОСТИ ИНФОРМАЦИИ В НОВОСТНОМ МЕДИАДИСКУРСЕ (НА МАТЕРИАЛЕ РОССИЙСКИХ ИНТЕРНЕТ-СМИ)
Бакалаврская работа, филология. Язык работы: Русский. Цена: 4365 р. Год сдачи: 2023 - ЖАНРОВАЯ СПЕЦИФИКА ПРОЯВЛЕНИЯ КАТЕГОРИИ ЭМОТИВНОСТИ В ДИСКУРСЕ ЖЕНСКИХ ИНТЕРНЕТ-ФОРУМОВ НА ФРАНЦУЗСКОМ ЯЗЫКЕ
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4350 р. Год сдачи: 2022





