Тема: Анализ тональности русскоязычных комментариев в социальных медиа
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 4
Постановка задачи 8
Обзор литературы 9
Обзор существующих решений 12
Глава 1. Формирование коллекции комментариев для обучающей выборки 14
Глава 2. Определение тональности методами машинного обучения 16
Глава 3. Программная реализация и анализ результатов 20
Выводы 25
Заключение 26
Список литературы 27
Приложение 1. Код Youtube Downloader 31
Приложение 2. Код comment-сutter'a 33
📖 Введение
За внедрением новых технологий в производство, хранение и распространение информации СМК, пришло время новых средств массовой информации (далее - СМИ). Телевидение, радио и печать - это уже вчерашние традиционные СМИ, а новыми медиа принято считать мобильные платформы, социальные медиа, интернет-версии традиционных медиа. На фоне большого роста аудитории новых СМИ, традиционные СМИ теряют своих зрителей, слушателей и читателей. Так, по данным TNS за июнь 2016 года, социальные медиа «Вконтакте», Youtube, «Одноклассники» обогнали федеральный Первый канал по охвату аудитории[2].
Информация, размещаемая сегодня в современных средствах массовой информации все больше модифицируется в товар. Для того чтобы продать информацию, современные интернет-медиа борются за внимание зрителя. На медиаконференциях профессионалы из индустрии говорят о том, что необходимо руководствоваться законами драматургии при создании мультимедийного контента в цифровой среде. Логика, верстка, расположение модулей, тип и размер картинки - все должно работать ради «якорей», чтобы читатель смог до конца прочесть материал и не переключиться. Как и в драматургии, размещаемый контент должен вызывать эмоциональный отклик у зрителя. А эмоции уже конвертируются в просмотры, лайки, комментарии и перепосты в социальных сетях, на количество которых обращают внимания рекламодатели - один из основных источников доходов современных медиа.
Отклик аудитории в виде огромного количества лайков, перепостов и комментариев используются крупными медиакомпаниями для исследования мнения аудитории. В то время, как показатели просмотров, лайков, дизлайков можно легко посчитать доступными инструментами, размещаемые в комментариях мнения читателей остаются неиследованными по причине неструктурированности текста. Анализ этой информации позволил бы медиакомпаниям повысить качество своего контента, выделить целевую аудиторию, определить настрой масс по отношению к контенту и компании в целом.
Автоматическое решение данной задачи в прошлом было невозможно. Сегодня же активное развитие компьютерной лингвистики позволяет извлекать информацию из текстов при помощи компьютерных технологий и математических моделей. Одним из напрапвлений данной дисциплины является задача определения эмоциональной окраски текста (анализ тональности текста, контент анализ, сентимент-анализ).
Анализ тональности текста - набор методов для определения эмоциональной окраски лексики текстов, эмоций автора по отношению к объекту и других свойств. Решение этой задачи компьютерной лингвистики позволит понимать текстовую информацию и упростит дальнейшее использование данных, полученных в результате ее систематизации и обработки.
Технология сентимент-анализа находит широкое применение у крупных компаний - владельцев брендов для анализа социальных медиа. Современные приложения сентимент-анализа дают возможность не только оценить тональность высказываний о бренде, но и получить целый ряд дополнительных инструментов, упрощающих управление социальной аудиторией, интересующейся брендом, установление контактов, обмен информацией, влияние на взращивание социального контента, поиск лидеров мнений социального сообщества, снабжение их информацией и привлечение к продвижению бренда.
Анализ тональности также применяется в области переводов текстов на другой язык, в котором первичная обработка текста повышает качество перевода. Методы анализа тональности могут применяться в разработке рекомендательной системы, которая будет советовать пользователю товары или услуги. Также стоит упомянуть, что технологии сентимент-анализа могут быть полезны политическим партиям, службам разведки. Применение таких технологий позволит им изучать мнения пользователей об определенном кандидате или событии.
Существуют несколько подходов для определения тональности текстов [3]:
• на основе правил;
• с помощью тональных словарей;
• машинное обучение с учителем;
• машинное обучение без учителя.
В первом подходе анализ текста проводится на основе заранее составленных набора правил. В рамках второго подхода каждому слову из текста присваивается тональность со значением тональности из тонального словаря (если оно присутствует в словаре). Общая тональность вычисляется как среднее арифметическое всех значений.
Третий подход обеспечивает высокую точность оценки текста. На основе обучающей выборки классификатор самостоятельно выделяет признаки, влияющие на тональность. Таким образом, проблема зависимости от предметной области решается с помощью использования обучающей выборки из той же области. В четвертом подходе не требуется обучающая выборка для классификатора, но точность алгоритма ниже чем у алгоритмов, основанных на обучении с учителем.
Таким образом, поскольку основанные на обучении с учителем подходы показывают более высокие результаты при анализе текстов из социальных медиа и сайтов с рецензиями, мнениями, в данной работе будет подробно описаны именно эти методы и используемые в них способы представления данных. Кроме того, в работе будут использоваться некоторые приемы для улучшений точности работы алгоритмов.
✅ Заключение
Таким образом, можно выделить следующие направления для дальнейших исследований:
1) Дополнение алгоритма элементами лингвистического анализа;
2) Определение контекста обрабатываемого текста и сопоставление с темой видеозаписи, публикации;
3) Учет противительных союзов, лексем, хештегов.
4) Использование при сентимент-анализе эмодзи-смайлов, форм записей слов верхним регистром, как признаков выражения эмоциональности;
5) Распознавание спама и текстов, не относящихся к видеозаписи.





