Тема: МЕТОДИКИ ИЗМЕРЕНИЯ ЗАВИСИМОСТИ ЭМОЦИОНАЛЬНО-ОЦЕНОЧНОЙ ТОНАЛЬНОСТИ ОТ ТЕМАТИКИ МЕДИАТЕКСТОВ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 3
ГЛАВА 1. ХАРАКТЕРИСТИКА СЕНТИМЕНТ-АНАЛИЗА И МЕТОДОВ ТОНАЛЬНОЙ
КЛАССИФИКАЦИИ 7
1.2 Классификация тональности 10
1.3 Уровни языка в контексте анализа тональности 11
1.4 Методы сентимент-анализа 12
1.5 Актуальные исследования в области сентимент-анализа 15
Выводы по главе 1 17
ГЛАВА 2. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТОНАЛЬНОСТИ НОВОСТНЫХ ТЕКСТОВ С
ИСПОЛЬЗОВАНИЕМ ТОНАЛЬНОГО СЛОВАРЯ 19
2.1. Формирование корпуса текстов 19
2.2 Характеристика словаря тональности 22
2.3 Статистический анализ корпуса текстов 23
2.3.1 Частота употребления самостоятельных частей речи 23
2.3.2 Выявление наиболее употребляемых слов по частям речи: NOUN, VERB, ADJ 26
2.4 Анализ тональности новостных текстов с применением тонального словаря русского языка
КартаСловСент 37
2.4.1 Предобработка новостных текстов 37
2.4.2 Разработка методик анализа тональности средствами Python и словаря КартаСловСент 38
2.4.3 Реализация анализа тональности средствами Python и словаря КартаСловСент 39
2.4.4 Характеристика и сравнение результатов 41
Выводы по главе 2 52
ЗАКЛЮЧЕНИЕ 54
ЛИТЕРАТУРА 57
ПРИЛОЖЕНИЕ А 61
ПРИЛОЖЕНИЕ Б 67
ПРИЛОЖЕНИЕ В 70
ПРИЛОЖЕНИЕ Г 92
📖 Введение
Анализ тональности (сентимент-анализ) является одним из важнейших методов формального анализа текстовой информации, относящихся к прикладной лингвистике. На современном этапе выполнение задач сентимент-анализа является преимущественно автоматическим, то есть для их реализации используются различные методы, подходы, инструменты компьютерных наук. Основной задачей сентимент-анализа является выявление эмоциональной окраски самого текста или отношения автора текста к описываемому явлению. Это может быть описание события, мнение о товаре, услуге, выражение собственного мнения в пересказывании новости и так далее.
В данной магистерской диссертации мы останавливаем свое внимание на анализе тональности новостных текстов. Анализ новостей предоставляет широкий спектр для исследовательских возможностей. В первую очередь, анализ тональности новостей позволяет проследить корреляцию между двумя на первый взгляд независимыми событиями. Например, влияние тональности новостных текстов по теме «экономика» на курс валют: предполагается, что внимание общества к той или иной валюте может снизить или повысить ее волатильность [42]. По состоянию на 2022 год, исследователи все чаще обращаются к насущной проблеме - коронавирусу, анализируя взаимное влияние освещения этой проблемы в новостях на, например, серьезность отношения к ней и наоборот. Каждое подобное исследование основывается на формулировании ряда гипотез, которые по результатам анализа принимаются или отклоняются.
Среди основных методов различаются классические методы с использованием словарей тональности и более современные методы, привлекающие машинное обучение, а также различные их комбинации.
В данной работе в качестве основного метода для анализа тональности новостей используется тональный словарь русского языка КартаСловСент. Каждому слову в предварительно обработанном и очищенном тексте присваивается соответствующее значение из словаря тональности. Результатом анализа является «score» - значение общей тональности текста. С применением данного словаря были разработаны и протестированы две методики вычисления тональности: априорное взвешивание тональности всех лексем, которое строится на выведении среднего арифметического суммы значений всех лексем текста и общего количества лексем в тексте; и апостериорное взвешивание исключительно оценочных лексем, которое выводит среднее арифметическое суммы только положительных или отрицательных лексем и: а) количества всех лексем в тексте; б) количества всех совпадений со словарем; в) количества совпадений со словарем только оценочных лексем. Результат их работы, во-первых, позволяет выявить значимые отличия в эмоциональной окраске новостей по разным категориям; во-вторых, проведенный сравнительный анализ полученных значений предоставляет возможность определить наиболее эффективную методику.
Актуальность данной работы заключается в повышенном интересе к изучению и выявлению эмоциональной окраски новостей, определению влияющих на нее факторов, а также множественностью методов и отсутствием общепризнанного наиболее эффективного способа обработки данных и реализации анализа.
Новизна определяется как апробирование и сравнение методик определения тональности с применением тонального словаря русского языка на уникальном политематическом датасете новостных текстов.
Объектом исследования стали методики определения эмоциональной окраски новостных текстов разных категорий по тернарной шкале (позитивная, негативная, нейтральная) на основе тонального словаря русского языка.
Предметом исследования является степень эффективности и результативности методик определения эмоциональности окраски с применением тонального словаря русского языка.
Целью работы является сравнительный анализ методик определения эмоциональной окраски новостных текстов по категориям: политика, спорт, культура, экономика, наука, в мире, армия, происшествия. Для достижения поставленной цели был определен ряд следующих задач:
1. Изучить отечественные и зарубежные источники, посвященные анализу тональности текстов, определить теоретическую зависимость тональности текста от его тематики; проанализировать современное состояние области сентимент-анализа: методы, материал исследования (жанры и виды текстов), актуальность сентимент-анализа и т.д.
2. Сравнить различные подходы к пониманию феномена эмоциональнооценочной тональности текста, выбрать наиболее подходящий для реализации сентимент-анализа метод.
3. Разработать краулер для скачивания медиатекстов.
4. Сформировать русскоязычный корпус новостных текстов по 8 категориям в размере 40 тысяч единиц.
5. Провести статистический анализ частей речи по каждой категории, выявить наиболее частотные существительные, прилагательные и глаголы.
6. Разработать две методики анализа тональности текстов: одну методику с учетом взвешивания тональной нагрузки каждой лексемы в тексте, вторую методику с учетом взвешивания тональной нагрузки исключительно оценочных лексем.
7. Апробировать разработанные методики, оценить степень эффективности и результативности, проанализировать полученные результаты в соответствии с поставленными гипотезами.
Материалом исследования послужил датасет новостных текстов, собранный с сайтов информационных агентств РИА и ТАСС. Датасет состоит из 40 тысяч текстов: 8 категорий по 5 тысяч текстов.
Методологическая основа включает в себя труды и исследования отечественных и зарубежных филологов, лингвистов, программистов, среди которых П.И. Браславский, Г.К. Гималетдинова, М.В. Клековкина, Е.В. Майорова, Ю.В. Рубцова, L. Bing, E. Cambria, L. Lee, B. Pang, D. Inkpen, S. Mohammad.
Методами исследования были выбраны: метод предварительной обработки текстовых данных, метод автоматической обработки естественного языка, метод обобщения и систематизации полученных данных.
Теоретическая значимость данной магистерской диссертации заключается в освещении проблемы сентимент-анализа новостных текстов и выявлении статистически значимых различий в их оценке, а также в реализации методов проведения сентимент- анализа с использованием тонального словаря.
Практическая значимость заключается в апробации разработанных методик, выявлении влияющих на тональность факторов, а также возможности использования полученных результатов и материалов данной работы в рамках более широких исследований, объяснения феномена сентимент-анализа, сравнения полученных результатов с результатами сентимент-анализа, проведенного на синтаксическом уровне и других.
Структура. Магистерская диссертация состоит из введения, двух глав, заключения, списка использованных источников и литературы и приложение. Главы завершаются выводами.
Во введении обосновывается актуальность, новизна, выделяются предмет и объект анализа, определяются цель и задачи исследования, даётся краткая характеристика материалов исследования, описываются методы исследования.
В первой главе раскрывается понятие сентимент-анализа, тональности текста, приводятся возможные классификации и методы осуществления анализа, характеризуется современное состояние в предметной области.
Во второй главе заключается практическая часть работы, разрабатываются и апробируются две методики сентимент-анализа новостных текстов ТАСС и РИА и проводится сопутствующий им частеречный статистический анализ, полученные результаты описываются в соответствии с теоретической основой; проводится сравнительный анализ результатов работы методик.
В заключении кратко резюмируются основные результаты проведенных анализов и намечаются возможные пути дальнейших исследований в этой области.
✅ Заключение
В ходе выполнения данной работы было определено, что сентимент-анализ - это формальный метод анализа текста, позволяющий оценить его эмоциональную окрашенность, а также что тональность текста - это эмоциональное отношение автора высказывания к некоторому объекту, что позволило определить круг выполняемых им задач и выделить наиболее популярные. Было дано широкое определение медиатексту как сообщению любого медийного вида и жанра.
Кроме того, был рассмотрен ряд существующих классификаций: бинарная, тернарная и возможные расширенные. Были определены возможные для проведения анализа уровни языка: лексический и синтаксический. Были описаны основные методы реализации сентимент-анализа, среди которых: метод с использованием словарей тональности, метод векторного представления слов, метод машинного обучения с учителем/без учителя и комбинированные методы, охарактеризовано современное состояние в предметной области.
Материалом для анализа послужили новостные тексты информационных агентств ТАСС и РИА в количестве 40 тысяч: 8 категорий новостей по 5 тысяч текстов каждая. Категориальное разнообразие: политика, в мире, армия, экономика, наука, культура, спорт, происшествия. Анализ осуществлялся на лексическом уровне с использованием тонального словаря русского языка КартаСловСент. Данный словарь содержит более 45 тысяч слов русского языка, каждому из которых присуждается значение в диапазоне от -1 до 1.
Первоначальная обработка корпуса текстов заключалась в частеречном статистическом анализе, который выявил, что наиболее частой частью речи в новостных текстах являются существительные. Некоторые категории (например, спорт) отличаются высокой концентрацией имен собственных. Далее для каждой категории были выявлены наиболее частые слова по трем частям речи: существительные, глаголы, прилагательные. Было выявлено, что по результатам такого анализа можно ясно проследить актуальность и обсуждаемость тех или иных событий (например, в категории «армия» среди 54
существительных встретился «Нагорный», что является частью составного топонима Нагорный Карабах, и отражает обсуждаемость новостей обострения Карабахского конфликта). Были сделаны предположения о результатах анализа для каждой из категорий.
В ходе проведения анализа была осуществлена предварительная обработка текстов: токенизация, лемматизация, удаление лишних знаков и стоп-слов. Были сформулированы 2 основные методики: априорного взвешивания тональности всех лексем текста и апостериорного взвешивания исключительно оценочных лексем. В первой общее значение тональности текста высчитывалось как среднее арифметическое суммы значений слов и общего объема текста. Во второй методике как среднее арифметическое суммы исключительно оценочной лексики и: а) общего объема текста, б) количества совпадений всех лексем текста со словарем, в) количества совпадений оценочных лексем текста со словарем.
Каждый вариант был протестирован, результаты проанализированы. Анализ показал, что наибольшее количество новостей со значением ниже 0 содержится в категории «происшествия», что соответствовало предположениям, основанным на специфичности наиболее характерной для данной категории новостей лексики. Другие категории с высоким показателем значений ниже 0 - армия, в мире. Категории с наибольшим количеством новостей с положительным значением (то есть значение выше 0) - культура, экономика, спорт, что также отвечает ожиданиям данного исследования, основанным на проведенном статистическом анализе. Предварительно сформулированные предположения о результатах по каждой категории подтвердились. Наиболее эффективными показали себя методика I и 2 вариант методики II, наименее эффективным стал 3 вариант методики II. Эффективность оценивалась на основе анализа текстов с максимальными и минимальными значениями, общего количества текстов со значениями больше, меньше и равными 0, сравнении результатов работы методик между собой, выявлении возможных общих результатов, а также на характеристике ложноположительных и ложноотрицательных значений, явно появившихся в ходе осуществления 3 варианта апостериорной методики.
Таким образом, данное исследование позволяет сделать вывод о важности изучения сентимент-анализа в целом, разработке методов и апробации моделей для возможности осуществления анализа с наибольшей точностью. Анализ мнений и тональности решает множество задач и полезен как сам по себе, так и в совокупности с другими решаемыми компьютерной лингвистикой задачами. Полученные в ходе данной 55
работы материалы могут быть использованы в дальнейших исследованиях анализа тональности на синтаксическом уровне с применением методов машинного обучения.
Поставленные в начале исследования задачи были выполнены, цель достигнута.





