📄Работа №192209

Тема: МЕТОДИКИ ИЗМЕРЕНИЯ ЗАВИСИМОСТИ ЭМОЦИОНАЛЬНО-ОЦЕНОЧНОЙ ТОНАЛЬНОСТИ ОТ ТЕМАТИКИ МЕДИАТЕКСТОВ

Характеристики работы

Тип работы Магистерская диссертация
Лингвистика
Предмет Лингвистика
📄
Объем: 94 листов
📅
Год: 2022
👁️
Просмотров: 57
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

АННОТАЦИЯ 3
ВВЕДЕНИЕ 3
ГЛАВА 1. ХАРАКТЕРИСТИКА СЕНТИМЕНТ-АНАЛИЗА И МЕТОДОВ ТОНАЛЬНОЙ
КЛАССИФИКАЦИИ 7
1.2 Классификация тональности 10
1.3 Уровни языка в контексте анализа тональности 11
1.4 Методы сентимент-анализа 12
1.5 Актуальные исследования в области сентимент-анализа 15
Выводы по главе 1 17
ГЛАВА 2. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТОНАЛЬНОСТИ НОВОСТНЫХ ТЕКСТОВ С
ИСПОЛЬЗОВАНИЕМ ТОНАЛЬНОГО СЛОВАРЯ 19
2.1. Формирование корпуса текстов 19
2.2 Характеристика словаря тональности 22
2.3 Статистический анализ корпуса текстов 23
2.3.1 Частота употребления самостоятельных частей речи 23
2.3.2 Выявление наиболее употребляемых слов по частям речи: NOUN, VERB, ADJ 26
2.4 Анализ тональности новостных текстов с применением тонального словаря русского языка
КартаСловСент 37
2.4.1 Предобработка новостных текстов 37
2.4.2 Разработка методик анализа тональности средствами Python и словаря КартаСловСент 38
2.4.3 Реализация анализа тональности средствами Python и словаря КартаСловСент 39
2.4.4 Характеристика и сравнение результатов 41
Выводы по главе 2 52
ЗАКЛЮЧЕНИЕ 54
ЛИТЕРАТУРА 57
ПРИЛОЖЕНИЕ А 61
ПРИЛОЖЕНИЕ Б 67
ПРИЛОЖЕНИЕ В 70
ПРИЛОЖЕНИЕ Г 92

📖 Введение

Каждый день в мире происходят тысячи событий, информация о которых разлетается в мгновение ока. Люди делятся друг с другом новостями, подчеркивают важность или, наоборот, несущественность той или иной информации. Новости отличаются между собой, какие-то чаще приносят хорошие вести и положительные эмоции, какие-то наоборот. В конце 1990-х начале 2000-х широкое распространение Интернета среди простых пользователей привело к возникновению специальных сайтов информационных агентств для публикаций новостей. Сегодня в сети Интернет возможно найти информацию по любому вопросу, сводки о любой, даже на первый взгляд незначительной, новости. Выражение собственных взглядов или общего мнения сквозь публикацию отзывов и новостей привело к возникновению принципиально новой области исследований в компьютерной лингвистике - анализу тональности текста.
Анализ тональности (сентимент-анализ) является одним из важнейших методов формального анализа текстовой информации, относящихся к прикладной лингвистике. На современном этапе выполнение задач сентимент-анализа является преимущественно автоматическим, то есть для их реализации используются различные методы, подходы, инструменты компьютерных наук. Основной задачей сентимент-анализа является выявление эмоциональной окраски самого текста или отношения автора текста к описываемому явлению. Это может быть описание события, мнение о товаре, услуге, выражение собственного мнения в пересказывании новости и так далее.
В данной магистерской диссертации мы останавливаем свое внимание на анализе тональности новостных текстов. Анализ новостей предоставляет широкий спектр для исследовательских возможностей. В первую очередь, анализ тональности новостей позволяет проследить корреляцию между двумя на первый взгляд независимыми событиями. Например, влияние тональности новостных текстов по теме «экономика» на курс валют: предполагается, что внимание общества к той или иной валюте может снизить или повысить ее волатильность [42]. По состоянию на 2022 год, исследователи все чаще обращаются к насущной проблеме - коронавирусу, анализируя взаимное влияние освещения этой проблемы в новостях на, например, серьезность отношения к ней и наоборот. Каждое подобное исследование основывается на формулировании ряда гипотез, которые по результатам анализа принимаются или отклоняются.
Среди основных методов различаются классические методы с использованием словарей тональности и более современные методы, привлекающие машинное обучение, а также различные их комбинации.
В данной работе в качестве основного метода для анализа тональности новостей используется тональный словарь русского языка КартаСловСент. Каждому слову в предварительно обработанном и очищенном тексте присваивается соответствующее значение из словаря тональности. Результатом анализа является «score» - значение общей тональности текста. С применением данного словаря были разработаны и протестированы две методики вычисления тональности: априорное взвешивание тональности всех лексем, которое строится на выведении среднего арифметического суммы значений всех лексем текста и общего количества лексем в тексте; и апостериорное взвешивание исключительно оценочных лексем, которое выводит среднее арифметическое суммы только положительных или отрицательных лексем и: а) количества всех лексем в тексте; б) количества всех совпадений со словарем; в) количества совпадений со словарем только оценочных лексем. Результат их работы, во-первых, позволяет выявить значимые отличия в эмоциональной окраске новостей по разным категориям; во-вторых, проведенный сравнительный анализ полученных значений предоставляет возможность определить наиболее эффективную методику.
Актуальность данной работы заключается в повышенном интересе к изучению и выявлению эмоциональной окраски новостей, определению влияющих на нее факторов, а также множественностью методов и отсутствием общепризнанного наиболее эффективного способа обработки данных и реализации анализа.
Новизна определяется как апробирование и сравнение методик определения тональности с применением тонального словаря русского языка на уникальном политематическом датасете новостных текстов.
Объектом исследования стали методики определения эмоциональной окраски новостных текстов разных категорий по тернарной шкале (позитивная, негативная, нейтральная) на основе тонального словаря русского языка.
Предметом исследования является степень эффективности и результативности методик определения эмоциональности окраски с применением тонального словаря русского языка.
Целью работы является сравнительный анализ методик определения эмоциональной окраски новостных текстов по категориям: политика, спорт, культура, экономика, наука, в мире, армия, происшествия. Для достижения поставленной цели был определен ряд следующих задач:
1. Изучить отечественные и зарубежные источники, посвященные анализу тональности текстов, определить теоретическую зависимость тональности текста от его тематики; проанализировать современное состояние области сентимент-анализа: методы, материал исследования (жанры и виды текстов), актуальность сентимент-анализа и т.д.
2. Сравнить различные подходы к пониманию феномена эмоциональнооценочной тональности текста, выбрать наиболее подходящий для реализации сентимент-анализа метод.
3. Разработать краулер для скачивания медиатекстов.
4. Сформировать русскоязычный корпус новостных текстов по 8 категориям в размере 40 тысяч единиц.
5. Провести статистический анализ частей речи по каждой категории, выявить наиболее частотные существительные, прилагательные и глаголы.
6. Разработать две методики анализа тональности текстов: одну методику с учетом взвешивания тональной нагрузки каждой лексемы в тексте, вторую методику с учетом взвешивания тональной нагрузки исключительно оценочных лексем.
7. Апробировать разработанные методики, оценить степень эффективности и результативности, проанализировать полученные результаты в соответствии с поставленными гипотезами.
Материалом исследования послужил датасет новостных текстов, собранный с сайтов информационных агентств РИА и ТАСС. Датасет состоит из 40 тысяч текстов: 8 категорий по 5 тысяч текстов.
Методологическая основа включает в себя труды и исследования отечественных и зарубежных филологов, лингвистов, программистов, среди которых П.И. Браславский, Г.К. Гималетдинова, М.В. Клековкина, Е.В. Майорова, Ю.В. Рубцова, L. Bing, E. Cambria, L. Lee, B. Pang, D. Inkpen, S. Mohammad.
Методами исследования были выбраны: метод предварительной обработки текстовых данных, метод автоматической обработки естественного языка, метод обобщения и систематизации полученных данных.
Теоретическая значимость данной магистерской диссертации заключается в освещении проблемы сентимент-анализа новостных текстов и выявлении статистически значимых различий в их оценке, а также в реализации методов проведения сентимент- анализа с использованием тонального словаря.
Практическая значимость заключается в апробации разработанных методик, выявлении влияющих на тональность факторов, а также возможности использования полученных результатов и материалов данной работы в рамках более широких исследований, объяснения феномена сентимент-анализа, сравнения полученных результатов с результатами сентимент-анализа, проведенного на синтаксическом уровне и других.
Структура. Магистерская диссертация состоит из введения, двух глав, заключения, списка использованных источников и литературы и приложение. Главы завершаются выводами.
Во введении обосновывается актуальность, новизна, выделяются предмет и объект анализа, определяются цель и задачи исследования, даётся краткая характеристика материалов исследования, описываются методы исследования.
В первой главе раскрывается понятие сентимент-анализа, тональности текста, приводятся возможные классификации и методы осуществления анализа, характеризуется современное состояние в предметной области.
Во второй главе заключается практическая часть работы, разрабатываются и апробируются две методики сентимент-анализа новостных текстов ТАСС и РИА и проводится сопутствующий им частеречный статистический анализ, полученные результаты описываются в соответствии с теоретической основой; проводится сравнительный анализ результатов работы методик.
В заключении кратко резюмируются основные результаты проведенных анализов и намечаются возможные пути дальнейших исследований в этой области.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В настоящее время сентимент-анализ является одной из важнейших задач компьютерной лингвистики. Сентимент-анализ выявляет оценочные суждения не только из текстов, содержащих мнения о том или ином объекте или явлении, но также оценивает фактическую наполненность текста. Именно поэтому в качестве материала для сентимент- анализа все больше распространяются медиатексты.
В ходе выполнения данной работы было определено, что сентимент-анализ - это формальный метод анализа текста, позволяющий оценить его эмоциональную окрашенность, а также что тональность текста - это эмоциональное отношение автора высказывания к некоторому объекту, что позволило определить круг выполняемых им задач и выделить наиболее популярные. Было дано широкое определение медиатексту как сообщению любого медийного вида и жанра.
Кроме того, был рассмотрен ряд существующих классификаций: бинарная, тернарная и возможные расширенные. Были определены возможные для проведения анализа уровни языка: лексический и синтаксический. Были описаны основные методы реализации сентимент-анализа, среди которых: метод с использованием словарей тональности, метод векторного представления слов, метод машинного обучения с учителем/без учителя и комбинированные методы, охарактеризовано современное состояние в предметной области.
Материалом для анализа послужили новостные тексты информационных агентств ТАСС и РИА в количестве 40 тысяч: 8 категорий новостей по 5 тысяч текстов каждая. Категориальное разнообразие: политика, в мире, армия, экономика, наука, культура, спорт, происшествия. Анализ осуществлялся на лексическом уровне с использованием тонального словаря русского языка КартаСловСент. Данный словарь содержит более 45 тысяч слов русского языка, каждому из которых присуждается значение в диапазоне от -1 до 1.
Первоначальная обработка корпуса текстов заключалась в частеречном статистическом анализе, который выявил, что наиболее частой частью речи в новостных текстах являются существительные. Некоторые категории (например, спорт) отличаются высокой концентрацией имен собственных. Далее для каждой категории были выявлены наиболее частые слова по трем частям речи: существительные, глаголы, прилагательные. Было выявлено, что по результатам такого анализа можно ясно проследить актуальность и обсуждаемость тех или иных событий (например, в категории «армия» среди 54
существительных встретился «Нагорный», что является частью составного топонима Нагорный Карабах, и отражает обсуждаемость новостей обострения Карабахского конфликта). Были сделаны предположения о результатах анализа для каждой из категорий.
В ходе проведения анализа была осуществлена предварительная обработка текстов: токенизация, лемматизация, удаление лишних знаков и стоп-слов. Были сформулированы 2 основные методики: априорного взвешивания тональности всех лексем текста и апостериорного взвешивания исключительно оценочных лексем. В первой общее значение тональности текста высчитывалось как среднее арифметическое суммы значений слов и общего объема текста. Во второй методике как среднее арифметическое суммы исключительно оценочной лексики и: а) общего объема текста, б) количества совпадений всех лексем текста со словарем, в) количества совпадений оценочных лексем текста со словарем.
Каждый вариант был протестирован, результаты проанализированы. Анализ показал, что наибольшее количество новостей со значением ниже 0 содержится в категории «происшествия», что соответствовало предположениям, основанным на специфичности наиболее характерной для данной категории новостей лексики. Другие категории с высоким показателем значений ниже 0 - армия, в мире. Категории с наибольшим количеством новостей с положительным значением (то есть значение выше 0) - культура, экономика, спорт, что также отвечает ожиданиям данного исследования, основанным на проведенном статистическом анализе. Предварительно сформулированные предположения о результатах по каждой категории подтвердились. Наиболее эффективными показали себя методика I и 2 вариант методики II, наименее эффективным стал 3 вариант методики II. Эффективность оценивалась на основе анализа текстов с максимальными и минимальными значениями, общего количества текстов со значениями больше, меньше и равными 0, сравнении результатов работы методик между собой, выявлении возможных общих результатов, а также на характеристике ложноположительных и ложноотрицательных значений, явно появившихся в ходе осуществления 3 варианта апостериорной методики.
Таким образом, данное исследование позволяет сделать вывод о важности изучения сентимент-анализа в целом, разработке методов и апробации моделей для возможности осуществления анализа с наибольшей точностью. Анализ мнений и тональности решает множество задач и полезен как сам по себе, так и в совокупности с другими решаемыми компьютерной лингвистикой задачами. Полученные в ходе данной 55
работы материалы могут быть использованы в дальнейших исследованиях анализа тональности на синтаксическом уровне с применением методов машинного обучения.
Поставленные в начале исследования задачи были выполнены, цель достигнута.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Al-Ayyoub M. et al. A comprehensive survey of arabic sentiment analysis //Information processing & management. - 2019. - Т. 56. - №. 2. - С. 320-342.
2. Bing Liu. Sentiment Analysis in Social Networks. Elsevier. - 2017. - 263 p.
3. Cambria Erik. A Practical Guide to Sentiment Analysis. Springer. - 2017. - 196 p.
4. Chen L. C., Lee C. M., Chen M. Y. Exploration of social media for sentiment analysis using deep learning //Soft Computing. - 2020. - Т. 24. - №. 11. - С. 8187-8197.
5. De Amicis C., Falconieri S., Tastan M. Sentiment analysis and gender differences in earnings conference calls //Journal of Corporate Finance. - 2021. - Т. 71. - С. 101809.
6. Ellyn Roleston Keith. A Sentiment Analysis of Language & Gender Using Word Embedding Models. City University of New-York. - 2017.
7. Inkpen D., Atefeh Farzindar A. Natural Language Processing for Social Media, Third Edition. Morgan & Claypool Publishers. - 2020. - 193 p.
8. Khurshid A. Affective Computing and Sentiment Analysis. Springer. - 2011. - 148 p.
9. Mauro Ferri Sentiments are not opinions, 2016
10. Meetei L. S. et al. Low resource language specific pre-processing and features for sentiment analysis task //Language Resources and Evaluation. - 2021. - Т. 55. - №. 4. - С. 947-969.
11. Moshkin V., Yarushkina N., Andreev I. The sentiment analysis of unstructured social network data using the extended ontology SentiWordNet //2019 12th International Conference on Developments in eSystems Engineering (DeSE). - IEEE, 2019. - С. 576580.
12. Pang B., Lee L. Opinion Mining and Sentiment Analysis / Foundations and Trends in Information Retrieval. - 2008. - Vol. 2, No 1-2.
13. Pawel Sobkowicz, Michael Kaschesky, GuillaumeBouchard Opinion mining in social media: Modeling, simulating, and forecasting political opinions in the web, Government Information Quarterly, vol. 29, 2012, pp. 470-479
14. Rinatovna Eremeeva G. et al. Sentiment analysis on english financial news //Journal of Research in Applied Linguistics. - 2019. - Т. 10. - №. Proceedings of the 6th International Conference on Applied Linguistics Issues (ALI 2019) July 19-20, 2019, Saint Petersburg, Russia. - С. 574-582.
15. Shakhovska K., Shakhovska N., Vesely P. The sentiment analysis model of services Providers’ feedback //Electronics. - 2020. - Т. 9. - №. 11. - С. 1922.
..51

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ