Тема: ДИСКУРСИВНЫЕ АСПЕКТЫ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭМОЦИОНАЛЬНО-ОЦЕНОЧНЫХ ТОНАЛЬНОСТЕЙ В РУССКОЯЗЫЧНЫХ СМИ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 ТЕОРЕТИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ АСПЕКТ 19
1.1 Эмотивность и экспрессивность как категории лингвистического
исследования 19
1.2 Подходы к пониманию аксиологических и прагматических аспектов
эмоционально-оценочной тональности текста в современной лингвистике 28
1.3 Методологические и методические аспекты сентимент-анализа в контексте
компьютерной лингвистики 41
1.4 Модель и типология эмоционально-оценочных тональностей медиатекстов 55
2 МЕТОДИЧЕСКИЕ И ЭМПИРИЧЕСКИЕ АСПЕКТЫ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ЭМОЦИОНАЛЬНО -ОЦЕНОЧНОЙ ТОНАЛЬНОСТИ МЕДИАТЕКСТОВ 64
2.1 Алгоритм и интерфейс компьютерного приложения для определения тональностей
и авторубрикации медиатекстов 64
2.2 Методика составления и состав тезаурусов эмоционально-оценочной лексики ... 70
2.3 Анализ контекстуальных факторов в конкордансах лексических маркеров
позитивно-оптимистической тональности и негативно-пессимистической тональности 74
2.4 Анализ функций априорно позитивной лексики в апостериорно негативных
контекстах и априорно негативно окрашенной лексики в апостериорно позитивных контекстах (анализ конкордансов) 77
ЗАКЛЮЧЕНИЕ 79
СПИСОК ЛИТЕРАТУРЫ 81
ПРИЛОЖЕНИЯ 88
ПРИЛОЖЕНИЕ А. Фрагмент листинга кода программы для определения тональности медиатекстов на языке 88
ПРИЛОЖЕНИЕ Б. Блок-схема алгоритма определения эмоциональной тональности сообщения 91
ПРИЛОЖЕНИЕ В. Листинг кода контекстно свободных грамматик для извлечения конкордансов 92
ПРИЛОЖЕНИЕ Г. Листинг кода контекстно свободных грамматик для частеречной разметки тезаурусов 93
ПРИЛОЖЕНИЕ Д. Примеры медиатекстов с образцами по различным тональностям по результатам автоматической классификации и разметки 96
ПРИЛОЖЕНИЕ Ж. Тезаурусы по тональностям 103
ПРИЛОЖЕНИЕ К. Конкордансы эмоционально-оценочных маркеров в пределах предложения по тональностям и по типам оценочности 123
ПРИЛОЖЕНИЕ Л. Конкордансы позитивных эмоционально-оценочных маркеров в текстах с негативно-пессимистической тональностью 160
📖 Введение
Корни изучения эмоционально-оценочных тональностей текста лежат в исследованиях по анализу общественного мнения в начале XX-го века и в анализе субъективности текста, выполненном сообществом компьютерной лингвистики в 1990 -х. В последние годы постоянно нарастает количество как теоретических, так и прикладных исследований, связанных с использованием сентимент-анализа и анализом эмоционально-оценочных тональностей текстов (см. Таблицу 1.). Причем объем англоязычных научных публикаций по данной тематике на порядки превышает объем русскоязычных.
В обзорной наукометрической работе Mika V. Mantyla, Daniel Graziotin, Miikka Kuutila (2018) специалисты исследовали историю сентимент-анализа и оценили тенденции его развития посредством библиометрических замеров упоминаемости метода в названиях и ключевых словах научных статей в основных базах данных научной литературы Scopus и the Web of Science. В частности, было установлено, что в 2005 году было опубликовано всего 101 научная статья на эту тему, в то время как в 2015 году число было почти 5699. Это дает почти 50 -кратное увеличение за десятилетие.
Также установлено, что любая цитируемая статья, посвященная сентимент -анализу, превышает количество цитирований, по сравнению со статьями из любой другой области исследований, связанной с программным обеспечением. Было выделено три главных публикационных топика по проблемам сентимент анализа: machine learning, natural language processing, sentiment analysis specific methods. Все эти исследования связаны с самыми разными прикладными направлениями и соответствующими им корпусами текстов, главным образом, социальных сетей и шире медиатекстов: потребительские настроения, отношение к фильмам, отношение к политическим выборам, настроения на фондовых рынках, системы поддержки принятия решений в промышленных отраслях, эмоции во время туристических путешествий, отношение к образованию, политическая публицистика, рекламные тексты и др.
Авторы обзора делают прогноз, что в будущем прикладные области анализа настроений будут по-прежнему увеличиваться и что сентимент-анализ текстов станет стандартизированной частью многих услуг и отраслей, а также важнейшей частью не только изучения, но и влияния на общественное сознание. В контексте нашего исследования заметим: авторы обзорной статьи предполагают, что прогресс данного направления будет связан главным образом с прикладными компьютерными методами, но при этом они не упоминают влияние развития исследований в области когнитивной лингвистики и вообще языкознания. Нам представляется, что развитие будет наиболее продуктивным именно в следствие междисциплинарного взаимодействия фундаментальных наук о языке и прикладных компьютерных наук. Именно с такой установкой проводилось наше исследование.
В представляемом магистерском исследовании не ставится задачи глубокого и презентабельного обзора обширного потока научной литературы по избранной тематике. Публикации будут рассматриваться и использоваться по мере их важности для обоснования и объяснения разработанной автором методики анализа тональностей медиатекстов и для интерпретации полученных результатов применения данной методики к корпусу текстов, послужившему материалом исследования. В привлечении литературы приоритет будет отдан лингвистам, изучавшим русский язык и русскоязычные тексты.
Дискурсивная обусловленность оценочных средств языка и необходимость обращения к ней в процессах формализации не вызывает сомнений. Сомнения относительно этой обусловленности вызывают возможности её однозначного структурирования, типологизации, идентификации и учета языковых средств, а также теоретически убедительного и практически подтвержденного объяснения наблюдаемых закономерностей. Прежде всего, здесь имеется ввиду те возможности, которые позволили бы формализовать и алгоритмизировать анализ оценочных средств языка именно с учетом их дискурсивной обусловленности.
Проблема формализации дискурса пока не имеет окончательных эффективных решений. Можно даже утверждать, что нет сложившегося и конвенционально устоявшегося видения как возможно решить эту проблему на данном этапе развития теорий и методов обработки неструктурированных текстов. Изучение функциональной обусловленности языковой формы, предполагает систематизацию и объяснение связи с дискурсивными факторами. Это в свою порождает необходимость выявления и формализованного учета взаимозависимостей всех предшествующих языковых уровней: фонологии (если изучается звучание интонаций в устной речи), морфологии, лексики, семантики, синтаксиса. В конкретном исследовании можно убедительно проанализировать только некоторые отдельные аспекты этих взаимозависимостей и учесть только некоторые тенденции и ограничения, проявившееся при анализ е конкретного корпуса текстов. Выявление функциональной обусловленности языковой формы и поиск методов её формализации может позволить в дальнейшей перспективе исследования совершить анализ в «обратном» направлении: по характеру языковых маркеров «определять» дискурс.
В самых разных сферах бизнеса и социальной жизни имеется высокая потребность в структурировании интенсивных потоков и автоматизированной классификации больших массивов медиатекстов в зависимости от отношения потребителей к содержанию текста и от влияния этого содержания на потребителей.
С точки зрения возможностей формализации и автоматизации обработки медиатекстов принципиально важным представляется следующая тенденция, отмеченная Т.Г.Добросклонской: «В сфере массовой коммуникации при бесконечно множащемся разнообразии текстового потока наблюдается тематически структурированное, очевидно различимое единообразие, которое как бы упорядочивает весь этот огромный ежедневно обновляемый текстовой массив. При этом новые тексты создаются подобно конструкциям из строительного набора LEGO, которые собираются из одних и тех же готовых деталей. Медиа тексты собираются из заданного лексико-синтаксического материала, “расфасовываются” в те же готовые устойчивые формы (медиа форматы), превращаясь в тематически связанные, лингвистически предсказуемые произведения речи» .
В связи с антропоцентрическим характером современных лингвистических исследований оценка, традиционно рассматриваемая как категория логики, представляется как фактор, формирующий семантику и прагматику языковых единиц. Оценка относится как к области реакций, так и к области стимулов, то есть как порождению, так и к восприятию речи.
На данный момент подавляющая часть исследований по направлению Text Mining по теме сентимент-анализа посвящены определению тональности коротких комментариев в социальных медиа или тональности новостных сообщений . Широко известное понимание тональности основано на упрощенной тернарной модели эмоциональной тональности: позитивная (мажорная), негативная (минорная), нейтральная (нулевая). Именно такую тернарную модель использует Медиалогияhttps://www.mlg.ru/- самая известная и популярная в России система автоматической системы мониторинга и анализа СМИ и соцсетей в режиме онлайн.
Другой подход основан на отождествлении отдельных тональностей с разными эмоциями (радость, дружелюбие, гнев, страх, удивление, печаль и т.п.), либо с разными риторическими приемами (ирония, сарказм, пафос), либо с различными коммуникативными интенциями (неодобрение, похвала, эпатажность, интимизация).
Для традиционных медиатекстов с многоплановым политематическим и оценочно неоднозначным содержанием пока не предложено достаточно эффективной методики и общепризнанной теории для понимания и выявления когнитивных, дискурсивных и лингвистических факторов формирования эмоционально-оценочных тональностей. Медиатекст может вызывать разные смешанные эмоции у разных его читателей. Некоторые подходы к сентимент-анализу основываются на учете в классификации текстов по тональностям статистической оценки реакции читателей (оценщиков) на текст . В нашем исследовании такой подход не используется, из -за неприменимости его для формализации языковых средств рассматриваемого типа, невоспроизводимости результатов, зависимости от состава респондентов и скорее социально -психологической, нежели лингвистической интерпретации результатов подобного анкетирования.
Объект исследования
Медиатекст как сфера реализации языковых средств отображения эмоционально - оценочных тональностей.
Предмет исследования
Когнитивно-дискурсивные аспекты лексических и семантико-прагматических параметров в автоматизированном определении эмоционально -оценочных тональностей русскоязычных медиатекстов.
Цель исследования
Разработать, теоретически обосновать и эмпирически апробировать алгоритм автоматизированного определения эмоционально-оценочных тональностей новостных сообщений и публицистических статей в русскоязычных СМИ.
Задачи исследования
1. Выявить, сконструировать и обосновать модель эмоционально -оценочных тональностей медиатекстов .
2. Составить структурированные тезаурусы для определения разных видов тональностей.
3. Реализовать модель автоматизированного определения тональностей согласно авторской модели в форме компьютерной программы на языке VBA Excel
4. Составить размеченный корпус медиатекстов с маркировкой языковых единиц из тезаурусов, на материале выборки томских СМИ за 2006 г.
5. Интерпретировать полученные статистические результаты с точки зрения возможных дискурсивных факторов, в том числе факторов, обусловленных региональностью .
6. Составить конкордансы лингвистических маркеров тональностей в их ближайшем контексте в рамках предложения для установления влияния аксиологических интенционально-прагматических аспектов на семантику оценочной лексики, а также для корректировки тезаурусов .
Материалы
Материалом исследования стал массив текстов томских СМИ за январь -март 2006 года. Избранный хронологический период связан с задачей изучить традиционные медиатексты до влияния на них социальных сетей и радикального переформатирования всего информационного пространства в связи с этим влиянием .
В использованный корпус текстов входит около 15 тысяч отдельных полнотекстовых статей и новостных сообщений за три первых месяца 2006 года из 37 всех (ежедневных и еженедельных) имеющихся в Томске в данный период отдельных СМИ разных типов (газеты, телеканалы, радиоканалы). Источниками данных послужили ресурсыhttps://www.public.ru/, http://www.news.tomsk.ru/public/news/а также корпоративная база данных телекомпании ТВ2.
Перечень СМИ в корпусе:
Газеты: АиФ в Томске, Бизнес.Com, Буфф-сад, Ва -Банк, Вечерний Томск, Все для Вас, Выходной, Диалог Северск, Ева, Жизнь.Томск., КП в Томске, Красное знамя, Медиатор , МК в Томске, Независимая газета, Пятница, Российская газета, Томская неделя, Томские вести, Томские новости, Томский вестник, Томское предместье
Телеканалы: Вести-Томск РТР, ГТРК, ОТВ, ТВЦ, СТ -7, СТС-Открытое
телевидение, Студия Антен, ТВ -2, Телекомпания NTSC, ТК Домашний, ТРК АЛСЕТ
Радиоканалы: Авторадио, Государственное радио Томск, Радио 106,6, радио Европа + Томск, Радио Сибирь, Радио Хит FM, Русское радио Томск, Эхо Москвы в Томске
Полностью обработанная матрица данных с результатами анализа тональностей и тематик всего корпуса доступна для загрузки по адресу: https://drive.google.com/file/d/1WJuzdgcoRTTul2ngK034jAMeGBFm3GQQ/view?usp=sharing
Специфика изучаемого периода
Избранный хронологический отрезок связан с тем в 2006 году в медиа-повестке дня доминируют события «офф-лайн», а события «он-лайн» только формируются (готовятся доминировать). После 2006 года события «он-лайн» неуклонно и необратимо захватывают все новые области информации и жизни и на сегодняшний день являются доминирующими в информационном поле (самый последний пример - твиттер президента Д. Трампа как одна из главных тем на повестке дня). События «он-лайн» напрямую влияют на язык медиатекстов не только путем внедрения специфической лексики, но и посредством изменения их интернациональной и прагматической составляющей, так как читатели становятся прямыми комментаторами, а медиатексты часто создаются с учетом этих комментариев. Формирование и восприятие тональности медиатекста теперь также зависит учета создателями текстов мгновенности и глобальности распространения текста и реагирования на текст. До всеобщего распространения социальных сетей этих факторы либо отсутствовали либо были слаборазвиты. Типы событий он-лайн: «запостить», «оставить комментарий», «лайкнуть», «удалить со страницы», «изменить содержание сайта», «заблокировать», «создать зеркало сайта», «появиться в сети» и т.п. В нашем исследовании это влияние не включается в предмет исследования и единственный способ сделать это было изучение традиционных медиа в последний год их существования - в период апогея их развития.
При формировании выборки СМИ и составлении корпуса текстов не учитывались только корпоративные и узкотематические издания. Для конкретных аналитических или презентационно-иллюстративных задач делался упор на подвыборки корпуса за разные периоды, например, за март 2006 года, накануне российско-германского саммита и встречи в Томске российского президента и немецкого канцлера в апреле 2006 года. Именно накануне и вовремя всеми ожидаемых событий СМИ наиболее насыщены конструктами массового сознания и дискурсивными практиками. В такие периоды у журналистов и публицистов расширяется поле и актуализируется новые поводы для разного рода рефлексий, предположений, сопоставлений, жанрово-стилистических и тематических поисков.
Предложенная автором теоретическая модель и разработанные алгоритмы и работающий прототип их программной реализации не имеют прямых аналогов и существенно расширяют возможности изучения возможностей формализации и автоматизации в изучении дискурсивных аспектов медиатекстов. Разработанная модель и способы её алгоритмизации могут быть масштабированы для анализа корпусов медиатекстов различного уровня (не только региональные, но и центральные, не только официальные новости, но и оппозиционная публицистика). При этом часть тезаурусов, содержащая общеоценочные средства и эмотивную лексику, безусловно останется неизменной, но также очевидно, что переходе к центральным СМИ появятся новые фразеологические средства, нехарактерные для региональных СМИ, за исключением случаев, когда речь идет о прямом заимствовании текстов. Также в центральных СМИ будут меньше уделено или вообще не уделено вниманию мелким бытовым проблемам, с которыми связаны негативные эмоции местных жителей (протекает крыша, сломан лифт, грубые водители маршруток и т.п.). При расширении тезаурусов и изменении дискурсивной практики в корпусе текстов, возможно потребуется скорректировать некоторые априорные вероятности, связанные с количеством семантических инвариантов в данных тезаурусах, а затем тестировать и корректировать систему на различных не региональных корпусах. Проектирование масштабирования разработанной модели на все виды СМИ не входит в задачи исследования. Универсальность авторской методики только предполагается, но не доказывается и не проверятся на данном этапе. Этим обусловлена и ограничение объекта, предмета и материалов исследования. Часть результатов, реализованных на корпусе региональных СМИ применима и к центральным СМИ. Но проверка и обоснование того, как именно реализуется такая применимость в задачи исследования не входит. В общих чертах, региональный характер СМИ обусловил ограничения для тематических аспектов содержания. По сравнению с центральными СМИ в региональных на повестке дня чаще стоят повседневно -бытовые сюжеты, реже - общенациональные и международные, в жанрово-стилистическом отношении в целом богаче жанровое разнообразие. В данном исследовании жанрово-стилистические различия текстов не изучаются отдельно, однако учитываются при интерпретации контекстной зависимости оценочно маркированных языковых единиц.
Методы и теоретические подходы
Работа строится на следующих подходах
1) Подход Р. Лангакера (Р. Лэнекер, Ronald W. Langacker) основанный на антропоцентрических предпочтениях в изучении естественного языка используется в нашем исследовании при формализации дискурсивных аспектов. Антропоцентрический подход к концепт-анализу в когнитивной лингвистике (Р. Лэнекера (Ronald W. Langacker), Н.Н.Болдырев) и учет узуальных аспектов функционирования медиатекстов применяется, начиная с использования интроспекции в моделировании схемы интерпретации тональности текста, и заканчивая количественными лимитами диапазона внимания при чтении и понимании текста. В предлагаемой модели анализа тональности текста было предположено, что удержание ограниченного количества маркированных единиц текста в кратковременной памяти (Дж. Миллер) формирует впечатление от текста и восприятие его тональности.
2. Методологические подходы к сентимент -анализу классических в работах Бинг Лью (Bing Liu) и других прикладных исследованиях англоязычных и русскоязычных авторов (Клековкина М. В., Котельников Е. В., Колмогорова А. В., Лукашевич Н.В. и др.).
3. Функционально-семантические и функционально-стилистические подходы российских лингвистов (Н.Д. Арутюновой, Е.М. Вольф) к классификации и параметризации оценочности.
4. Психологический подход в интерпретации прагматики интенциональных аспектов лексических индикаторов оценочности с точки зрения пирамиды потребностей
А. Маслоу.
5. Вычислительная методика «дерево решений» используется для определения общей тональности текста на основе количественных соотношений и комбинаций оценочно и эмоционально окрашенных лексем.
6. Байесовский подход к вычислению вероятностей используется в исследовании для учета взаимосвязи априорного дискурсивного контекста и апостериорного вербального состава текста при автоматизированном определения степени доминирования в тексте различных тематик, типичных для общественно-политических социальных СМИ.
Гипотеза
Исследование опирается на гипотезу о том, что эмоционально-оценочные компоненты медиатекста функционируют как система имплицитных темпоральных, коммуникационных и оценочных модусов в вероятностной интерпретации текста потенциальным читателем. Интерпретация тональности формируется под воздействием семантики частотно-комбинаторной системы взаимоимпликативных лексико-фразеологических маркеров в тексте. Эта система маркеров поддается формализации и алгоритмизации.
✅ Заключение
Следующий важный результат - это подтверждение возможности эффективной формализации дискурсивных свойств медиатекстов на основе структурирования и систематизации модусно-диктумных параметров содержания текстов.
Этот вывод подтвержден результатами разработки и апробирования на корпусе медиатекстов авторской модели автоматизированного определения эмоционально - оценочных тональностей новостных сообщений и публицистических статей в русскоязычных СМИ. Региональные СМИ имеют свою тематическую специфику, но алгоритм определения тональностей будет одинаковым и для центральных общенациональных СМИ. Изменению и расширению состава будут подвергаться только тезаурусы эмоционально-оценочных маркеров, которые зависят от редакционной политики и от сложившихся традиций в подаче материала.
Подтвердилась исходная гипотеза исследования о том, что эмоционально-оценочные компоненты медиатекста функционируют как система имплицитных темпоральных, коммуникационных и оценочных модусов в вероятностной интерпретации текста потенциальным читателем. Главный довод в пользу этого - возможность формализованного классифицирования текстов по тональностям после корректировки тезаурусов на основе учета коннотативного и контекстного влияния на эмотивность, экспрессивоность и оценочность лексических и фразеологических маркеров.
Получение автоматически сгенерированного размеченного корпуса медиатекстов с маркировкой языковых единиц из тезаурусов, на материале выборки томских СМИ за 2006 г. демонстрирует возможность масштабирования авторской модели и методики на любые корпусы медиатекстов при условии расширения тезаурусов.
Одно из направлений исследований, которое также было продемонстрировано в магистерской работе, - это интерпретация полученных статистических параметров с точки зрения дискурсивных феноменов.
Метод анализа конкордансов лингвистических маркеров тональностей в их ближайшем контексте убедительно показал форму и направления влияния аксиологических интенционально-прагматических аспектов на семантику оценочной лексики. В этой связи можно констатировать, что потребности и возможности современной корпусной и компьютерной лингвистики делают необходимым приведение в структуре лингвистического исследования большого количества иллюстративно - доказательного текстового материала. Именно этим обусловлен большой объем конкордансов и тезаурусов в приложениях к магистерской работе, демонстрирующих и доказывающих дискурсивную обусловленность тональностей.
Подводя итог, можно констатировать, что при формализации тональностей медиатекстов и алгоритмизации их выявления необходимо учитывать многоплановость и сложность системы параметров (в частности, при различении эмотивности, оценочности и экспрессивности), а также учитывать взаимосвязь коннотативных, интенциональных и ситуативных факторов при составлении тезаурусов лексических и фразеологических маркеров для каждой разновидности дискурса. Можно утверждать наличие взаимоимпликативности всех эмотивных, оценочных и денотативных единиц в медиатексте при возникновении феномена его тональности.



