АННОТАЦИЯ 3
Ведение 8
Глава 1. Использование структурных единиц дискурса при решении задач автоматической обработки текстов 15
1.1 Новостной текст в структуре дискурс 15
1.1.1 Дискурсивный подход к анализу текста в современной лингвистике.. 15
1.1.1.1 Определение дискурса 15
1.1.1.2 Направления анализа дискурса 16
1.1.1.3 Исследования дискурса на методологической основе
компьютерной лингвистики 19
1.1.2 Структура дискурса: макроструктура и микроструктура 22
1.1.3 Типы и жанры дискурсов 24
1.1.4 Медиадискурс. Жанровая структура медиадискурса 26
1.1.5 Жанр новости в структуре медиадискурса 28
1.1.6 Языковая маркированноость дискурсов. Особенности новостного
жанра 31
1.2 Дискурсивные маркеры в структуре дискурса 32
1.2.1 Определение ДМ 32
1.2.2 Типы дискурсивных маркеров 33
1.2.3 Особенности употребления дискурсивных маркеров в новостных
текстах 36
1.3 Дискурсивные маркеры в решениях задач классификации текстов 38
1.3.1 Методы машинного обучения в решении задачи классификации
текстов 38
1.3.2 Новостные тексты как объект классификации 39
1.3.3 Языковые единицы, используемые в решениях задач классификации
текстов 43
1.3.4 Использование дискурсивных маркеров для автоматической обработки
текстов 45
Выводы по главе 1 47
Глава 2. Создание классификатора новостных текстов с помощью машинного обучения с дискурсивными маркерами в качестве признаков 49
2.1 Подготовка материала исследования 49
2.1.1 Тематические корпусы новостных текстов 49
2.1.2 Словари дискурсивных маркеров 50
2.2 Применение методов машинного обучения для решения задачи построения классификатора текстов 52
2.2.1 Предобработка текстов 52
2.2.1.1 Лемматизация 53
2.2.1.2 Удаление лишних символов 54
2.2.2 Классификатор текстов 54
2.2.2.1 Частотность дискурсивных маркеров. Абсолютные и
относительные величины 55
2.2.2.2 Построение классификатора Дерево решений 55
2.2.2.3 Построение классификатора Наивный байесовский
классификатор 56
2.2.3 Оценка качества классификатора 57
2.2.3.1 Матрица ошибок и Accuracy 57
2.2.3.2 Точность, полнота и F-мера 59
Выводы по главе 2 61
Заключение 63
Список использованныъ источников и литературы 65
Приложение
Увеличение потока текстовой информации в сети Интернет требует вовлечения автоматизированных механизмов в процесс её обработки. Под обработкой текста понимают его перевод, реферирование, аннотирование, классификацию и др. Данное исследование рассматривает возможности оптимизации процесса классификации текстовых документов.
Проблема автоматической классификации текстов актуальна для научного дискурса [40], для дискурса художественного произведения при определении художественного стиля текста [15], для интернет-дискурса при распознавании спама [51].
Проблема автоматической обработки текстовой информации является особенно актуальной для дискурса СМИ, в частности - жанра новостных сообщений, так как среди новостных агентств существует большая конкуренция, требующая от них высокого качества, а также высокой скорости производства новостных текстов.
Так, классификатор новостей по тематикам может позволить новостным интернет-порталам оптимизировать процесс размещения сообщений на сайте, автоматически распределяя его в тот или иной раздел. Данная работа изучает один из возможных способов оптимизации процесса классификации новостей по тематикам.
Качество автоматической классификации текстов зависит, в частности, от признаков, то есть, единиц, на основании которых классификация осуществляется.
В качестве признаков могут выступать языковые единицы на уровне морфологии, лексики, синтаксиса, фонетики (при работе с устными текстами), а также различные метаданные.
В данной работе в качестве таких единиц анализируются дискурсивные маркеры. Это формальные средства, указывающие на связи частей дискурса как на уровне макроструктуры дискурса, так и на уровне его микроструктуры.
Макроструктура (глобальная структура) объединяет крупные блоки текста, микроструктура (локальная структура) - его минимальные элементы. Организация текста на этих уровнях и использование тех или иных дискурсивных маркеров в свою очередь зависит также от модуса (устного или письменного) и жанрового воплощения дискурса.
Данное исследование затрагивает использование дискурсивных маркеров в жанре новостных текстов дискурса СМИ в рамках письменного модуса. Особенности новостных текстов, которые необходимо учитывать при их автоматической обработке, сводятся к отсутствию эмоционально окрашенной лексики, наличию безличных конструкций и к обилию клише, к которым можно отнести дискурсивные маркеры.
В современной науке распространены исследования, посвящённые классификации новостей по тону [32, 77], по факту достоверности [28, 63, 74, 75], и, в меньшей степени, по тематикам, как на материале иностранных языков [54, 59], так и на материале русского языка [17, 45]. Существуют также работы, освещающие возможности автоматической классификации по тематикам текстов других дискурсов, в частности, научного [62]. При этом для классификации новостей применяют либо векторный метод, использующий в качестве признаков самые значимые слова в тексте, либо строят модель классификации без учителя, то есть применяют кластеризацию, в данном случае тематики текстов не задаются исследователем, а определяются самим алгоритмом. Заранее же заданный список единиц, выступающих в качестве признаков, используется для решения задачи определения тональности текста (напр., отзывов). В данном случае список таких единиц составляет эмоциональная или оценочная лексика [26, 36].
Дискурсивные маркеры принято относить к “стоп-словам”, удаление которые является частью процесса предобработки текстов для их использования для обучения классификатора. Однако, существуют исследования, доказывающие, что использование “стоп-слов”, в том числе, может повысить
классификатора, так как тексты могут отличаться частотой их использования [70].
Функционирование дискурсивных маркеров в жанре новости а материале русского языка исследуется в основном с точки зрения их манипулятивного потенциала [44]. На материале иностранных языков существуют теоретические исследования, посвящённые семантике и функционированию дискурсивных маркеров в новостных текстах [53, 69]. Ранее, на материале портала lenta.ru было установлено, что дискурсивные маркеры являются высокочастотными в новостных текстах СМИ [50]. Ранее также было установлено, что в письменном дискурсе частотность использования дискурсивных маркеров ниже, кроме того, в отличие от устного, в нём чаще встречаются маркеры со значением точности (напр., «именно») [19]. Полагаем, что сочетание основных жанровых признака новости - содержательность, краткость, объективность - также предопределят специфику используемых дискурсивных маркеров.
В настоящее время существует проблема большого потока новостных сообщений в СМИ, которая может быть решена привлечением автоматизированных механизмов. В связи с этим, актуальность данной работы заключается, во-первых, в необходимости поиска новых способов оптимизации автоматической классификации текстов; во-вторых, в повышенном внимании к изучению функционирования дискурсивных маркеров в сфере лингвистики; в- третьих, в повышенном внимании к изучению функционирования дискурсивных маркеров в сфере компьютерной лингвистики, которая проявляет большой интерес к изучению дискурса в контексте автоматического анализа и синтеза текстов на естественном языке.
Объектом проведенного исследования является автоматическая классификация текстов с помощью машинного обучения.
Предметом - использование дискурсивных маркеров в решении задачи автоматической классификации новостных текстов с помощью машинного обучения.
Цель данного исследования - изучить возможность использования дискурсивных маркеров в решении задачи автоматической классификации новостных текстов.
Для достижения поставленной цели было необходимо решить следующий ряд задач:
• Исследовать теорию дискурсивных маркеров и методов машинного обучения.
• Создать три тематических корпуса новостных текстов: "экономика", "политика", "социальная жизнь".
• Создать словари дискурсивных маркеров.
• Выявить частотность употребления дискурсивных маркеров в каждом тексте данных тематик.
• Создать классификатор текстов с помощью языка программирования R на основе частотностей дискурсивных маркеров.
• Осуществить работу классификатора и оценить его качество.
Теоретические источники исследования
Во время проведения данного исследования мы опирались на теорию дискурса и дискурсивных маркеров Т.А. ван Дейка [13, 14], А.А. Кибрика [19, 20], Д. Шиффрин [71, 72], В.И. Карасика [18], В.Е. Чернявской [48], И.М Кобозевой [24], К.М. Шилихиной [49], Д. Пайара [21], на теорию машинного обучения и его методов М.С. Агеева [1], Т.В. Батуры [5].
Материал анализа, представленного в данной работе, - тексты новостного жанра медийного дискурса, реализованного в письменном модусе.
Материал был взят с сайта новостного портала “ТАСС” (tass.ru). Выбор источника текстов обусловлен репутацией издательства в современном новостном пространстве: сайт находится на четвёртом месте среди российских СМИ по количеству публикаций в сутки [37], он также лидирует по темпу роста [31]. Эти факты подтверждают актуальность и достоверность сообщений, публикуемых на сайте, а также универсальностью и нацеленностью на широкие
массы. Эти два фактора позволяют нам сделать выводы о репрезентативности нашей выборки.
На первом этапе работы нами было создано три тематических корпуса новостных текстов (тематики «Общественная жизнь», «Политика», «Происшествия»), которые составили обучающую выборку классификатора. Выбор данных трёх тематик был обусловлен их наибольшей представленностью на сайте. Объём каждого корпуса составил 100 текстов, объём каждого текста - около 1500 символов.
Далее были созданы словари дискурсивных маркеров, на основании которых обучался классификатор. Списки «Общественная жизнь», «Политика», «Происшествия» формировались с использованием метода интроспекции, источником послужили тексты из созданных нами ранее тематических корпусов. «Общий список» состоял из дискурсивных маркеров, описанных в работах А.Н. Баранова, В.А. Плунгяна, Е.В.Рахилиной [3] и К.Л. Киселевой, Д. Пайар [21].
Следующие этапы исследования (предобработка текстов, создание классификатора, а также оценка качества его работы) были проведены с помощью языка программирования R (R-4.0.0). Данный язык был выбран для нашего исследования в связи с тем, что он достаточно прост в освоении, а также является оптимальным для решения задач машинного обучения.
Была проведена предобработка текстов, которая включала в себя лемматизацию, а также удаление ненужных символов. Лемматизация была проведена с помощью пакета MyStem для R (версия 3.1).
На следующем этапе были вычислены абсолютные, а также относительные величины, которые показали частотность употребления каждого дискурсивного маркера для каждого из текстов тематических корпусов.
Для решения задачи классификации текстов были выбраны следующие методы: дерево решений и наивный байесовский классификатор. Причины выбора данных методов заключаются в, во-первых, простоте их реализации, а во-вторых, в их, как правило, оптимальной работе на небольшой выборке 12
данных, то есть, они являются подходящими для экспериментальных исследований. Таким образом, данные методы классификации соответствуют специфике нашего исследования.
80% данных использовались для тренировки модели, 20% - для её
валидации. Классификация текстов была проведена сначала по всем трём тематикам, а далее - по двум тематикам попарно.
Результаты работы классификаторов были оценены с помощью следующих параметров оценки качества классификатора: матрица ошибок, «Accuracy» (данный параметр показывает процент правильных решений модели), F-мера для случаев бинарной классификации и макро- и микро- F-мера для многоклассовой классификации. Параметры группы “F-мера” учитывают такие характеристики классификации, как полнота, показывающая долю объектов из реального класса, отнесённых к нему классификатором, и точность, показывающая долю объектов, верно выбранных классификатором. Данные способы оценки качества классификации были выбраны в связи с небольшой выборкой текстов (всего 300 наблюдений) и немногочисленным классам (разбиение текстов на два и три класса).
Новизна данного исследования заключается, во-первых, в использовании заданного списка слов в качестве признаков для классификации, тогда как в современных исследованиях к новостным текстам применяется либо классификация на основании самых значимых слов в текстах, вычисляемых автоматически, либо кластеризация (в этом случае классы текстов не задаются исследователем заранее); во-вторых, в использовании дискурсивных маркеров в качестве признаков классификации текстов; в-третьих, в использовании портала «ТАСС» как источник материала исследования.
Теоретическая значимость данной работы заключается, во-первых, в исследовании функционирования дискурсивных маркеров с новой стороны: в зависимости от тематики дискурса. Наше исследование позволяет выяснить, существует ли различие в количественном и качественном употреблении дискурсивных маркеров в текстах разных тематик. Во-вторых, теоретическая 13
значимость заключается в изучении нового вида признаков для классификации текстов. Дискурсивные маркеры часто относят к “стоп-словам” и удаляются из текстов до этапа вычисления ключевых слов. Таким образом, данная работа ставит под сомнение данный шаг и вводит предположение о том, что дискурсивные маркеры не должны относится к списку удаляемых слов.
Практическая значимость. Результаты данного исследования могут применяться для создания программного обеспечения (ПО) с использованием классификатора новостных текстов по тематикам. Использование такого ПО может являться актуальным для новостных агентств СМИ.
Структура работы включает введение, две главы, заключение, список литературы и приложения.
Введение содержит информацию об объекте и предмете исследования, о его цели и задачах, необходимых для её достижения, об актуальности и новизне работы, о её практической и теоретической значимости.
Первая глава вводит теоретическую информацию о дискурсе СМИ, о жанре новостных сообщений в системе дискурса СМИ, о дискурсивных маркерах в структуре дискурса. Рассматривается также теория машинного обучения, возможности использования дискурсивных маркеров как признаков для классификации текстов и опыт классификации новостных текстов в современной науке.
Во второй главе описывается прикладное исследование, в рамках которого с помощью языка программирования R нами были построены классификаторы по тематикам двух типов для новостных текстов с дискурсивными маркерами в качестве признаков. Подробно описываются процессы создания обучающей выборки для классификаторов, отбора дискурсивных маркеров, написания кода классификаторов, а также методы оценки качества классификации и процесс их применения.
В заключении приводится общий итог работы.
Приложения включают в себя примеры материала исследования, единиц, выступающих в качестве признаков классификации, а также фрагменты
Исследование дискурса является актуальным для многих наук, смежных с лингвистикой, в том числе, компьютерной лингвистики. Искусственный интеллект, как направление компьютерной лингвистики, изучает возможность автоматического анализа и синтеза письменной и устной речи. В этом процессе могут быть задействованы единицы всех уровней языка, причем, чем выше уровень, тем сложнее его машинная обработка, но при успешной её реализации качество полученного результата также возрастает.
На уровне дискурса искусственный интеллект работает с его структурными элементами, включая те элементы, которые поддерживают связность структуры. Такими единицами являются дискурсивные маркеры. Таким образом, данное исследование рассматривает возможность применения методов машинного обучения как методов искусственного интеллекта к текстам на естественном языке на основании единиц дискурсивного уровня языка - дискурсивных маркеров.
Использование дискурсивных маркеров в качестве признаков не находит распространение в работах ни русскоязычных, ни зарубежных авторов. Их традиционно относят к «стоп-словам», которые считаются нейтральными, неспособными быть основанием для различения текстов алгоритмом, в связи с чем удаляются. Однако, существуют работы, доказывающие эффективность использования данной группы слов в качестве признаков для классификации текстов. Считаем, что это особенно актуально для текстов новостного жанра дискурса СМИ, так как для них характерно большое использование языковых клише, к которым относятся дискурсивы. Следовательно, в новостях наблюдается высокая частотность данных единиц, и разные тематики текстов могут отличаться использованием дискурсивов качественно. Цель данной работы заключается в исследовании возможности использования дискурсивных маркеров в качестве признаков для классификации текстов, что должно подтверждаться тезисом, приведенным выше.
В связи с актуальностью решения задачи автоматической классификации текстов существует множество исследований, нацеленных на поиск оптимальных методов машинного обучения, признаков и других параметров, влияющих на качество классификации. Так, достаточно распространены работы, рассматривающие применение наивного байесовского классификатора для решения данной задачи. Причем при сравнении качества работы данного метода с другими он выбирается как наиболее эффективный. Тот же вывод можно сделать по результатам нашего исследования: в целом качество работы наивного байесовского классификатора оказалось лучше, чем качество работы дерева решений. Более того, оно оказалось достаточно высоким для утверждения о том, что данный алгоритм может быть успешно реализован на новой выборке данных, то есть, на практике.
Таким образом, результаты исследования позволяют нам сделать вывод о том, что дискурсивные маркеры могут успешно применяться в качестве признаков для классификации новостных текстов методами машинного обучения.
Перспективы исследования включают в себя использование другой модели классификации (случайный лес, k ближайших соседей и др.) для осуществления сравнения с работой моделей дерева решений и наивного байесовского классификатора; расширение выборки текстов, как качественной (включение новых тематик), так и количественной; обучение классификатора на разных функционально-семантических типах дискурсивных маркеров. Данные эксперименты позволят продвинуться в поиске оптимальной схемы применения дискурсивных маркеров к автоматической классификации новостных текстов. Результаты поиска такой схемы могут быть применены для создания соответствующего программного обеспечения.
1. Агеев М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов : дис. ... канд. физ.- мат. наук / М.С. Агеев. - М., 2004. - 136 с.
2. Баженова Е.Ю. Дискурсивные стратегии представления информации в новостных текстах британских СМИ : дис. ... канд. филол. наук / Е.Ю. Баженова. - Благовещенск, 2015. - 181 с.
3. Баранов А. Н. Путеводитель по дискурсивным словам русского языка / А.Н. Баранов, В.А. Плунгян, Е.В.Рахилина. - М. : Помовский и партнеры, 1993. - 207 с.
4. Барахнин В.Б. Сравнительный анализ методов автоматической классификации поэтических текстов на основе лексических признаков / В.Б. Барахнин, О.Ю. Кожемякина, И.С. Пастушков // Аналитика и управление данными в областях с интенсивным использованием данных : тез. междун. научн. конф. М., 10-13 октября 2017г. - М., 2017.
5. Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. - 2018. - №1(30). - С. 85-90.
6. Белов А.А. Автоматическое распознавание тематики сверхкоротких текстов / А.А. Белов, М.М. Волович // Диалог 2007 : тез. научн. конф. Бекасово, 30 мая - 3 июня 2007 г. - Бекасово, 2007.
7. Битюцкая В.В. Советская информация за границей: особенности работы ТАСС в условиях «железного занавеса» // Язык и литература. Вестн. СпбГУ. - 2017. - №4. - С. 643-650.
8. Большакова Е.И. Автоматическая обработка текстов на естественном языке и анализ данных / Е.И. Большакова [и др.] - М. : Изд-во НИУ ВШЭ, 2017. - 269 с.
9. Большакова Е.И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика / Е.И. Большакова [и др.] - М. : МИЭМ, 2011. - 272 с.
10. Браславский П. Система автоматического реферирования новостных сообщений на основе машинного обучения / П. Браславский, В. Густелев // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : тез. научн. конф. Переславль-Залесский, 15-18 октября 2007 г. - Переславль-Залессикй, 2007.
11. Викторова Е.Ю. Дискурсивные слова: единство в многообразии // Изв. Саратовского ун-та. Филология. Журналистика. - 2014. - Т.14. - №1. -С. 10-16.
12. Воротникова Ю.С. Реализация новостного дискурса в электронных англоязычных СМИ : дис. ... канд. филол. наук / Ю.С. Воротникова. - СПб., 2005. - 212 с.
13. Дейк Т.А. ван. Дискурс и власть: Репрезентация доминирования в языке и коммуникации / Т.А. ван Дейк. - М. : Книжный дом «Либроком», 2013. - 334 с.
14. Дейк Т.А. ван. Язык. Познание. Коммуникация / Т.А. ван Дейк. - Благовещенск : БГК им. И.А. Бодуэна де Куртенэ, 2000. - 308 с.
15. Дубовик А.Р. Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам // Компьютерная лингвистика и вычислительные онтологии. - 2017. - №1. - С. 29-45.
..77