Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам
|
ВВЕДЕНИЕ .............................................................................................................. 3
ГЛАВА 1. Теоретические основания для автоматической стилистической
диагностики текстов на русском языке................................................................. 6
1.1. Функциональные стили русского языка и их характеристики .............. 6
1.1.1. Научный стиль .................................................................................... 13
1.1.2. Художественный стиль ...................................................................... 14
1.1.3. Деловой стиль ..................................................................................... 14
1.1.4. Публицистический стиль................................................................... 16
1.2. Классификация текстовой информации ................................................. 17
1.2.1. Методы дискриминантного анализа ................................................ 21
1.2.2. Оценка качества работы алгоритма классификации текстовой
информации ..................................................................................................... 24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ .......... 26
2.1. Используемое программное обеспечение .............................................. 26
2.2. Требования к входным данным............................................................... 26
2.3. Алгоритм работы компьютерного инструмента статистической
обработки текстов .............................................................................................. 28
2.4. Интерфейс компьютерного инструмента проведения статистической
обработки текстов .............................................................................................. 31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ
АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ.......................................................................... 34
3.1. Подготовка корпусов................................................................................ 34
3.2. Подбор характеризующих признаков..................................................... 34
3.3. Ход экспериментов ................................................................................... 36
3.4. Анализ данных .......................................................................................... 37
3.4.1. Анализ лексико–морфологических индексов ................................. 37
3.4.2. Анализ материала на основе данных о частеречной сочетаемости 41
3.4.3. Параметры длины слова и длины предложения ............................. 45
3.5. Инструмент автоматического определения стилистической
принадлежности текстов ................................................................................... 47
3.5.1. Описание алгоритма стилистической принадлежности текстов... 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов .................................................... 50
ЗАКЛЮЧЕНИЕ ..................................................................................................... 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ............................................. 55
ПРИЛОЖЕНИЕ А. Код программы автоматического определения
стилистической принадлежности текстов .......................................................... 63
ПРИЛОЖЕНИЕ Б. Перечень текстов, использованных при создании
корпусов ................................................................................................................. 69
ГЛАВА 1. Теоретические основания для автоматической стилистической
диагностики текстов на русском языке................................................................. 6
1.1. Функциональные стили русского языка и их характеристики .............. 6
1.1.1. Научный стиль .................................................................................... 13
1.1.2. Художественный стиль ...................................................................... 14
1.1.3. Деловой стиль ..................................................................................... 14
1.1.4. Публицистический стиль................................................................... 16
1.2. Классификация текстовой информации ................................................. 17
1.2.1. Методы дискриминантного анализа ................................................ 21
1.2.2. Оценка качества работы алгоритма классификации текстовой
информации ..................................................................................................... 24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ .......... 26
2.1. Используемое программное обеспечение .............................................. 26
2.2. Требования к входным данным............................................................... 26
2.3. Алгоритм работы компьютерного инструмента статистической
обработки текстов .............................................................................................. 28
2.4. Интерфейс компьютерного инструмента проведения статистической
обработки текстов .............................................................................................. 31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ
АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ.......................................................................... 34
3.1. Подготовка корпусов................................................................................ 34
3.2. Подбор характеризующих признаков..................................................... 34
3.3. Ход экспериментов ................................................................................... 36
3.4. Анализ данных .......................................................................................... 37
3.4.1. Анализ лексико–морфологических индексов ................................. 37
3.4.2. Анализ материала на основе данных о частеречной сочетаемости 41
3.4.3. Параметры длины слова и длины предложения ............................. 45
3.5. Инструмент автоматического определения стилистической
принадлежности текстов ................................................................................... 47
3.5.1. Описание алгоритма стилистической принадлежности текстов... 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов .................................................... 50
ЗАКЛЮЧЕНИЕ ..................................................................................................... 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ............................................. 55
ПРИЛОЖЕНИЕ А. Код программы автоматического определения
стилистической принадлежности текстов .......................................................... 63
ПРИЛОЖЕНИЕ Б. Перечень текстов, использованных при создании
корпусов ................................................................................................................. 69
В последние годы очень быстрыми темпами развивается область
обработки естественных языков (англ. Natural Language Processing, NLP). Во
многом это связано с тем, что с каждым годом объём текстовой информации,
используемой человечеством, увеличивается, и растёт потребность в более
эффективных алгоритмах обработки и анализа документов, написанных на
естественных языках. Особо важную роль играет возможность
классифицировать получаемую информацию, используя компьютерные инструменты.
Таким образом, актуальность выбранной темы обусловлена
необходимостью разработки новых методов автоматической обработки
текстов и востребованностью новых методов классификации текстовой
информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов
текстов, представляющих различные функциональные стили русского языка
(художественный, научный, деловой и публицистический). Объём каждого
корпуса – 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного
инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы
следующие задачи исследования:
• проанализировать ряд теоретических вопросов, связанных с
выделением функциональных стилей текстов современного русского языка;
• выделить отличительные квантитативные характеристики для каждого стиля;
• сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
• проанализировать различные методы классификации текстовой информации;
• создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
• использовать разработанный компьютерный инструмент для
обработки сформированных корпусов;
• оценить возможность автоматического определения
стилистической принадлежности текстов по выделенным характеристикам.
Методы исследования, использованные в работе, включают
стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения
исследования, было подготовлено на языке python версии 2.7.13 и
представляет собой реализацию алгоритма статистической обработки текста
и определения его стилистической принадлежности. Всем
словоупотреблениям в обрабатываемых текстах приписываются
грамматические характеристики. Затем данные проходят автоматическую
обработку, и проводится их исследовательская интерпретация.
Систематизация полученных данных приводит к выявлению статистических
параметров текста, а также к выявлению параметров, являющихся
характеризующими для текстов, принадлежащих к разным функциональным
стилям. Затем проводится определение стилистической принадлежности
текста при помощи модуля стилистической диагностики, использующего
выявленные ключевые параметры.
Теоретическая значимость исследования определяется тем, что в
результате анализа корпуса текстов нам удаётся получить ценные данные о
статистических характеристиках текстов различных функциональных стилей.
Практическая значимость работы заключается в том, что её
результаты могут быть использованы в информационно–поисковых системах
и при обработке больших объёмов текстовых данных.
Апробация исследования: основные положения исследования и
полученные экспериментальные данные были представлены в докладе на
XIX Открытой конференции студентов-филологов 20 апреля 2016 года.
Структура квалификационной работы: работа состоит из введения,
трёх глав, заключения, списка использованной литературы и приложений.
обработки естественных языков (англ. Natural Language Processing, NLP). Во
многом это связано с тем, что с каждым годом объём текстовой информации,
используемой человечеством, увеличивается, и растёт потребность в более
эффективных алгоритмах обработки и анализа документов, написанных на
естественных языках. Особо важную роль играет возможность
классифицировать получаемую информацию, используя компьютерные инструменты.
Таким образом, актуальность выбранной темы обусловлена
необходимостью разработки новых методов автоматической обработки
текстов и востребованностью новых методов классификации текстовой
информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов
текстов, представляющих различные функциональные стили русского языка
(художественный, научный, деловой и публицистический). Объём каждого
корпуса – 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного
инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы
следующие задачи исследования:
• проанализировать ряд теоретических вопросов, связанных с
выделением функциональных стилей текстов современного русского языка;
• выделить отличительные квантитативные характеристики для каждого стиля;
• сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
• проанализировать различные методы классификации текстовой информации;
• создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
• использовать разработанный компьютерный инструмент для
обработки сформированных корпусов;
• оценить возможность автоматического определения
стилистической принадлежности текстов по выделенным характеристикам.
Методы исследования, использованные в работе, включают
стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения
исследования, было подготовлено на языке python версии 2.7.13 и
представляет собой реализацию алгоритма статистической обработки текста
и определения его стилистической принадлежности. Всем
словоупотреблениям в обрабатываемых текстах приписываются
грамматические характеристики. Затем данные проходят автоматическую
обработку, и проводится их исследовательская интерпретация.
Систематизация полученных данных приводит к выявлению статистических
параметров текста, а также к выявлению параметров, являющихся
характеризующими для текстов, принадлежащих к разным функциональным
стилям. Затем проводится определение стилистической принадлежности
текста при помощи модуля стилистической диагностики, использующего
выявленные ключевые параметры.
Теоретическая значимость исследования определяется тем, что в
результате анализа корпуса текстов нам удаётся получить ценные данные о
статистических характеристиках текстов различных функциональных стилей.
Практическая значимость работы заключается в том, что её
результаты могут быть использованы в информационно–поисковых системах
и при обработке больших объёмов текстовых данных.
Апробация исследования: основные положения исследования и
полученные экспериментальные данные были представлены в докладе на
XIX Открытой конференции студентов-филологов 20 апреля 2016 года.
Структура квалификационной работы: работа состоит из введения,
трёх глав, заключения, списка использованной литературы и приложений.
В данной работе мы подробно изучили вопрос о выделении различных
функциональных стилей в современном русском языке и описали основные
методы автоматической классификации текстов. Нами были выявлены
характерные особенности четырёх стилей русского языка – научного,
официально–делового, художественного и публицистического – и выдвинута
гипотеза о том, что возможно подобрать такие комбинации параметров,
которые позволят однозначно определять стиль исследуемого текста.
Сравнив коллекции текстов, принадлежащих к вышеуказанным
функциональным стилям, при помощи разработанного нами модуля
статистической обработки текстов, мы выделили параметры, позволяющие
наиболее точно разграничить документы, относящиеся к разным стилям. Эти
индексы легли в основу разработанного нами инструмента автоматического
определения стилистической принадлежности текстов. Проанализировав при
помощи данного инструмента по 65 текстов из собранных нами корпусов, мы
успешно классифицировали более 88% из них, причём наибольшая точность
была достигнута при классификации деловых и художественных текстов. Это
подтвердило наше первоначальное предположение о возможности
автоматической классификации документов, относящихся к разным функциональным стилям.
В дальнейшем представляется возможным изучить большее число
статистических характеристик отдельных текстов или их фрагментов, а также
усложнить параметры, используемые при классификации текстов.
Перспективы развития нашего исследования связаны:
1) с усложнением и совершенствованием разработанного нами
инструмента: например, за счёт использования большего числа
параметров разных типов (синтаксических, морфологических и др.)
отдельно, а также в комбинации с уже изученными индексами.
2) с расширением экспериментального материала и проведением
исследований по автоматической обработке бóльшего числа
корпусов текстов из других коллекций (например, текстов
разговорного стиля или текстов, относящихся к различным литературным жанрам).
функциональных стилей в современном русском языке и описали основные
методы автоматической классификации текстов. Нами были выявлены
характерные особенности четырёх стилей русского языка – научного,
официально–делового, художественного и публицистического – и выдвинута
гипотеза о том, что возможно подобрать такие комбинации параметров,
которые позволят однозначно определять стиль исследуемого текста.
Сравнив коллекции текстов, принадлежащих к вышеуказанным
функциональным стилям, при помощи разработанного нами модуля
статистической обработки текстов, мы выделили параметры, позволяющие
наиболее точно разграничить документы, относящиеся к разным стилям. Эти
индексы легли в основу разработанного нами инструмента автоматического
определения стилистической принадлежности текстов. Проанализировав при
помощи данного инструмента по 65 текстов из собранных нами корпусов, мы
успешно классифицировали более 88% из них, причём наибольшая точность
была достигнута при классификации деловых и художественных текстов. Это
подтвердило наше первоначальное предположение о возможности
автоматической классификации документов, относящихся к разным функциональным стилям.
В дальнейшем представляется возможным изучить большее число
статистических характеристик отдельных текстов или их фрагментов, а также
усложнить параметры, используемые при классификации текстов.
Перспективы развития нашего исследования связаны:
1) с усложнением и совершенствованием разработанного нами
инструмента: например, за счёт использования большего числа
параметров разных типов (синтаксических, морфологических и др.)
отдельно, а также в комбинации с уже изученными индексами.
2) с расширением экспериментального материала и проведением
исследований по автоматической обработке бóльшего числа
корпусов текстов из других коллекций (например, текстов
разговорного стиля или текстов, относящихся к различным литературным жанрам).





