Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам
|
ВВЕДЕНИЕ 3
ГЛАВА 1. Теоретические основания для автоматической стилистической диагностики текстов на русском языке 6
1.1. Функциональные стили русского языка и их характеристики 6
1.1.1. Научный стиль 13
1.1.2. Художественный стиль 14
1.1.3. Деловой стиль 14
1.1.4. Публицистический стиль 16
1.2. Классификация текстовой информации 17
1.2.1. Методы дискриминантного анализа 21
1.2.2. Оценка качества работы алгоритма классификации текстовой информации 24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ 26
2.1. Используемое программное обеспечение 26
2.2. Требования к входным данным 26
2.3. Алгоритм работы компьютерного инструмента статистической
обработки текстов 28
2.4. Интерфейс компьютерного инструмента проведения статистической обработки текстов 31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ 34
3.1. Подготовка корпусов 34
3.2. Подбор характеризующих признаков 34
3.3. Ход экспериментов 36
3.4. Анализ данных 37
3.4.1. Анализ лексико-морфологических индексов 37
3.4.2. Анализ материала на основе данных о частеречной сочетаемости 41
3.4.3. Параметры длины слова и длины предложения 45
3.5. Инструмент автоматического определения стилистической принадлежности текстов 47
3.5.1. Описание алгоритма стилистической принадлежности текстов 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов 50
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 55
ПРИЛОЖЕНИЯ 63
ГЛАВА 1. Теоретические основания для автоматической стилистической диагностики текстов на русском языке 6
1.1. Функциональные стили русского языка и их характеристики 6
1.1.1. Научный стиль 13
1.1.2. Художественный стиль 14
1.1.3. Деловой стиль 14
1.1.4. Публицистический стиль 16
1.2. Классификация текстовой информации 17
1.2.1. Методы дискриминантного анализа 21
1.2.2. Оценка качества работы алгоритма классификации текстовой информации 24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ 26
2.1. Используемое программное обеспечение 26
2.2. Требования к входным данным 26
2.3. Алгоритм работы компьютерного инструмента статистической
обработки текстов 28
2.4. Интерфейс компьютерного инструмента проведения статистической обработки текстов 31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ 34
3.1. Подготовка корпусов 34
3.2. Подбор характеризующих признаков 34
3.3. Ход экспериментов 36
3.4. Анализ данных 37
3.4.1. Анализ лексико-морфологических индексов 37
3.4.2. Анализ материала на основе данных о частеречной сочетаемости 41
3.4.3. Параметры длины слова и длины предложения 45
3.5. Инструмент автоматического определения стилистической принадлежности текстов 47
3.5.1. Описание алгоритма стилистической принадлежности текстов 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов 50
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 55
ПРИЛОЖЕНИЯ 63
В последние годы очень быстрыми темпами развивается область обработки естественных языков (англ. Natural Language Processing, NLP). Во многом это связано с тем, что с каждым годом объём текстовой информации, используемой человечеством, увеличивается, и растёт потребность в более эффективных алгоритмах обработки и анализа документов, написанных на естественных языках. Особо важную роль играет возможность классифицировать получаемую информацию, используя компьютерные инструменты.
Таким образом, актуальность выбранной темы обусловлена необходимостью разработки новых методов автоматической обработки текстов и востребованностью новых методов классификации текстовой информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов текстов, представляющих различные функциональные стили русского языка (художественный, научный, деловой и публицистический). Объём каждого корпуса - 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы следующие задачи исследования:
• проанализировать ряд теоретических вопросов, связанных с выделением функциональных стилей текстов современного русского языка;
• выделить отличительные квантитативные характеристики для каждого стиля;
• сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
• проанализировать различные методы классификации текстовой информации;
• создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
• использовать разработанный компьютерный инструмент для обработки сформированных корпусов;
• оценить возможность автоматического определения
стилистической принадлежности текстов по выделенным характеристикам.
Методы исследования, использованные в работе, включают стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения
исследования, было подготовлено на языке python версии 2.7.13 и представляет собой реализацию алгоритма статистической обработки текста и определения его стилистической принадлежности. Всем словоупотреблениям в обрабатываемых текстах приписываются грамматические характеристики. Затем данные проходят автоматическую обработку, и проводится их исследовательская интерпретация. Систематизация полученных данных приводит к выявлению статистических параметров текста, а также к выявлению параметров, являющихся характеризующими для текстов, принадлежащих к разным функциональным стилям. Затем проводится определение стилистической принадлежности текста при помощи модуля стилистической диагностики, использующего выявленные ключевые параметры.
Теоретическая значимость исследования определяется тем, что в результате анализа корпуса текстов нам удаётся получить ценные данные о статистических характеристиках текстов различных функциональных стилей.
Практическая значимость работы заключается в том, что её результаты могут быть использованы в информационно-поисковых системах и при обработке больших объёмов текстовых данных.
Апробация исследования: основные положения исследования и полученные экспериментальные данные были представлены в докладе на XIX Открытой конференции студентов-филологов 20 апреля 2016 года.
Структура квалификационной работы: работа состоит из введения, трёх глав, заключения, списка использованной литературы и приложений.
Таким образом, актуальность выбранной темы обусловлена необходимостью разработки новых методов автоматической обработки текстов и востребованностью новых методов классификации текстовой информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов текстов, представляющих различные функциональные стили русского языка (художественный, научный, деловой и публицистический). Объём каждого корпуса - 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы следующие задачи исследования:
• проанализировать ряд теоретических вопросов, связанных с выделением функциональных стилей текстов современного русского языка;
• выделить отличительные квантитативные характеристики для каждого стиля;
• сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
• проанализировать различные методы классификации текстовой информации;
• создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
• использовать разработанный компьютерный инструмент для обработки сформированных корпусов;
• оценить возможность автоматического определения
стилистической принадлежности текстов по выделенным характеристикам.
Методы исследования, использованные в работе, включают стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения
исследования, было подготовлено на языке python версии 2.7.13 и представляет собой реализацию алгоритма статистической обработки текста и определения его стилистической принадлежности. Всем словоупотреблениям в обрабатываемых текстах приписываются грамматические характеристики. Затем данные проходят автоматическую обработку, и проводится их исследовательская интерпретация. Систематизация полученных данных приводит к выявлению статистических параметров текста, а также к выявлению параметров, являющихся характеризующими для текстов, принадлежащих к разным функциональным стилям. Затем проводится определение стилистической принадлежности текста при помощи модуля стилистической диагностики, использующего выявленные ключевые параметры.
Теоретическая значимость исследования определяется тем, что в результате анализа корпуса текстов нам удаётся получить ценные данные о статистических характеристиках текстов различных функциональных стилей.
Практическая значимость работы заключается в том, что её результаты могут быть использованы в информационно-поисковых системах и при обработке больших объёмов текстовых данных.
Апробация исследования: основные положения исследования и полученные экспериментальные данные были представлены в докладе на XIX Открытой конференции студентов-филологов 20 апреля 2016 года.
Структура квалификационной работы: работа состоит из введения, трёх глав, заключения, списка использованной литературы и приложений.
В данной работе мы подробно изучили вопрос о выделении различных функциональных стилей в современном русском языке и описали основные методы автоматической классификации текстов. Нами были выявлены характерные особенности четырёх стилей русского языка - научного, официально-делового, художественного и публицистического - и выдвинута гипотеза о том, что возможно подобрать такие комбинации параметров, которые позволят однозначно определять стиль исследуемого текста.
Сравнив коллекции текстов, принадлежащих к вышеуказанным функциональным стилям, при помощи разработанного нами модуля статистической обработки текстов, мы выделили параметры, позволяющие наиболее точно разграничить документы, относящиеся к разным стилям. Эти индексы легли в основу разработанного нами инструмента автоматического определения стилистической принадлежности текстов. Проанализировав при помощи данного инструмента по 65 текстов из собранных нами корпусов, мы успешно классифицировали более 88% из них, причём наибольшая точность была достигнута при классификации деловых и художественных текстов. Это подтвердило наше первоначальное предположение о возможности автоматической классификации документов, относящихся к разным функциональным стилям.
В дальнейшем представляется возможным изучить большее число статистических характеристик отдельных текстов или их фрагментов, а также усложнить параметры, используемые при классификации текстов.
Перспективы развития нашего исследования связаны:
1) с усложнением и совершенствованием разработанного нами инструмента: например, за счёт использования большего числа параметров разных типов (синтаксических, морфологических и др.) отдельно, а также в комбинации с уже изученными индексами.
2) с расширением экспериментального материала и проведением исследований по автоматической обработке большего числа корпусов текстов из других коллекций (например, текстов разговорного стиля или текстов, относящихся к различным литературным жанрам).
Сравнив коллекции текстов, принадлежащих к вышеуказанным функциональным стилям, при помощи разработанного нами модуля статистической обработки текстов, мы выделили параметры, позволяющие наиболее точно разграничить документы, относящиеся к разным стилям. Эти индексы легли в основу разработанного нами инструмента автоматического определения стилистической принадлежности текстов. Проанализировав при помощи данного инструмента по 65 текстов из собранных нами корпусов, мы успешно классифицировали более 88% из них, причём наибольшая точность была достигнута при классификации деловых и художественных текстов. Это подтвердило наше первоначальное предположение о возможности автоматической классификации документов, относящихся к разным функциональным стилям.
В дальнейшем представляется возможным изучить большее число статистических характеристик отдельных текстов или их фрагментов, а также усложнить параметры, используемые при классификации текстов.
Перспективы развития нашего исследования связаны:
1) с усложнением и совершенствованием разработанного нами инструмента: например, за счёт использования большего числа параметров разных типов (синтаксических, морфологических и др.) отдельно, а также в комбинации с уже изученными индексами.
2) с расширением экспериментального материала и проведением исследований по автоматической обработке большего числа корпусов текстов из других коллекций (например, текстов разговорного стиля или текстов, относящихся к различным литературным жанрам).



