ВВЕДЕНИЕ .............................................................................................................. 3
ГЛАВА 1. Теоретические основания для автоматической стилистической
диагностики текстов на русском языке................................................................. 6
1.1. Функциональные стили русского языка и их характеристики .............. 6
1.1.1. Научный стиль .................................................................................... 13
1.1.2. Художественный стиль ...................................................................... 14
1.1.3. Деловой стиль ..................................................................................... 14
1.1.4. Публицистический стиль................................................................... 16
1.2. Классификация текстовой информации ................................................. 17
1.2.1. Методы дискриминантного анализа ................................................ 21
1.2.2. Оценка качества работы алгоритма классификации текстовой
информации ..................................................................................................... 24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ .......... 26
2.1. Используемое программное обеспечение .............................................. 26
2.2. Требования к входным данным............................................................... 26
2.3. Алгоритм работы компьютерного инструмента статистической
обработки текстов .............................................................................................. 28
2.4. Интерфейс компьютерного инструмента проведения статистической
обработки текстов .............................................................................................. 31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ
АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ.......................................................................... 34
3.1. Подготовка корпусов................................................................................ 34
3.2. Подбор характеризующих признаков..................................................... 34
3.3. Ход экспериментов ................................................................................... 36
3.4. Анализ данных .......................................................................................... 37
3.4.1. Анализ лексико–морфологических индексов ................................. 37
3.4.2. Анализ материала на основе данных о частеречной сочетаемости 41
3.4.3. Параметры длины слова и длины предложения ............................. 45
3.5. Инструмент автоматического определения стилистической
принадлежности текстов ................................................................................... 47
3.5.1. Описание алгоритма стилистической принадлежности текстов... 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов .................................................... 50
ЗАКЛЮЧЕНИЕ ..................................................................................................... 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ............................................. 55
ПРИЛОЖЕНИЕ А. Код программы автоматического определения
стилистической принадлежности текстов .......................................................... 63
ПРИЛОЖЕНИЕ Б. Перечень текстов, использованных при создании
корпусов ................................................................................................................. 69
В последние годы очень быстрыми темпами развивается область
обработки естественных языков (англ. Natural Language Processing, NLP). Во
многом это связано с тем, что с каждым годом объём текстовой информации,
используемой человечеством, увеличивается, и растёт потребность в более
эффективных алгоритмах обработки и анализа документов, написанных на
естественных языках. Особо важную роль играет возможность
классифицировать получаемую информацию, используя компьютерные инструменты.
Таким образом, актуальность выбранной темы обусловлена
необходимостью разработки новых методов автоматической обработки
текстов и востребованностью новых методов классификации текстовой
информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов
текстов, представляющих различные функциональные стили русского языка
(художественный, научный, деловой и публицистический). Объём каждого
корпуса – 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного
инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы
следующие задачи исследования:
• проанализировать ряд теоретических вопросов, связанных с
выделением функциональных стилей текстов современного русского языка;
• выделить отличительные квантитативные характеристики для каждого стиля;
• сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
• проанализировать различные методы классификации текстовой информации;
• создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
• использовать разработанный компьютерный инструмент для
обработки сформированных корпусов;
• оценить возможность автоматического определения
стилистической принадлежности текстов по выделенным характеристикам.
Методы исследования, использованные в работе, включают
стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения
исследования, было подготовлено на языке python версии 2.7.13 и
представляет собой реализацию алгоритма статистической обработки текста
и определения его стилистической принадлежности. Всем
словоупотреблениям в обрабатываемых текстах приписываются
грамматические характеристики. Затем данные проходят автоматическую
обработку, и проводится их исследовательская интерпретация.
Систематизация полученных данных приводит к выявлению статистических
параметров текста, а также к выявлению параметров, являющихся
характеризующими для текстов, принадлежащих к разным функциональным
стилям. Затем проводится определение стилистической принадлежности
текста при помощи модуля стилистической диагностики, использующего
выявленные ключевые параметры.
Теоретическая значимость исследования определяется тем, что в
результате анализа корпуса текстов нам удаётся получить ценные данные о
статистических характеристиках текстов различных функциональных стилей.
Практическая значимость работы заключается в том, что её
результаты могут быть использованы в информационно–поисковых системах
и при обработке больших объёмов текстовых данных.
Апробация исследования: основные положения исследования и
полученные экспериментальные данные были представлены в докладе на
XIX Открытой конференции студентов-филологов 20 апреля 2016 года.
Структура квалификационной работы: работа состоит из введения,
трёх глав, заключения, списка использованной литературы и приложений.
В данной работе мы подробно изучили вопрос о выделении различных
функциональных стилей в современном русском языке и описали основные
методы автоматической классификации текстов. Нами были выявлены
характерные особенности четырёх стилей русского языка – научного,
официально–делового, художественного и публицистического – и выдвинута
гипотеза о том, что возможно подобрать такие комбинации параметров,
которые позволят однозначно определять стиль исследуемого текста.
Сравнив коллекции текстов, принадлежащих к вышеуказанным
функциональным стилям, при помощи разработанного нами модуля
статистической обработки текстов, мы выделили параметры, позволяющие
наиболее точно разграничить документы, относящиеся к разным стилям. Эти
индексы легли в основу разработанного нами инструмента автоматического
определения стилистической принадлежности текстов. Проанализировав при
помощи данного инструмента по 65 текстов из собранных нами корпусов, мы
успешно классифицировали более 88% из них, причём наибольшая точность
была достигнута при классификации деловых и художественных текстов. Это
подтвердило наше первоначальное предположение о возможности
автоматической классификации документов, относящихся к разным функциональным стилям.
В дальнейшем представляется возможным изучить большее число
статистических характеристик отдельных текстов или их фрагментов, а также
усложнить параметры, используемые при классификации текстов.
Перспективы развития нашего исследования связаны:
1) с усложнением и совершенствованием разработанного нами
инструмента: например, за счёт использования большего числа
параметров разных типов (синтаксических, морфологических и др.)
отдельно, а также в комбинации с уже изученными индексами.
2) с расширением экспериментального материала и проведением
исследований по автоматической обработке бóльшего числа
корпусов текстов из других коллекций (например, текстов
разговорного стиля или текстов, относящихся к различным литературным жанрам).
1. Азимов Э. Г., Щукин А. Н. Новый словарь методических
терминов и понятий (теория и практика обучения языкам). – М.:
Издательство ИКАР, 2009. 448 с.
2. Андреев В.С. Классификация стихотворных текстов (на
материале лирики американских поэтов романтиков): автореф. дис. ... канд.
филол. наук. Смоленск, 2002.
3. Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение
стилевых и жанровых характеристик коллекций текстов на основе
частеречной сочетаемости // Труды международной конференции
«Корпусная лингвистика–2011». – СПб.: С.–Петербургский гос. университет,
Филологический факультет, 2011. URL:
http://webground.su/data/lit/antonova_klyshinsky_yagunova/Opredeleniye_stilevy
h_i_zhanrovyh_kharakteristik.pdf (дата последнего обращения: 17.05.2017)
4. Бикмуканова С. И. Публицистический стиль и его
функционирование // Science Time. 2014. No12 (12). С. 36–37
URL: http://cyberleninka.ru/article/n/publitsisticheskiy-stil-i-ego-
funktsionirovanie (дата последнего обращения: 17.05.2017).
5. Березин Ф.М., Головин Б.Н. Общее языкознание. М.:
Просвещение, 1979. 415 с.
6. Большаков А.А., Каримов Р.Н. Методы обработки многомерных
данных и временных рядов. М.: Горячая линия – Телеком, 2007. 522 с.
7. Бондарь А. С., Каширина Н. А. Особенности перевода клише в
текстах газетно–публицистического стиля // Символ науки. 2016. No2–3. С. 52–54
URL: http://cyberleninka.ru/article/n/osobennosti-perevoda-klishe-v-tekstah-
gazetno-publitsisticheskogo-stilya (дата последнего обращения: 17.05.2017).
8. Браславский П. Опыт автоматической классификации текстов по
стилям (на материале документов Internet) // Русский язык в Интернете.
Сб. статей. Казань, 2003. С. 6–15.
9. Бритиков А. Ф. Отечественная научно–фантастическая
литература (1917–1991 годы). Книга вторая. Некоторые проблемы истории и
теории жанра. Изд. 2–е, испр. и доп. СПб: Творческий центр «Борей–арт», 2005. 229 с.
10. Будагов Р.А. Литературные языки и языковые стили. М.: Высшая школа, 1967. 376 с.
11. Вартан А. Ю. Классификация ресурсов из сети Интернет по
направлениям наркоторговля, терроризм, экстремизм // Вестник Югорского
государственного университета. 2015. NoS2 (37).
URL: http://cyberleninka.ru/article/n/klassifikatsiya-resursov-iz-seti-internet-
po-napravleniyam-narkotorgovlya-terrorizm-ekstremizm (дата последнего
обращения: 17.05.2017).
12. Васнецов А.Г. Сравнение эффективности некоторых
статистических методов классификации на примере технических статей //
Молодежный научно–технический вестник. 2015. No2.
13. Веревкина О.И., Донцова М.Д., Пушкина Т.А., Реброва П.В.
Разработка и тестирование инструментов грамматического и лексико–
семантического профилирования (на материале выборок из НКРЯ) //
Материалы XXII международной филологической конференции. секция
прикладной и математической лингвистики. СПб., 2013.
14. Виноградов В.В. Итоги обсуждения вопросов стилистики //
Вопросы языкознания. – 1955. – No 1. С. 85;
15. Виноградов В.В. К теории литературных стилей (Виноградов
В.В. Избранные труды. О языке художественной прозы. — М., 1980. С. 240–249)
URL: http://philology.ru/linguistics2/vinogradov-80.htm (дата последнего
обращения: 17.05.2017)
...