ВВЕДЕНИЕ 3
ГЛАВА 1. Теоретические основания для автоматической стилистической диагностики текстов на русском языке 6
1.1. Функциональные стили русского языка и их характеристики 6
1.1.1. Научный стиль 13
1.1.2. Художественный стиль 14
1.1.3. Деловой стиль 14
1.1.4. Публицистический стиль 16
1.2. Классификация текстовой информации 17
1.2.1. Методы дискриминантного анализа 21
1.2.2. Оценка качества работы алгоритма классификации текстовой информации 24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ 26
2.1. Используемое программное обеспечение 26
2.2. Требования к входным данным 26
2.3. Алгоритм работы компьютерного инструмента статистической
обработки текстов 28
2.4. Интерфейс компьютерного инструмента проведения статистической обработки текстов 31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ 34
3.1. Подготовка корпусов 34
3.2. Подбор характеризующих признаков 34
3.3. Ход экспериментов 36
3.4. Анализ данных 37
3.4.1. Анализ лексико-морфологических индексов 37
3.4.2. Анализ материала на основе данных о частеречной сочетаемости 41
3.4.3. Параметры длины слова и длины предложения 45
3.5. Инструмент автоматического определения стилистической принадлежности текстов 47
3.5.1. Описание алгоритма стилистической принадлежности текстов 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов 50
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 55
ПРИЛОЖЕНИЯ 63
В последние годы очень быстрыми темпами развивается область обработки естественных языков (англ. Natural Language Processing, NLP). Во многом это связано с тем, что с каждым годом объём текстовой информации, используемой человечеством, увеличивается, и растёт потребность в более эффективных алгоритмах обработки и анализа документов, написанных на естественных языках. Особо важную роль играет возможность классифицировать получаемую информацию, используя компьютерные инструменты.
Таким образом, актуальность выбранной темы обусловлена необходимостью разработки новых методов автоматической обработки текстов и востребованностью новых методов классификации текстовой информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов текстов, представляющих различные функциональные стили русского языка (художественный, научный, деловой и публицистический). Объём каждого корпуса - 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы следующие задачи исследования:
• проанализировать ряд теоретических вопросов, связанных с выделением функциональных стилей текстов современного русского языка;
• выделить отличительные квантитативные характеристики для каждого стиля;
• сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
• проанализировать различные методы классификации текстовой информации;
• создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
• использовать разработанный компьютерный инструмент для обработки сформированных корпусов;
• оценить возможность автоматического определения
стилистической принадлежности текстов по выделенным характеристикам.
Методы исследования, использованные в работе, включают стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения
исследования, было подготовлено на языке python версии 2.7.13 и представляет собой реализацию алгоритма статистической обработки текста и определения его стилистической принадлежности. Всем словоупотреблениям в обрабатываемых текстах приписываются грамматические характеристики. Затем данные проходят автоматическую обработку, и проводится их исследовательская интерпретация. Систематизация полученных данных приводит к выявлению статистических параметров текста, а также к выявлению параметров, являющихся характеризующими для текстов, принадлежащих к разным функциональным стилям. Затем проводится определение стилистической принадлежности текста при помощи модуля стилистической диагностики, использующего выявленные ключевые параметры.
Теоретическая значимость исследования определяется тем, что в результате анализа корпуса текстов нам удаётся получить ценные данные о статистических характеристиках текстов различных функциональных стилей.
Практическая значимость работы заключается в том, что её результаты могут быть использованы в информационно-поисковых системах и при обработке больших объёмов текстовых данных.
Апробация исследования: основные положения исследования и полученные экспериментальные данные были представлены в докладе на XIX Открытой конференции студентов-филологов 20 апреля 2016 года.
Структура квалификационной работы: работа состоит из введения, трёх глав, заключения, списка использованной литературы и приложений.
В данной работе мы подробно изучили вопрос о выделении различных функциональных стилей в современном русском языке и описали основные методы автоматической классификации текстов. Нами были выявлены характерные особенности четырёх стилей русского языка - научного, официально-делового, художественного и публицистического - и выдвинута гипотеза о том, что возможно подобрать такие комбинации параметров, которые позволят однозначно определять стиль исследуемого текста.
Сравнив коллекции текстов, принадлежащих к вышеуказанным функциональным стилям, при помощи разработанного нами модуля статистической обработки текстов, мы выделили параметры, позволяющие наиболее точно разграничить документы, относящиеся к разным стилям. Эти индексы легли в основу разработанного нами инструмента автоматического определения стилистической принадлежности текстов. Проанализировав при помощи данного инструмента по 65 текстов из собранных нами корпусов, мы успешно классифицировали более 88% из них, причём наибольшая точность была достигнута при классификации деловых и художественных текстов. Это подтвердило наше первоначальное предположение о возможности автоматической классификации документов, относящихся к разным функциональным стилям.
В дальнейшем представляется возможным изучить большее число статистических характеристик отдельных текстов или их фрагментов, а также усложнить параметры, используемые при классификации текстов.
Перспективы развития нашего исследования связаны:
1) с усложнением и совершенствованием разработанного нами инструмента: например, за счёт использования большего числа параметров разных типов (синтаксических, морфологических и др.) отдельно, а также в комбинации с уже изученными индексами.
2) с расширением экспериментального материала и проведением исследований по автоматической обработке большего числа корпусов текстов из других коллекций (например, текстов разговорного стиля или текстов, относящихся к различным литературным жанрам).
1. Азимов Э. Г., Щукин А. Н. Новый словарь методических терминов и понятий (теория и практика обучения языкам). - М.: Издательство ИКАР, 2009. 448 с.
2. Андреев В.С. Классификация стихотворных текстов (на материале лирики американских поэтов романтиков): автореф. дис. ... канд. филол. наук. Смоленск, 2002.
3. Антонова А.Ю., Клышинский Э.С., Ягунова Е.В. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости // Труды международной конференции «Корпусная лингвистика-2011». - СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011
URL:
http://webground.su/data/lit/antonova klyshinsky yagunova/Opredeleniye stilevy h i zhanrovyh kharakteristik.pdf (дата последнего обращения: 17.05.2017)
4. Бикмуканова С. И. Публицистический стиль и его функционирование // Science Time. 2014. №12 (12). С. 36-37
URL: http://cyberleninka.ru/article/n/publitsisticheskiy-stil-i-ego-
funktsionirovanie (дата последнего обращения: 17.05.2017).
5. Березин Ф.М., Головин Б.Н. Общее языкознание. М.: Просвещение, 1979. 415 с.
6. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов. М.: Горячая линия - Телеком, 2007. 522 с.
7. Бондарь А. С., Каширина Н. А. Особенности перевода клише в текстах газетно-публицистического стиля // Символ науки. 2016. №2-3. С. 52-54
URL: http://cyberleninka.ru/article/n/osobennosti-perevoda-klishe-v-tekstah- gazetno-publitsisticheskogo-stilya (дата последнего обращения: 17.05.2017).
8. Браславский П. Опыт автоматической классификации текстов по стилям (на материале документов Internet) // Русский язык в Интернете. Сб. статей. Казань, 2003. С. 6-15.
9. Бритиков А. Ф. Отечественная научно-фантастическая литература (1917-1991 годы). Книга вторая. Некоторые проблемы истории и теории жанра. Изд. 2-е, испр. и доп. СПб: Творческий центр «Борей-арт», 2005. 229 с.
10. Будагов Р.А. Литературные языки и языковые стили. М.: Высшая школа, 1967. 376 с.
11. Вартан А. Ю. Классификация ресурсов из сети Интернет по направлениям наркоторговля, терроризм, экстремизм // Вестник Югорского государственного университета. 2015. №S2 (37).
URL: http://cyberleninka.ru/article/n/klassifikatsiya-resursov-iz-seti-internet- po-napravleniyam-narkotorgovlya-terrorizm-ekstremizm (дата последнего
обращения: 17.05.2017).
12. Васнецов А.Г. Сравнение эффективности некоторых статистических методов классификации на примере технических статей // Молодежный научно-технический вестник. 2015. №2.
13. Веревкина О.И., Донцова М.Д., Пушкина Т.А., Реброва П.В. Разработка и тестирование инструментов грамматического и лексико-семантического профилирования (на материале выборок из НКРЯ) // Материалы XXII международной филологической конференции. секция прикладной и математической лингвистики. СПб., 2013.
14. Виноградов В.В. Итоги обсуждения вопросов стилистики // Вопросы языкознания. - 1955. - № 1. С. 85;
15. Виноградов В.В. К теории литературных стилей (Виноградов В.В. Избранные труды. О языке художественной прозы. — М., 1980. С. 240¬249)
URL: http://philology.ru/linguistics2/vinogradov-80.htm (дата последнего обращения: 17.05.2017)
16. Виноградов В. В. Стилистика. Теория поэтической речи. Поэтика. М., 1963.
17. Винокур. Культура языка. М., 1929
18. Винокур Г.О. Об изучении языка литературных произведений (Винокур Г.О. Избранные работы по русскому языку. — М., 1959. С. 229-259)
URL: http://philology.ru/linguistics2/vinokur-59i.htm (дата последнего
обращения: 17.05.2017)
19. Воройский Ф.С. Информатика. Новый систематизированный толковый словарь-справочник. — 3-е изд.. — М.: ФИЗМАТЛИТ, 2003. — 760 с. — (Введение в современные информационные и телекоммуникационные технологии в терминах и фактах).
20. Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин) - 2012. — 160 c.
URL: http://docplayer.ru/2064-K-v-voroncov-http-www-ccas-ru-voron-
voron-ccas-ru.html (дата последнего обращения: 17.05.2017)
21. Востоков А.Х. Русская грамматика. СПб, 1831. — 449 с.
URL:
https://books.google.ru/books?id=JDhAAAAAYAAJ&pg=PR7&hl=ru&source=g bs selected pages&cad=2#v=onepage&q&f=false (дата последнего обращения: 17.05.2017)
22. Головин Б.Н. Основы культуры речи. М., 1988. 320 с.
23. Горшков А.И. Русская стилистика. Стилистика текста и функциональная стилистика: учеб. для педагогических университетов и гуманитарных вузов / А.И. Горшков - М., АСТ: Астрель, 2006. 367 с.
24. Гулин В. В. Методы снижения размерности признакового описания документов в задаче классификации текстов. Вестник МЭИ №2 2013. С. 115-121.
25. Епрев А. С. Автоматическая классификация текстовых документов // МСиМ. 2010. №1 (21).
URL: http: //cyberleninka.ru/article/n/avtomaticheskaya-klassifikatsiya-
tekstovyh-dokumentov-1 (дата последнего обращения: 17.05.2017).
26. Ермолаева Ю. Е. Классификация стихотворных текстов методом дискриминантного анализа // Вестник ТГУ. 2009. №7.
URL: http://cyberleninka.ru/article/n/klassifikatsiya-stihotvornyh-tekstov-
metodom-diskriminantnogo-analiza (дата последнего обращения: 17.05.2017).
27. Журавлев А. Ф. Опыт квантитативно-типологического исследования разновидностей устной речи // Разновидности городской устной речи: Сборник научных трудов. - М.: Наука, 1988.
28. Зайцева Т. В., Васина Н. В., Пусная О. П., Смородина Н. Н. Программная реализация метода деревьев решений для решения задач классификации и прогнозирования // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. 2013. №8¬1 (151).
URL: http://cyberleninka.ru/article/n/programmnaya-realizatsiya-metoda-
dereviev-resheniy-dlya-resheniya-zadach-klassifikatsii-i-prognozirovaniya (дата последнего обращения: 17.05.2017).
29. Калмыков А. А., Коханова Л. А. Интернет-журналистика. М.: ЮНИТИ-ДАНА, 2005. 383 с.
30. Клышинский Э.С., Кочеткова Н.А., Мансурова О.Ю.,
Ягунова Е.В., Максимов В.Ю., Карпик О.В. Формирование модели сочетаемости слов русского языка и исследование ее свойств Москва // Препринты ИПМ им. М.В. Келдыша. 2013. № 41. 23 с.
31. Кожина М.Н. О соотношении стилей языка и стилей речи с позиций языка как функционирующей системы // Принципы функционирования языка в его речевых разновидностях. Пермь, 1984.
32. Кожина М. Н. Стилистика русского языка: учеб. для студентов пед. ин-тов по специальности "Рус. яз. и лит." / М. Н. Кожина. - Изд. 3-е., перераб. и доп. - М. : Просвещение, 1993. 223 с.
33. Левитин А.В. "Алгоритмы: введение в разработку и анализ" Вильямс, 2006. — С. 409-417. 576 с.
34. Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. - М.: Советская энциклопедия, 1990 [Электронный ресурс].
URL: http://tapemark.narod.ru/les/index.html (дата последнего обращения: 17.05.2017)
35. Ломоносов М. В. Предисловие о пользе книг церковных в российском языке // Ломоносов М. В. Полн. собр. соч. — Т. 7. — М.; Л.: Изд- во АН СССР, 1952. С. 589—590.
36. Ляшевская О.Н., Митрофанова О.А., Грачкова М.А., Шиморина
А.С., Шурыгина А.С., Романов С.В. К построению инвентаря русских именных конструкций // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции
«Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18). - М.: Изд-во РГГУ, 2012.
37. Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. - Л. : Изд-во Ленингр. ун-та, 1990. 164 с.
38. Митрофанова О.А., Грачкова М.А., Шиморина А.С., Ляшевская О.Н. Лексические, семантические и морфологические признаки контекстов в разрешении неоднозначности русских существительных // XXXIX Международная филологическая конференция. Секция математической лингвистики. СПб., 2010.
39. Москвин В.П. Стилистика русского языка. Теоретический курс. - Ростов-на-Дону: Феник, 2006. 630 с.
40. Мурашова Л. П. Отечественная функциональная лингвистика // Научный вестник ЮИМ. 2017. №1.
URL: http://cyberleninka.ru/article/n/otechestvennaya-funktsionalnaya-
lingvistika (дата последнего обращения: 17.05.2017).
Одинцов В. В. Стилистика текста. М., 1980. С. 78.
42. Паничева П.В., Протопопова Е.В., Митрофанова О.А., Мирзагитова А.Р. Разработка лингвистического комплекса для морфологического анализа русскоязычных корпусов текстов на основе Pymorphy и NLTK // Труды международной конференции «Корпусная лингвистика - 2015». СПб., 2015. С. 361-373.
URL:
http://mathling.phil.spbu.ru/sites/default/files/CORPORA2015 PyMorphy+NLTK 11.05.pdf (дата последнего обращения: 17.05.2017).
43. Панова Н.Ф., Денисова Н.В. Классификация студентов по уровню успеваемости с помощью аппарата дискриминантного анализа // Вестник ОГУ. 2014. №8 (169).
URL: http: //cyberleninka.ru/article/n/klassifikatsiya- studentov-po-urovnyu-
uspevaemosti-s-pomoschyu-apparata-diskriminantnogo-analiza (дата последнего обращения: 17.05.2017).
44. Поспелова А.Г., Ягунова Е.В.. Категоризация коллекций текстов на основе низкоуровневых параметров текста // Конференция AINL 2014: Искусственный интеллект и естественный язык
45. Поспелова А. Г., Ягунова Е. В. Опыт применения стилевых и жанровых характеристик для описания стилевых особенностей коллекций текстов // Новые информационные технологии в автоматизированных системах. 2014. №17.
URL: http://cyberleninka.ru/article/n/opyt-primeneniya-stilevyh-i-zhanrovyh- harakteristik-dlya-opisaniya-stilevyh-osobennostey-kollektsiy-tekstov (дата
последнего обращения: 17.05.2017).
46. Прохоров Г. С. Что такое «Художественная публицистика»? // Новый филологический вестник. 2012. №3 (22).
URL: http://cyberleninka.ru/article/n/chto-takoe-hudozhestvennaya-
publitsistika (дата последнего обращения: 17.05.2017).
47. Современная газетная публицистика. Проблемы стиля // Ответственный редактор И.П.Лысакова, К.А.Рогова. - Л., 1987. С.34
48. Справочник по русскому языку. Практическая стилистика. /
Розенталь Д. Э. - М.: издательский дом «ОНИКС 21 век»: Мир и
образование, 2001. 381 с.
49. Стилистика русского языка / Под ред. Н. М. Шанского. 2-е изд., доработанное. Л., 1989.
50. Теплова И.И. Специфика преподавания курса «Стилистика русского языка» для студентов-переводчиков // Вестник ННГУ. 2011. №6-2. С.664-666.
URL: http:ZZcyberleninka.ru/articleZn/spetsifika-prepodavaniya-kursa-
stilistika-russkogo-yazyka-dlya-studentov-perevodchikov (дата последнего обращения: 17.05.2017).
51. Функциональные стили и формы речи / ред. проф. О.Б. Сиротинина - Саратов : Издательство Саратовского университета, 1993. 167 с.
52. Хомутова Т. Н., Петров С. Г. Научно-популярный текст: интегральная модель // Вестник ЮУрГУ. Серия: Лингвистика. 2013. №2.
URL: http: ZZcyberleninka.ru/articleZn/nauchno-populyarnyy-tekst-
integralnaya-model (дата последнего обращения: 17.05.2017).
53. Шмелев Д. Н. Русский язык в его функциональных разновидностях. М., 1977. С. 34.
54. Apte C., Damerau F. J. and Weiss S.M. 1994. Automated learning of decision rules for text categorization. ACM Trans. on Inform. Syst. 12, 3, 233-251.
55. Bagavandas M., Manimannan G. Style Consistency and Authorship Attribution. A Statistical Investigation ZZ Journal of Quantitative Linguistics. 2008. № 15 (1). Р. 100-110.
56. Cleuziou G., Poudat C. On the impact of Lexical and Linguistic features in Genre and Domain-Based Text Categorization Z Proceedings of the Eighth International Conference on Intelligent Text Processing and Computational Linguistics, February 2007.
Fisher, R.A. The Use of Multiple Measurements in Taxonomic
Problems // Annals of Eugenics. — 1936 T. 7. P. 179-188.
58. Garson, G. D. Discriminant Function Analysis. Asheboro, NC: Statistical Associates Publishers. — 2012.
URL: https://web.archive.org/web/20080312065328/http://www2.chass.ncsu.edu:80/gars on/pA765/discrim.htm (дата последнего обращения: 17.05.2017)
59. Klecka, William R. Discriminant analysis. Quantitative Applications in the Social Sciences Series, No. 19. Thousand Oaks, CA: Sage Publications. — 1980
60. Manning Chr. D., Raghavan Pr., Schutze H. Introduction to Information Retrieval, Cambridge University Press — 2008
URL: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (дата
последнего обращения: 17.05.2017).
61. Ng A. Stanford CS229 Lecture Notes, 2011. 30 p.
URL: http://cs229.stanford.edu/notes/cs229-notes1.pdf (дата последнего
обращения: 17.05.2017)
62. Sebastiani F. Text Categorization // Text Mining and Its Applications, WIT Press, Southhampton, UK, 2005. pp.109-129
63. StatSoft. Электронный учебник по статистике [электронный ресурс].
UPL: http://statsoft.ru/home/textbook/modules/stdiscan. html (дата
последнего обращения: 17.05.2017)