Введение 4
Глава I. Теоретическая база: исследования идиостиля и жанрово-стилевых особенностей М. М. Пришвина 7
1.1. Анализ подходов к исследованию идиостиля 7
1.2. Типология стилей и жанров 25
1.3. Жанр дневниковых записей 30
1.4. Жанрово-стилевые особенности произведений М. М. Пришвина 33
1.5. Анализ исследований дневниковых записей 36
1.6. Анализ исследования прозы 40
1.7. Основные диагностические признаки для жанрово-стилевой
дифференциации текстов 44
1.8. Выводы к Главе I 50
Глава II. Компьютерные методы определения лингвостатистических параметров произведений М. М. Пришвина 52
2.1. Отбор текстов и создание корпуса. Расчет метрик и статистических
параметров 52
2.2. Создание и анализ частотного словаря 62
2.3. Извлечение и анализ ключевых слов 65
2.4. Извлечение и анализ биграмм, именованных сущностей 68
2.5. Выводы к Главе II 72
Глава III. Экспериментальная проверка точности различения дневниковых записей и прозы М. М. Пришвина 74
3.1. Методы классификации текстов 74
3.2. Эксперимент по классификации текстов М. М. Пришвина 77
3.3. Опрос респондентов: определение прозы и дневниковых записей 79
3.4. Выводы к Главе III 82
Заключение 84
Список литературы 86
Материал исследования 97
ПРИЛОЖЕНИЕ А. Код частеречной разметки 100
ПРИЛОЖЕНИЕ Б. Код подсчета по файлам с частеречной разметкой 101
ПРИЛОЖЕНИЕ В. Код лемматизации 103
ПРИЛОЖЕНИЕ Г. Код статистики предложений 105
ПРИЛОЖЕНИЕ Д. Код библиотеки ruts и метрики лексического разнообразия 106
ПРИЛОЖЕНИЕ Е.1. Подсчет параметров по методу распознавания образов для подкорпуса дневников 108
ПРИЛОЖЕНИЕ Е.2. Подсчет параметров по методу распознавания образов для подкорпуса прозы 111
ПРИЛОЖЕНИЕ Ж. Проверка критерия Стьюдента для параметров 114
ПРИЛОЖЕНИЕ И.1. Корреляционная матрица параметров подкорпуса дневников 115
ПРИЛОЖЕНИЕ И.2. Корреляционная матрица параметров подкорпуса прозы 116
ПРИЛОЖЕНИЕ К. Код создания частотного словаря 117
ПРИЛОЖЕНИЕ Л. Код для извлечения биграмм 119
ПРИЛОЖЕНИЕ М. Код для извлечения именованных сущностей 120
ПРИЛОЖЕНИЕ Н. Код для классификации 122
В настоящее время наблюдается новый рост интереса исследователей к стилеметрическим исследованиям, в особенности лингвистическое профилирование. Существует множество работ по диагностике психологических особенностей и личностных черт говорящих, основанных на статистических методах. Тем не менее, когда речь идет о литературных произведениях, анализ проводится «традиционными» методами: зачастую ученые работают с текстом вручную. Кроме того, в качестве исследовательского материала отбираются лишь отдельные авторы, к примеру, Л. Н. Толстой, Ф. М. Достоевский, В. В. Маяковский, Н. А. Некрасов, М. А. Шолохов, А. А. Шаховской, И. А. Бунин, А. И. Куприн, в то время как другие игнорируются или получают недостаточное количество внимания. Зачастую, если у автора помимо произведений есть дневниковые записи, анализируется только одно из двух, не говоря уже о сопоставлении результатов.
В связи с этим, актуальность данной работы заключается в материале и подходе. Для изучения выбран М. М. Пришвин — не только талантливый писатель, но и создатель богатого дневника, представляющего из себя срез эпохи. Проза и личные записи будут параллельно изучены с целью выявления и сравнения разнящихся и совпадающих черт текстов обоих типов с помощью корпусных методов.
Новизна исследования вытекает из использования моделей машинного обучения и статистических подходов для выявления стилистических особенностей текстов автора и разграничения их жанров.
Объектом исследования являются дневниковые записи и проза М. М. Пришвина. Предметом исследования являются особенности идиостиля дневниковых записей и прозы М. М. Пришвина.
Цель исследования состоит в выявлении лингвостатистических параметров идиостиля автора и их применении для установления стилистических отличий двух жанров творчества М. М. Пришвина: прозы и дневников.
Для достижения поставленной цели необходимо решить следующие задачи:
1) провести анализ подходов к исследованию идиостиля в компьютерной лингвистике, лексикографии, психолингвистике;
2) описать основные диагностические признаки, используемые в прикладных исследованиях по стилеметрии и автороведению, соотнести значимость данных признаков для определения жанрово-стилевой принадлежности текста и для определения индивидуальных характеристик его автора;
3) произвести и обосновать отбор авторских текстов для проведения экспериментов (проза и дневниковые записи М. Пришвина);
4) разработать корпус текстов с метаразметкой (тип текста — проза или дневниковые записи, дата создания, источник) и лингвистической разметкой (частеречная разметка);
5) провести эксперименты по определению количественных оценок лингвостатистических признаков текстов разных жанров;
6) провести сравнительный анализ лингвостатистических параметров для текстов для подкорпусов прозы и для дневниковых записей;
7) обобщить результаты экспериментов, сделать выводы об информативности лингвостатистических параметров в отношении идиостиля и жанрово-стилевой принадлежности текстов;
8) выделить лингвостатистические параметры, информативные в отношении разграничений жанров автора текстов;
9) провести эксперимент по классификации с применением машинного обучения и опроса респондентов.
Гипотезы, выдвигаемые и проверяемые в ходе исследования:
1) лингвостатистические параметры, определенные в стилеметрии и атрибуции авторства, применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов;
2) тексты прозаических произведений и дневниковых записей различны с точки зрения их жанрово-стилевой принадлежности;
3) лингвостатистические параметры, общие для текстов одного автора, являются потенциально информативными с точки зрения идиостиля.
Методами исследования в данной работе являются:
1) сравнительно-сопоставительный анализ;
2) измерение параметров идиостиля автора;
3) эксперимент по классификации;
4) метод экспертных оценок;
5) компьютерные методы обработки текста...
В данной работе были подробно изучены методы и алгоритмы исследования идиостиля в различных сферах, таких как лингвистика, лексикография, психолингвистика. После получения общего представления о степени рассмотрения вопроса, были проанализированных более специализированные материалы, связанные с диагностическими признаками в стилеметрии, из которых и были выбраны параметры для дифференциации прозы и дневников М. М. Пришвина. Для проведения исследований был собран корпус прозы и дневников М. М. Пришвина, имеющий частеречную разметку и лемматизированную форму.
В ходе исследования было выявлено, что эффективными для различения прозы являются отношение числа личных местоимений к числу словоформ в тексте, отношение числа междометий к числу словоформ в тексте, индекс удобочитаемости Флеша, индекс Жиро, скорректированное TTR, или TTR^), статистика предлогов (под/над, в/из, в/на, за/перед), число подчиненных предложений без спрягаемой формы глагола, число обособленных членов, число членов в группах обособленных членов, анализ частотных словарей, ключевых слов и оценка концентрации именованных сущностей.
После проведения эксперимента классификация был сделан вывод, что для различения дневников и прозы М. М. Пришвина лучше всего подходят такие алгоритмы, как SVM, NB, KNN, а также классификация по дельте Берроуза. Оценки респондентов, полученные с помощью опроса, неоднозначны, равно как и ответы большой языковой модели.
Цель исследования, а именно установления стилистических отличий двух жанров творчества М. М. Пришвина, была достигнута. Поставленные задачи были решены.
Гипотезы о том, что лингвостатистические параметры стилеметрии и атрибуции авторства применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов и что проза и дневники будут разниться по параметрам, подтвердились. Гипотеза о том, что общие параметры являются информативными с точки зрения идиостиля, не нашла достаточного подтверждения, поскольку на это могут влиять особенности языка и эпохи.
В дальнейшем кажется возможным опробовать стилеметрические и автороводеческие подходы, рассмотренные, но не получившие реализации в рамках данной работы.
Перспективы развития исследования могут быть связаны со следующими направлениями:
1) проверка эффективности выявленных параметров и алгоритмов на дневниках и прозе других авторов;
2) исследование того, насколько совпадающие параметры зависят от языка. Для этого можно оценить параметры, которые были вычислены для прозы и дневников М. М. Пришвина, для большого корпуса русского языка, чтобы сравнить их со значениями по подкорпусам.
1. Андреев В. С. Динамика стиля Э. А. По (на материале лирики) //
Известия РГПУ им. А. И. Герцена. 2008. №72. С. 168-174. URL:
https://cyberleninka.rU/article/n/dinamika-stilya-e-a-po-na-materiale-liriki (дата обращения: 21.05.2024).
2. Баранов А. Н., Добровольский Д.О. Об одном подходе к
количественной оценке идиоматичности текста как характеристике авторского стиля // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 16-19 июня 2021 г.). Вып. 20 (27), основной том. М.: РГГУ. 2021. С. 1-10. // URL: https://www.dialog-21.ru/media/5494/baranovanplusdobrovol-skijdo004.pdf (дата обращения: 20.04.2023).
3. Барт Р. Ролан Барт о Ролане Барте. М.: Ad Marginem, 2002. 288 с.
4. Богданова Е. В. Проблема реконструкции языковой личности автора в
художественных произведениях дневникового жанра // Вестник Московского университета. Серия 19. Лингвистика и межкультурная коммуникация. 2009. № 4. С. 89-96. // URL:https://cyberleninka.ru/article/n/problema-rekonstruktsii-yazykovoy-lichnosti-avtora-v-hudozhestvennyh-proizvedeniyah-dnevnikovogo-zhanra (дата
обращения: 09.06.2023).
5. Белянин В. П. Авторский смысл эмоционально отмеченного текста и проблема реконструкции личности автора // Теория и практика судебной экспертизы. 2008. № 4 (12). С. 181-184. // URL:https://rusexpert.ru/public/statjy-pdf/Belianin2008.pdf(дата обращения: 23.04.2023).
6. Белянин В. П. Психолингвистический анализ текста в целях идентификации личности // Актуальное состояние и перспективы развития судебной психологии в Российской Федерации: Материалы Всероссийской научно-практической конференции с международным участием, Калуга, 26-29 мая 2010 года. Калуга: Издательство Калужского государственного педагогического университета им. К. Э. Циолковского, 2010. С. 68-74. // URL:
https://www.elibrary.ru/item.asp?id=36850869(дата обращения: 23.04.2023).
7. Берков П. Н. Об установлении авторства анонимных и псевдонимных произведений XVIII века // Русская литература. 1958. № 2. С. 180-189.
8. Блинова О. В. ОЦЕНКА СЛОЖНОСТИ РУССКИХ ПРАВОВЫХ ТЕКСТОВ: АРХИТЕКТУРА МОДЕЛИ // МИРС. 2022. №2. С. 4-13. URL: https://cyberleninka.ru/article/n/otsenka-slozhnosti-russkih-pravovyh-tekstov- arhitektura-modeli(дата обращения: 22.05.2024).
9. Бородина Н. А. Зоонимия произведений М. М. Пришвина // Актуальные вопросы современной филологии и журналистики. 2019. № 3 (34). s /p. // URL: https://cyberleninka.ru/article/n/zoonimiya-proizvedeniy-m-m-prishvina(дата обращения: 06.05.2024).
10. Виноградов В.В. Проблема авторства и теория стилей. М.: Государственное издательство художественной литературы, 1961. 614 c.
11. Вознесенская И. М. Речевое поведение автора дневникового текста:
жанрообразующие и индивидуальные черты // Коммуникативные исследования. 2017. № 2 (12). С. 49-60. // URL:https://cyberleninka.ru/article/n/rechevoe-povedenie-avtora-dnevnikovogo-teksta-zhanroobrazuyuschie-i-individualnye-cherty (дата
обращения: 03.06.2023).
12. Воскобойников В. В. Актуальные аспекты изучения идиостиля в современной лингвистике // Вестник ВолГУ. Серия 9: Исследования молодых ученых. 2013. № 11. С. 164-169. // URL: https://cyberleninka.ru/article/n/aktualnye- aspekty-izucheniya-idiostilya-v-sovremennoy-lingvistike (дата обращения: 29.04.2023).
13. Джаубаева Ф. И. Влияние первой дневниковой записи на
формирование речевого поведения русского писателя Л. Н. Толстого // Вестник Адыгейского государственного университета. Серия 2: Филология и искусствоведение. 2009. № 3. s/p. // URL:https://cyberleninka.ru/article/n7vliyanie-pervoy-dnevnikovoy-zapisi-na-formirovanie-rechevogo-povedeniya-russkogo-pisatelya-l-n-tolstogo(дата обращения: 03.06.2023). 87
14. Денисова О. Н. Метафизика любви в дневниках М. М. Пришвина // Вестник ЛГУ им. А.С. Пушкина. 2014. № 2. s/p. // URL:
https://cyberleninka.rU/article/n/metafizika-lyubvi-v-dnevnikah-m-m-prishvina (дата
обращения: 21.06.2023).
15. Дубовик А. Р. Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам: магистерская диссертация // Санкт-Петербургский государственный университет, 2017. 78 с. // URL:https://dspace.spbu.ru/bitstream/11701/7306/1/Dubovik.pdf(дата обращения: 13.05.2023)...(20)