ИССЛЕДОВАНИЕ ЛИНГВОСТАТИСТИЧЕСКИХ ПАРАМЕТРОВ ДЛЯ ОПИСАНИЯ ПРОЗЫ И ДНЕВНИКОВЫХ ЗАПИСЕЙ В КОРПУСЕ ТЕКСТОВ М.М. ПРИШВИНА
|
Введение 4
Глава I. Теоретическая база: исследования идиостиля и жанрово-стилевых особенностей М. М. Пришвина 7
1.1. Анализ подходов к исследованию идиостиля 7
1.2. Типология стилей и жанров 25
1.3. Жанр дневниковых записей 30
1.4. Жанрово-стилевые особенности произведений М. М. Пришвина 33
1.5. Анализ исследований дневниковых записей 36
1.6. Анализ исследования прозы 40
1.7. Основные диагностические признаки для жанрово-стилевой
дифференциации текстов 44
1.8. Выводы к Главе I 50
Глава II. Компьютерные методы определения лингвостатистических параметров произведений М. М. Пришвина 52
2.1. Отбор текстов и создание корпуса. Расчет метрик и статистических
параметров 52
2.2. Создание и анализ частотного словаря 62
2.3. Извлечение и анализ ключевых слов 65
2.4. Извлечение и анализ биграмм, именованных сущностей 68
2.5. Выводы к Главе II 72
Глава III. Экспериментальная проверка точности различения дневниковых записей и прозы М. М. Пришвина 74
3.1. Методы классификации текстов 74
3.2. Эксперимент по классификации текстов М. М. Пришвина 77
3.3. Опрос респондентов: определение прозы и дневниковых записей 79
3.4. Выводы к Главе III 82
Заключение 84
Список литературы 86
Материал исследования 97
ПРИЛОЖЕНИЕ А. Код частеречной разметки 100
ПРИЛОЖЕНИЕ Б. Код подсчета по файлам с частеречной разметкой 101
ПРИЛОЖЕНИЕ В. Код лемматизации 103
ПРИЛОЖЕНИЕ Г. Код статистики предложений 105
ПРИЛОЖЕНИЕ Д. Код библиотеки ruts и метрики лексического разнообразия 106
ПРИЛОЖЕНИЕ Е.1. Подсчет параметров по методу распознавания образов для подкорпуса дневников 108
ПРИЛОЖЕНИЕ Е.2. Подсчет параметров по методу распознавания образов для подкорпуса прозы 111
ПРИЛОЖЕНИЕ Ж. Проверка критерия Стьюдента для параметров 114
ПРИЛОЖЕНИЕ И.1. Корреляционная матрица параметров подкорпуса дневников 115
ПРИЛОЖЕНИЕ И.2. Корреляционная матрица параметров подкорпуса прозы 116
ПРИЛОЖЕНИЕ К. Код создания частотного словаря 117
ПРИЛОЖЕНИЕ Л. Код для извлечения биграмм 119
ПРИЛОЖЕНИЕ М. Код для извлечения именованных сущностей 120
ПРИЛОЖЕНИЕ Н. Код для классификации 122
Глава I. Теоретическая база: исследования идиостиля и жанрово-стилевых особенностей М. М. Пришвина 7
1.1. Анализ подходов к исследованию идиостиля 7
1.2. Типология стилей и жанров 25
1.3. Жанр дневниковых записей 30
1.4. Жанрово-стилевые особенности произведений М. М. Пришвина 33
1.5. Анализ исследований дневниковых записей 36
1.6. Анализ исследования прозы 40
1.7. Основные диагностические признаки для жанрово-стилевой
дифференциации текстов 44
1.8. Выводы к Главе I 50
Глава II. Компьютерные методы определения лингвостатистических параметров произведений М. М. Пришвина 52
2.1. Отбор текстов и создание корпуса. Расчет метрик и статистических
параметров 52
2.2. Создание и анализ частотного словаря 62
2.3. Извлечение и анализ ключевых слов 65
2.4. Извлечение и анализ биграмм, именованных сущностей 68
2.5. Выводы к Главе II 72
Глава III. Экспериментальная проверка точности различения дневниковых записей и прозы М. М. Пришвина 74
3.1. Методы классификации текстов 74
3.2. Эксперимент по классификации текстов М. М. Пришвина 77
3.3. Опрос респондентов: определение прозы и дневниковых записей 79
3.4. Выводы к Главе III 82
Заключение 84
Список литературы 86
Материал исследования 97
ПРИЛОЖЕНИЕ А. Код частеречной разметки 100
ПРИЛОЖЕНИЕ Б. Код подсчета по файлам с частеречной разметкой 101
ПРИЛОЖЕНИЕ В. Код лемматизации 103
ПРИЛОЖЕНИЕ Г. Код статистики предложений 105
ПРИЛОЖЕНИЕ Д. Код библиотеки ruts и метрики лексического разнообразия 106
ПРИЛОЖЕНИЕ Е.1. Подсчет параметров по методу распознавания образов для подкорпуса дневников 108
ПРИЛОЖЕНИЕ Е.2. Подсчет параметров по методу распознавания образов для подкорпуса прозы 111
ПРИЛОЖЕНИЕ Ж. Проверка критерия Стьюдента для параметров 114
ПРИЛОЖЕНИЕ И.1. Корреляционная матрица параметров подкорпуса дневников 115
ПРИЛОЖЕНИЕ И.2. Корреляционная матрица параметров подкорпуса прозы 116
ПРИЛОЖЕНИЕ К. Код создания частотного словаря 117
ПРИЛОЖЕНИЕ Л. Код для извлечения биграмм 119
ПРИЛОЖЕНИЕ М. Код для извлечения именованных сущностей 120
ПРИЛОЖЕНИЕ Н. Код для классификации 122
В настоящее время наблюдается новый рост интереса исследователей к стилеметрическим исследованиям, в особенности лингвистическое профилирование. Существует множество работ по диагностике психологических особенностей и личностных черт говорящих, основанных на статистических методах. Тем не менее, когда речь идет о литературных произведениях, анализ проводится «традиционными» методами: зачастую ученые работают с текстом вручную. Кроме того, в качестве исследовательского материала отбираются лишь отдельные авторы, к примеру, Л. Н. Толстой, Ф. М. Достоевский, В. В. Маяковский, Н. А. Некрасов, М. А. Шолохов, А. А. Шаховской, И. А. Бунин, А. И. Куприн, в то время как другие игнорируются или получают недостаточное количество внимания. Зачастую, если у автора помимо произведений есть дневниковые записи, анализируется только одно из двух, не говоря уже о сопоставлении результатов.
В связи с этим, актуальность данной работы заключается в материале и подходе. Для изучения выбран М. М. Пришвин — не только талантливый писатель, но и создатель богатого дневника, представляющего из себя срез эпохи. Проза и личные записи будут параллельно изучены с целью выявления и сравнения разнящихся и совпадающих черт текстов обоих типов с помощью корпусных методов.
Новизна исследования вытекает из использования моделей машинного обучения и статистических подходов для выявления стилистических особенностей текстов автора и разграничения их жанров.
Объектом исследования являются дневниковые записи и проза М. М. Пришвина. Предметом исследования являются особенности идиостиля дневниковых записей и прозы М. М. Пришвина.
Цель исследования состоит в выявлении лингвостатистических параметров идиостиля автора и их применении для установления стилистических отличий двух жанров творчества М. М. Пришвина: прозы и дневников.
Для достижения поставленной цели необходимо решить следующие задачи:
1) провести анализ подходов к исследованию идиостиля в компьютерной лингвистике, лексикографии, психолингвистике;
2) описать основные диагностические признаки, используемые в прикладных исследованиях по стилеметрии и автороведению, соотнести значимость данных признаков для определения жанрово-стилевой принадлежности текста и для определения индивидуальных характеристик его автора;
3) произвести и обосновать отбор авторских текстов для проведения экспериментов (проза и дневниковые записи М. Пришвина);
4) разработать корпус текстов с метаразметкой (тип текста — проза или дневниковые записи, дата создания, источник) и лингвистической разметкой (частеречная разметка);
5) провести эксперименты по определению количественных оценок лингвостатистических признаков текстов разных жанров;
6) провести сравнительный анализ лингвостатистических параметров для текстов для подкорпусов прозы и для дневниковых записей;
7) обобщить результаты экспериментов, сделать выводы об информативности лингвостатистических параметров в отношении идиостиля и жанрово-стилевой принадлежности текстов;
8) выделить лингвостатистические параметры, информативные в отношении разграничений жанров автора текстов;
9) провести эксперимент по классификации с применением машинного обучения и опроса респондентов.
Гипотезы, выдвигаемые и проверяемые в ходе исследования:
1) лингвостатистические параметры, определенные в стилеметрии и атрибуции авторства, применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов;
2) тексты прозаических произведений и дневниковых записей различны с точки зрения их жанрово-стилевой принадлежности;
3) лингвостатистические параметры, общие для текстов одного автора, являются потенциально информативными с точки зрения идиостиля.
Методами исследования в данной работе являются:
1) сравнительно-сопоставительный анализ;
2) измерение параметров идиостиля автора;
3) эксперимент по классификации;
4) метод экспертных оценок;
5) компьютерные методы обработки текста...
В связи с этим, актуальность данной работы заключается в материале и подходе. Для изучения выбран М. М. Пришвин — не только талантливый писатель, но и создатель богатого дневника, представляющего из себя срез эпохи. Проза и личные записи будут параллельно изучены с целью выявления и сравнения разнящихся и совпадающих черт текстов обоих типов с помощью корпусных методов.
Новизна исследования вытекает из использования моделей машинного обучения и статистических подходов для выявления стилистических особенностей текстов автора и разграничения их жанров.
Объектом исследования являются дневниковые записи и проза М. М. Пришвина. Предметом исследования являются особенности идиостиля дневниковых записей и прозы М. М. Пришвина.
Цель исследования состоит в выявлении лингвостатистических параметров идиостиля автора и их применении для установления стилистических отличий двух жанров творчества М. М. Пришвина: прозы и дневников.
Для достижения поставленной цели необходимо решить следующие задачи:
1) провести анализ подходов к исследованию идиостиля в компьютерной лингвистике, лексикографии, психолингвистике;
2) описать основные диагностические признаки, используемые в прикладных исследованиях по стилеметрии и автороведению, соотнести значимость данных признаков для определения жанрово-стилевой принадлежности текста и для определения индивидуальных характеристик его автора;
3) произвести и обосновать отбор авторских текстов для проведения экспериментов (проза и дневниковые записи М. Пришвина);
4) разработать корпус текстов с метаразметкой (тип текста — проза или дневниковые записи, дата создания, источник) и лингвистической разметкой (частеречная разметка);
5) провести эксперименты по определению количественных оценок лингвостатистических признаков текстов разных жанров;
6) провести сравнительный анализ лингвостатистических параметров для текстов для подкорпусов прозы и для дневниковых записей;
7) обобщить результаты экспериментов, сделать выводы об информативности лингвостатистических параметров в отношении идиостиля и жанрово-стилевой принадлежности текстов;
8) выделить лингвостатистические параметры, информативные в отношении разграничений жанров автора текстов;
9) провести эксперимент по классификации с применением машинного обучения и опроса респондентов.
Гипотезы, выдвигаемые и проверяемые в ходе исследования:
1) лингвостатистические параметры, определенные в стилеметрии и атрибуции авторства, применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов;
2) тексты прозаических произведений и дневниковых записей различны с точки зрения их жанрово-стилевой принадлежности;
3) лингвостатистические параметры, общие для текстов одного автора, являются потенциально информативными с точки зрения идиостиля.
Методами исследования в данной работе являются:
1) сравнительно-сопоставительный анализ;
2) измерение параметров идиостиля автора;
3) эксперимент по классификации;
4) метод экспертных оценок;
5) компьютерные методы обработки текста...
В данной работе были подробно изучены методы и алгоритмы исследования идиостиля в различных сферах, таких как лингвистика, лексикография, психолингвистика. После получения общего представления о степени рассмотрения вопроса, были проанализированных более специализированные материалы, связанные с диагностическими признаками в стилеметрии, из которых и были выбраны параметры для дифференциации прозы и дневников М. М. Пришвина. Для проведения исследований был собран корпус прозы и дневников М. М. Пришвина, имеющий частеречную разметку и лемматизированную форму.
В ходе исследования было выявлено, что эффективными для различения прозы являются отношение числа личных местоимений к числу словоформ в тексте, отношение числа междометий к числу словоформ в тексте, индекс удобочитаемости Флеша, индекс Жиро, скорректированное TTR, или TTR^), статистика предлогов (под/над, в/из, в/на, за/перед), число подчиненных предложений без спрягаемой формы глагола, число обособленных членов, число членов в группах обособленных членов, анализ частотных словарей, ключевых слов и оценка концентрации именованных сущностей.
После проведения эксперимента классификация был сделан вывод, что для различения дневников и прозы М. М. Пришвина лучше всего подходят такие алгоритмы, как SVM, NB, KNN, а также классификация по дельте Берроуза. Оценки респондентов, полученные с помощью опроса, неоднозначны, равно как и ответы большой языковой модели.
Цель исследования, а именно установления стилистических отличий двух жанров творчества М. М. Пришвина, была достигнута. Поставленные задачи были решены.
Гипотезы о том, что лингвостатистические параметры стилеметрии и атрибуции авторства применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов и что проза и дневники будут разниться по параметрам, подтвердились. Гипотеза о том, что общие параметры являются информативными с точки зрения идиостиля, не нашла достаточного подтверждения, поскольку на это могут влиять особенности языка и эпохи.
В дальнейшем кажется возможным опробовать стилеметрические и автороводеческие подходы, рассмотренные, но не получившие реализации в рамках данной работы.
Перспективы развития исследования могут быть связаны со следующими направлениями:
1) проверка эффективности выявленных параметров и алгоритмов на дневниках и прозе других авторов;
2) исследование того, насколько совпадающие параметры зависят от языка. Для этого можно оценить параметры, которые были вычислены для прозы и дневников М. М. Пришвина, для большого корпуса русского языка, чтобы сравнить их со значениями по подкорпусам.
В ходе исследования было выявлено, что эффективными для различения прозы являются отношение числа личных местоимений к числу словоформ в тексте, отношение числа междометий к числу словоформ в тексте, индекс удобочитаемости Флеша, индекс Жиро, скорректированное TTR, или TTR^), статистика предлогов (под/над, в/из, в/на, за/перед), число подчиненных предложений без спрягаемой формы глагола, число обособленных членов, число членов в группах обособленных членов, анализ частотных словарей, ключевых слов и оценка концентрации именованных сущностей.
После проведения эксперимента классификация был сделан вывод, что для различения дневников и прозы М. М. Пришвина лучше всего подходят такие алгоритмы, как SVM, NB, KNN, а также классификация по дельте Берроуза. Оценки респондентов, полученные с помощью опроса, неоднозначны, равно как и ответы большой языковой модели.
Цель исследования, а именно установления стилистических отличий двух жанров творчества М. М. Пришвина, была достигнута. Поставленные задачи были решены.
Гипотезы о том, что лингвостатистические параметры стилеметрии и атрибуции авторства применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов и что проза и дневники будут разниться по параметрам, подтвердились. Гипотеза о том, что общие параметры являются информативными с точки зрения идиостиля, не нашла достаточного подтверждения, поскольку на это могут влиять особенности языка и эпохи.
В дальнейшем кажется возможным опробовать стилеметрические и автороводеческие подходы, рассмотренные, но не получившие реализации в рамках данной работы.
Перспективы развития исследования могут быть связаны со следующими направлениями:
1) проверка эффективности выявленных параметров и алгоритмов на дневниках и прозе других авторов;
2) исследование того, насколько совпадающие параметры зависят от языка. Для этого можно оценить параметры, которые были вычислены для прозы и дневников М. М. Пришвина, для большого корпуса русского языка, чтобы сравнить их со значениями по подкорпусам.





