Тема: ИССЛЕДОВАНИЕ ЛИНГВОСТАТИСТИЧЕСКИХ ПАРАМЕТРОВ ДЛЯ ОПИСАНИЯ ПРОЗЫ И ДНЕВНИКОВЫХ ЗАПИСЕЙ В КОРПУСЕ ТЕКСТОВ М.М. ПРИШВИНА
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава I. Теоретическая база: исследования идиостиля и жанрово-стилевых особенностей М. М. Пришвина 7
1.1. Анализ подходов к исследованию идиостиля 7
1.2. Типология стилей и жанров 25
1.3. Жанр дневниковых записей 30
1.4. Жанрово-стилевые особенности произведений М. М. Пришвина 33
1.5. Анализ исследований дневниковых записей 36
1.6. Анализ исследования прозы 40
1.7. Основные диагностические признаки для жанрово-стилевой
дифференциации текстов 44
1.8. Выводы к Главе I 50
Глава II. Компьютерные методы определения лингвостатистических параметров произведений М. М. Пришвина 52
2.1. Отбор текстов и создание корпуса. Расчет метрик и статистических
параметров 52
2.2. Создание и анализ частотного словаря 62
2.3. Извлечение и анализ ключевых слов 65
2.4. Извлечение и анализ биграмм, именованных сущностей 68
2.5. Выводы к Главе II 72
Глава III. Экспериментальная проверка точности различения дневниковых записей и прозы М. М. Пришвина 74
3.1. Методы классификации текстов 74
3.2. Эксперимент по классификации текстов М. М. Пришвина 77
3.3. Опрос респондентов: определение прозы и дневниковых записей 79
3.4. Выводы к Главе III 82
Заключение 84
Список литературы 86
Материал исследования 97
ПРИЛОЖЕНИЕ А. Код частеречной разметки 100
ПРИЛОЖЕНИЕ Б. Код подсчета по файлам с частеречной разметкой 101
ПРИЛОЖЕНИЕ В. Код лемматизации 103
ПРИЛОЖЕНИЕ Г. Код статистики предложений 105
ПРИЛОЖЕНИЕ Д. Код библиотеки ruts и метрики лексического разнообразия 106
ПРИЛОЖЕНИЕ Е.1. Подсчет параметров по методу распознавания образов для подкорпуса дневников 108
ПРИЛОЖЕНИЕ Е.2. Подсчет параметров по методу распознавания образов для подкорпуса прозы 111
ПРИЛОЖЕНИЕ Ж. Проверка критерия Стьюдента для параметров 114
ПРИЛОЖЕНИЕ И.1. Корреляционная матрица параметров подкорпуса дневников 115
ПРИЛОЖЕНИЕ И.2. Корреляционная матрица параметров подкорпуса прозы 116
ПРИЛОЖЕНИЕ К. Код создания частотного словаря 117
ПРИЛОЖЕНИЕ Л. Код для извлечения биграмм 119
ПРИЛОЖЕНИЕ М. Код для извлечения именованных сущностей 120
ПРИЛОЖЕНИЕ Н. Код для классификации 122
📖 Введение
В связи с этим, актуальность данной работы заключается в материале и подходе. Для изучения выбран М. М. Пришвин — не только талантливый писатель, но и создатель богатого дневника, представляющего из себя срез эпохи. Проза и личные записи будут параллельно изучены с целью выявления и сравнения разнящихся и совпадающих черт текстов обоих типов с помощью корпусных методов.
Новизна исследования вытекает из использования моделей машинного обучения и статистических подходов для выявления стилистических особенностей текстов автора и разграничения их жанров.
Объектом исследования являются дневниковые записи и проза М. М. Пришвина. Предметом исследования являются особенности идиостиля дневниковых записей и прозы М. М. Пришвина.
Цель исследования состоит в выявлении лингвостатистических параметров идиостиля автора и их применении для установления стилистических отличий двух жанров творчества М. М. Пришвина: прозы и дневников.
Для достижения поставленной цели необходимо решить следующие задачи:
1) провести анализ подходов к исследованию идиостиля в компьютерной лингвистике, лексикографии, психолингвистике;
2) описать основные диагностические признаки, используемые в прикладных исследованиях по стилеметрии и автороведению, соотнести значимость данных признаков для определения жанрово-стилевой принадлежности текста и для определения индивидуальных характеристик его автора;
3) произвести и обосновать отбор авторских текстов для проведения экспериментов (проза и дневниковые записи М. Пришвина);
4) разработать корпус текстов с метаразметкой (тип текста — проза или дневниковые записи, дата создания, источник) и лингвистической разметкой (частеречная разметка);
5) провести эксперименты по определению количественных оценок лингвостатистических признаков текстов разных жанров;
6) провести сравнительный анализ лингвостатистических параметров для текстов для подкорпусов прозы и для дневниковых записей;
7) обобщить результаты экспериментов, сделать выводы об информативности лингвостатистических параметров в отношении идиостиля и жанрово-стилевой принадлежности текстов;
8) выделить лингвостатистические параметры, информативные в отношении разграничений жанров автора текстов;
9) провести эксперимент по классификации с применением машинного обучения и опроса респондентов.
Гипотезы, выдвигаемые и проверяемые в ходе исследования:
1) лингвостатистические параметры, определенные в стилеметрии и атрибуции авторства, применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов;
2) тексты прозаических произведений и дневниковых записей различны с точки зрения их жанрово-стилевой принадлежности;
3) лингвостатистические параметры, общие для текстов одного автора, являются потенциально информативными с точки зрения идиостиля.
Методами исследования в данной работе являются:
1) сравнительно-сопоставительный анализ;
2) измерение параметров идиостиля автора;
3) эксперимент по классификации;
4) метод экспертных оценок;
5) компьютерные методы обработки текста...
✅ Заключение
В ходе исследования было выявлено, что эффективными для различения прозы являются отношение числа личных местоимений к числу словоформ в тексте, отношение числа междометий к числу словоформ в тексте, индекс удобочитаемости Флеша, индекс Жиро, скорректированное TTR, или TTR^), статистика предлогов (под/над, в/из, в/на, за/перед), число подчиненных предложений без спрягаемой формы глагола, число обособленных членов, число членов в группах обособленных членов, анализ частотных словарей, ключевых слов и оценка концентрации именованных сущностей.
После проведения эксперимента классификация был сделан вывод, что для различения дневников и прозы М. М. Пришвина лучше всего подходят такие алгоритмы, как SVM, NB, KNN, а также классификация по дельте Берроуза. Оценки респондентов, полученные с помощью опроса, неоднозначны, равно как и ответы большой языковой модели.
Цель исследования, а именно установления стилистических отличий двух жанров творчества М. М. Пришвина, была достигнута. Поставленные задачи были решены.
Гипотезы о том, что лингвостатистические параметры стилеметрии и атрибуции авторства применимы в исследовании идиостиля авторов и в определении жанрово-стилевой принадлежности текстов и что проза и дневники будут разниться по параметрам, подтвердились. Гипотеза о том, что общие параметры являются информативными с точки зрения идиостиля, не нашла достаточного подтверждения, поскольку на это могут влиять особенности языка и эпохи.
В дальнейшем кажется возможным опробовать стилеметрические и автороводеческие подходы, рассмотренные, но не получившие реализации в рамках данной работы.
Перспективы развития исследования могут быть связаны со следующими направлениями:
1) проверка эффективности выявленных параметров и алгоритмов на дневниках и прозе других авторов;
2) исследование того, насколько совпадающие параметры зависят от языка. Для этого можно оценить параметры, которые были вычислены для прозы и дневников М. М. Пришвина, для большого корпуса русского языка, чтобы сравнить их со значениями по подкорпусам.





