Создание инструмента для исследования метрики и ритмики поэтического текста
|
Введение 3
Глава 1. Теоретические аспекты русской метрики 8
1.1. Анализ становления и развития русской силлабо-тоники 8
1.2. Исследования актуальных статистических моделей анализа стихотворного размера 25
Глава 2. Создание инструмента для автоматического анализа поэтической метрики 47
2.1. Имплементация классификатора поэтической метрики, основанного на правилах 48
2.2. Имплементация классификатора поэтической метрики с применением методов машинного обучения 56
2.3. Сравнительный анализ результатов работы классификатора поэтической метрики, основанного на строгих правилах, и классификатора поэтической метрики с применением методов машинного обучения 66
Заключение 69
Библиографический список 80
Приложения 84
Глава 1. Теоретические аспекты русской метрики 8
1.1. Анализ становления и развития русской силлабо-тоники 8
1.2. Исследования актуальных статистических моделей анализа стихотворного размера 25
Глава 2. Создание инструмента для автоматического анализа поэтической метрики 47
2.1. Имплементация классификатора поэтической метрики, основанного на правилах 48
2.2. Имплементация классификатора поэтической метрики с применением методов машинного обучения 56
2.3. Сравнительный анализ результатов работы классификатора поэтической метрики, основанного на строгих правилах, и классификатора поэтической метрики с применением методов машинного обучения 66
Заключение 69
Библиографический список 80
Приложения 84
Мировая тенденция к глобализации проникает во все сферы жизни. В условиях постоянного обновления и совершенствования технологий от современного специалиста требуется столь же постоянное обучение и поиск новых способов, методов и техник применения передовых наработок науки к своей сфере деятельности. Именно в этом русле лежит проблема создания инструмента для автоматического анализа поэтического текста. Мы не можем не признавать, что проблема определения размера стихотворения до сих пор остаётся не разрешённой в достаточной мере и вызывает множество затруднений и разночтений.
Между тем, мы должны отметить, что данная проблема не выпадала из внимания учёных, периодически вызывая дополнительный интерес, связанный с появлением какой-либо новой технологии или идеи, которую можно было бы применить к существующей проблеме и получить возможные положительные результаты. Так случилось в начале XX века, когда к проблеме определения размера были применены математические методы, потом то же самое произошло уже в последней трети XX века, когда компьютеры получили широкое распространение в науке. Так происходит и в последние несколько лет, когда компьютерных мощностей становится достаточно для применения алгоритмов машинного обучения и нейросетей.
Актуальность изучения возможностей создания инструмента для автоматического определения поэтической ритмики текста заключается в том, что данная проблема представляет собой постоянное препятствие как для школьников, пытающихся определить размер стихотворения на уроке литературы, так и для исследователей, занимающихся анализом поэтического текста и его влиянием на психику и когнитивные способности человека. При этом новые наработки в области глубокого обучения и нейросетей позволяют надеяться, что их можно будет применить и к данной проблеме.
Степень научной разработанности темы
Поэтическая ритмика не раз выступала объектом исследования в разных гуманитарных науках. Однако попыток создания инструмента для автоматического анализа текста было не так много, более того, не все из этих попыток заканчивались рабочими прототипами, пригодными к использованию.
Следует отметить, что практические подходы к созданию данного инструмента наметились в двух вариациях. Во-первых, это наиболее часто используемый метод классификатора, основанного на строгих правилах, где в систему изначально заложены схемы размеров, и её задача состоит в сравнении подаваемой пользователем строки с этими размерными сетками и в выдаче наиболее подходящего варианта. Во-вторых, существует разновидность вышеупомянутого классификатора, в котором он не сравнивает заранее известный размер с размером, полученным для строки, а пытается на основе выявления закономерностей и слогов определить его с нуля. Иной подход связан с использованием алгоритмов машинного обучения и расширением способов применения задачи небинарной классификации, для которой сперва собирается объёмный корпус размеченных стихотворных строк и даётся машине на обучение, после чего происходит извлечение различных свойств и закономерностей, по которым машина старается предсказать размер строки, полученной на вход.
Гипотеза
Выдвигается предположение о том, что через применение алгоритмов машинного обучения возможно будет добиться точности определения размера стихотворения выше, чем при применении классификатора, основанного на строгих правилах, поскольку технологии машинного обучения являются более адаптивными и лучше смогут работать с такой непостоянной и многоаспектной структурой как стихотворный размер.
Объект исследования — русская поэтическая метрика.
Предмет исследовательской работы — поэтический размер текста, программы и библиотеки для создания инструмента анализа размера поэтического текста, способы разработки инструментов для автоматического анализа метрики и ритмики поэтического текста.
Цель работы — создание и сравнительный анализ эффективности двух прототипов для анализа поэтического размера текста.
Поставленная цель определила следующие задачи:
1. Проанализировать путь становления и развития русской поэтической метрики;
2. Выявить наиболее подходящий и актуальный список размеров для анализа;
3. Изучить предыдущий опыт создания инструментов для автоматического анализа метрики и ритмики поэтического текста как в русскоязычных исследованиях, так и в англоязычной среде;
4. Разработать прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера;
5. Разработать прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера;
6. Провести сравнительный анализ эффективности и точности определения поэтической метрики текста.
В работе над диссертацией используется комплекс методов современного языкознания и программирования, направленных на теоретическое и практическое осмысление основных аспектов исследования русской поэтической метрики в её современном осмыслении.
Материал исследования
Стоит обозначить, что исследование ограничено, прежде всего, силлабо-тоническими размерами как теми, которые до сих пор получают наибольшее распространение в образовательной среде. С учётом относительного постоянства размерной сетки на протяжении всего произведения нами были отобраны стихотворения общим размером более пяти тысяч стихотворных строк, по одной тысяче строк каждого размера соответственно. Стихотворения были отобраны из материалов поэтического подкорпуса НКРЯ, Полный список этих стихотворений с разбивкой по размерам можно увидеть в Приложении 1.
Положения, выносимые на защиту
Создание инструмента для автоматического анализа поэтической метрики и ритмики текста; сравнительный анализ точности классификатора, основанного на строгих правилах, с алгоритмом машинного обучения; применение алгоритмов машинного обучения для дальнейшего анализа поэтических текстов.
Теоретическая новизна
В данном исследовании впервые в отечественном гуманитарном знании представлен развернутый анализ современных англоязычных исследований, посвящённых проблематике применения алгоритмов машинного обучения и нейронных сетей к определению метрики и ритмики поэтического текста. Проанализированы материалы для языков как с подвижным, так и с фиксированным ударением. Материалы работы могут послужить хорошей отправной точкой для более масштабных и детальных исследований по данной теме.
Практическая новизна
Данное исследование может послужить как научно-методический материал для исследований, связанных с областью исследования русской поэтической метрики и способов применения алгоритмов машинного обучения для упрощения этой задачи, а также как основа для будущих исследований, расширения и углубления.
Структура выпускной квалификационной работы
Работа состоит из Введения, двух глав, Заключения, Списка использованной литературы и Приложения. Во Введении представлена проблема исследования, актуальность, степень разработанности темы, обозначены объект, предмет, цель и задачи исследования. В первой главе представлено рассмотрение становления и развития русской поэтической традиции, а также обзор современных исследований проблематики использования алгоритмов машинного обучения при решении задачи автоматического определения метрики и ритмики текста. Вторая глава посвящена созданию двух прототипов инструментов для анализа поэтического текста, а именно — классификатора, основанного на строгих правилах, и алгоритма машинного обучения. В заключении подведены основные выводы и итоги исследования. Общий объём работы — 85 страниц.
Между тем, мы должны отметить, что данная проблема не выпадала из внимания учёных, периодически вызывая дополнительный интерес, связанный с появлением какой-либо новой технологии или идеи, которую можно было бы применить к существующей проблеме и получить возможные положительные результаты. Так случилось в начале XX века, когда к проблеме определения размера были применены математические методы, потом то же самое произошло уже в последней трети XX века, когда компьютеры получили широкое распространение в науке. Так происходит и в последние несколько лет, когда компьютерных мощностей становится достаточно для применения алгоритмов машинного обучения и нейросетей.
Актуальность изучения возможностей создания инструмента для автоматического определения поэтической ритмики текста заключается в том, что данная проблема представляет собой постоянное препятствие как для школьников, пытающихся определить размер стихотворения на уроке литературы, так и для исследователей, занимающихся анализом поэтического текста и его влиянием на психику и когнитивные способности человека. При этом новые наработки в области глубокого обучения и нейросетей позволяют надеяться, что их можно будет применить и к данной проблеме.
Степень научной разработанности темы
Поэтическая ритмика не раз выступала объектом исследования в разных гуманитарных науках. Однако попыток создания инструмента для автоматического анализа текста было не так много, более того, не все из этих попыток заканчивались рабочими прототипами, пригодными к использованию.
Следует отметить, что практические подходы к созданию данного инструмента наметились в двух вариациях. Во-первых, это наиболее часто используемый метод классификатора, основанного на строгих правилах, где в систему изначально заложены схемы размеров, и её задача состоит в сравнении подаваемой пользователем строки с этими размерными сетками и в выдаче наиболее подходящего варианта. Во-вторых, существует разновидность вышеупомянутого классификатора, в котором он не сравнивает заранее известный размер с размером, полученным для строки, а пытается на основе выявления закономерностей и слогов определить его с нуля. Иной подход связан с использованием алгоритмов машинного обучения и расширением способов применения задачи небинарной классификации, для которой сперва собирается объёмный корпус размеченных стихотворных строк и даётся машине на обучение, после чего происходит извлечение различных свойств и закономерностей, по которым машина старается предсказать размер строки, полученной на вход.
Гипотеза
Выдвигается предположение о том, что через применение алгоритмов машинного обучения возможно будет добиться точности определения размера стихотворения выше, чем при применении классификатора, основанного на строгих правилах, поскольку технологии машинного обучения являются более адаптивными и лучше смогут работать с такой непостоянной и многоаспектной структурой как стихотворный размер.
Объект исследования — русская поэтическая метрика.
Предмет исследовательской работы — поэтический размер текста, программы и библиотеки для создания инструмента анализа размера поэтического текста, способы разработки инструментов для автоматического анализа метрики и ритмики поэтического текста.
Цель работы — создание и сравнительный анализ эффективности двух прототипов для анализа поэтического размера текста.
Поставленная цель определила следующие задачи:
1. Проанализировать путь становления и развития русской поэтической метрики;
2. Выявить наиболее подходящий и актуальный список размеров для анализа;
3. Изучить предыдущий опыт создания инструментов для автоматического анализа метрики и ритмики поэтического текста как в русскоязычных исследованиях, так и в англоязычной среде;
4. Разработать прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера;
5. Разработать прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера;
6. Провести сравнительный анализ эффективности и точности определения поэтической метрики текста.
В работе над диссертацией используется комплекс методов современного языкознания и программирования, направленных на теоретическое и практическое осмысление основных аспектов исследования русской поэтической метрики в её современном осмыслении.
Материал исследования
Стоит обозначить, что исследование ограничено, прежде всего, силлабо-тоническими размерами как теми, которые до сих пор получают наибольшее распространение в образовательной среде. С учётом относительного постоянства размерной сетки на протяжении всего произведения нами были отобраны стихотворения общим размером более пяти тысяч стихотворных строк, по одной тысяче строк каждого размера соответственно. Стихотворения были отобраны из материалов поэтического подкорпуса НКРЯ, Полный список этих стихотворений с разбивкой по размерам можно увидеть в Приложении 1.
Положения, выносимые на защиту
Создание инструмента для автоматического анализа поэтической метрики и ритмики текста; сравнительный анализ точности классификатора, основанного на строгих правилах, с алгоритмом машинного обучения; применение алгоритмов машинного обучения для дальнейшего анализа поэтических текстов.
Теоретическая новизна
В данном исследовании впервые в отечественном гуманитарном знании представлен развернутый анализ современных англоязычных исследований, посвящённых проблематике применения алгоритмов машинного обучения и нейронных сетей к определению метрики и ритмики поэтического текста. Проанализированы материалы для языков как с подвижным, так и с фиксированным ударением. Материалы работы могут послужить хорошей отправной точкой для более масштабных и детальных исследований по данной теме.
Практическая новизна
Данное исследование может послужить как научно-методический материал для исследований, связанных с областью исследования русской поэтической метрики и способов применения алгоритмов машинного обучения для упрощения этой задачи, а также как основа для будущих исследований, расширения и углубления.
Структура выпускной квалификационной работы
Работа состоит из Введения, двух глав, Заключения, Списка использованной литературы и Приложения. Во Введении представлена проблема исследования, актуальность, степень разработанности темы, обозначены объект, предмет, цель и задачи исследования. В первой главе представлено рассмотрение становления и развития русской поэтической традиции, а также обзор современных исследований проблематики использования алгоритмов машинного обучения при решении задачи автоматического определения метрики и ритмики текста. Вторая глава посвящена созданию двух прототипов инструментов для анализа поэтического текста, а именно — классификатора, основанного на строгих правилах, и алгоритма машинного обучения. В заключении подведены основные выводы и итоги исследования. Общий объём работы — 85 страниц.
Итогом настоящего магистерского диссертационного исследования явилось достаточно полное представление о возможностях, недостатках, особенностях и перспективах применения алгоритмов машинного обучения для решения задачи автоматического определения поэтической метрики текста. В ходе диссертационного исследования были получены следующие выводы:
1) Проанализирован путь становления и развития русской поэтической метрики;
Путь становления и развития русской поэтической метрики прослеживается от XVII века и до сегодняшнего дня. Русская силлабика явилась заимствованием из Франции эпохи Нового времени, в то время как русская тоника существовала в неформализованном виде ещё в устном народном творчестве. Благодаря реформе Ломоносова-Тредиаковского возникло представление о русских силлабо-тонических размерах, в которых имело значение как расположение и ритмическое чередование ударных и безударных слогов, так и общее количество слогов в строке.
XX век отметился в русской поэзии как переход от силлабо-тоники к формализованной тонике, разработкой тонических размеров, появлением попыток применения статистических методов к русскому стихосложению. Наблюдалось общее расширение границ допустимого в поэзии.
2) Выявить наиболее подходящий и актуальный список размеров для анализа;
Наиболее подходящий и актуальный список поэтических размеров для анализа был выявлен на основании анализа потребностей основной массы предполагаемых пользователей. В связи с этим было решено остановиться на традиционных школьных силлабо-тонических размерах стиха, поскольку большая часть предполагаемой аудитории — ученики школ, которым нужна помощь в определении размеров классической русской поэзии XIX века. Также, ограничиваясь рамками этих размеров, было существенно проще продумать и имплементировать изначальный алгоритм, который впоследствии можно было бы модифицировать и дополнить тоническими размерами и другой информацией об анализируемом стихотворении.
3) Изучить предыдущий опыт создания инструментов для автоматического анализа метрики и ритмики поэтического текста как в русскоязычных исследованиях, так и в англоязычной среде:
Большинство исследований, в той или иной мере обращающихся к автоматическому анализу метрики поэтического текста, воспринимают данную задачу как побочную для задачи генерации поэтического текста. Результат анализа исследований показывает, что подобное отношение может напрямую зависеть от языка, для которого проводится исследование. Так, для языка с неразвитой морфологией и фиксированным ударением (как, например, английский язык) подобная задача действительно не составляет особого труда и удовлетворительно решается простым классификатором, основанным на строгих правилах. При этом для языков с развитой морфологией и подвижным ударением (как, например, русский или отдельные языки хинди) подобная задача становится центральной проблемой исследования и почти никогда не решается в достаточной степени удовлетворительно, оставляя простор для дальнейших исследований. При этом опыт разработки данного направления в англоязычной сфере интересен скорее с методологической точки зрения, поскольку именно там на данный момент в первую очередь появляются и внедряются передовые технологии.
4) Разработать прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера;
Прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера был успешно разработан и протестирован на корпусе из 2500 стихотворных строк. В основе классификатора лежит алгоритм, присваивающий числовую комбинацию ударных и безударных слогов для каждой строки и сравнивающий её со словарём “идеальных” размерных сеток, после чего выдающий наиболее схожий с полученной комбинацией размер. Точность классификатора в построчном анализе существенно ниже, чем для стихотворений целиком, и сильно колеблется в зависимости от размера: для строк анапеста точность составляет всего 10%, в то время как ямбические строки определяются в половине случаев.
5) Разработать прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера;
Прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера был успешно разработан и натренирован на корпусе из 5062 стихотворных строк. С помощью библиотеки для машинного обучения scikit-learn был разработан механизм извлечения признаков из необработанного текста, затем был проведён сравнительный анализ результатов предварительной работы моделей машинного обучения для решения задачи мультиклассификации, после чего наиболее подходящая модель была обучена на корпусе размеченных и предобработанных данных. Данные в корпусе были собраны на материале поэтического подкорпуса НКРЯ и дополнительно предобработаны библиотекой NLTK, после чего сведены в одну таблицу с помощью библиотеки pandas.
6) Провести сравнительный анализ эффективности и точности определения поэтической метрики текста;
Точность классификатора с применением методов машинного обучения для отдельных размеров была несколько ниже, однако у него не наблюдалось такого разброса между лучшим и худшим результатами, как у классификатора, основанного на строгих правилах, поэтому средние значения точности получились несколько выше. Учитывая этот фактор, а также возможности для дальнейшего повышения процента точности и расширения определяемых признаков стихотворной строки в частности и стихотворения в целом, разработка данного направления классификации в рамках нашего исследования была признана более перспективной и целесообразной.
Таким образом, обозначенные во введении задачи выполнены. В настоящем исследовании был проведён анализ литературы, посвящённой проблеме автоматического определения стихотворного размера, а также были созданы классификаторы поэтической метрики с применением разных подходов и методик, после чего был проведён сравнительный анализ результатов работы. Цель работы была достигнута.
1) Проанализирован путь становления и развития русской поэтической метрики;
Путь становления и развития русской поэтической метрики прослеживается от XVII века и до сегодняшнего дня. Русская силлабика явилась заимствованием из Франции эпохи Нового времени, в то время как русская тоника существовала в неформализованном виде ещё в устном народном творчестве. Благодаря реформе Ломоносова-Тредиаковского возникло представление о русских силлабо-тонических размерах, в которых имело значение как расположение и ритмическое чередование ударных и безударных слогов, так и общее количество слогов в строке.
XX век отметился в русской поэзии как переход от силлабо-тоники к формализованной тонике, разработкой тонических размеров, появлением попыток применения статистических методов к русскому стихосложению. Наблюдалось общее расширение границ допустимого в поэзии.
2) Выявить наиболее подходящий и актуальный список размеров для анализа;
Наиболее подходящий и актуальный список поэтических размеров для анализа был выявлен на основании анализа потребностей основной массы предполагаемых пользователей. В связи с этим было решено остановиться на традиционных школьных силлабо-тонических размерах стиха, поскольку большая часть предполагаемой аудитории — ученики школ, которым нужна помощь в определении размеров классической русской поэзии XIX века. Также, ограничиваясь рамками этих размеров, было существенно проще продумать и имплементировать изначальный алгоритм, который впоследствии можно было бы модифицировать и дополнить тоническими размерами и другой информацией об анализируемом стихотворении.
3) Изучить предыдущий опыт создания инструментов для автоматического анализа метрики и ритмики поэтического текста как в русскоязычных исследованиях, так и в англоязычной среде:
Большинство исследований, в той или иной мере обращающихся к автоматическому анализу метрики поэтического текста, воспринимают данную задачу как побочную для задачи генерации поэтического текста. Результат анализа исследований показывает, что подобное отношение может напрямую зависеть от языка, для которого проводится исследование. Так, для языка с неразвитой морфологией и фиксированным ударением (как, например, английский язык) подобная задача действительно не составляет особого труда и удовлетворительно решается простым классификатором, основанным на строгих правилах. При этом для языков с развитой морфологией и подвижным ударением (как, например, русский или отдельные языки хинди) подобная задача становится центральной проблемой исследования и почти никогда не решается в достаточной степени удовлетворительно, оставляя простор для дальнейших исследований. При этом опыт разработки данного направления в англоязычной сфере интересен скорее с методологической точки зрения, поскольку именно там на данный момент в первую очередь появляются и внедряются передовые технологии.
4) Разработать прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера;
Прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера был успешно разработан и протестирован на корпусе из 2500 стихотворных строк. В основе классификатора лежит алгоритм, присваивающий числовую комбинацию ударных и безударных слогов для каждой строки и сравнивающий её со словарём “идеальных” размерных сеток, после чего выдающий наиболее схожий с полученной комбинацией размер. Точность классификатора в построчном анализе существенно ниже, чем для стихотворений целиком, и сильно колеблется в зависимости от размера: для строк анапеста точность составляет всего 10%, в то время как ямбические строки определяются в половине случаев.
5) Разработать прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера;
Прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера был успешно разработан и натренирован на корпусе из 5062 стихотворных строк. С помощью библиотеки для машинного обучения scikit-learn был разработан механизм извлечения признаков из необработанного текста, затем был проведён сравнительный анализ результатов предварительной работы моделей машинного обучения для решения задачи мультиклассификации, после чего наиболее подходящая модель была обучена на корпусе размеченных и предобработанных данных. Данные в корпусе были собраны на материале поэтического подкорпуса НКРЯ и дополнительно предобработаны библиотекой NLTK, после чего сведены в одну таблицу с помощью библиотеки pandas.
6) Провести сравнительный анализ эффективности и точности определения поэтической метрики текста;
Точность классификатора с применением методов машинного обучения для отдельных размеров была несколько ниже, однако у него не наблюдалось такого разброса между лучшим и худшим результатами, как у классификатора, основанного на строгих правилах, поэтому средние значения точности получились несколько выше. Учитывая этот фактор, а также возможности для дальнейшего повышения процента точности и расширения определяемых признаков стихотворной строки в частности и стихотворения в целом, разработка данного направления классификации в рамках нашего исследования была признана более перспективной и целесообразной.
Таким образом, обозначенные во введении задачи выполнены. В настоящем исследовании был проведён анализ литературы, посвящённой проблеме автоматического определения стихотворного размера, а также были созданы классификаторы поэтической метрики с применением разных подходов и методик, после чего был проведён сравнительный анализ результатов работы. Цель работы была достигнута.
Подобные работы
- Город в концептуальной системе лирического героя как отражение
картины мира (на материале сборника А.С. Кушнера «Таврический сад»)
Бакалаврская работа, филология. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2022 - Город в концептуальной системе лирического героя как отражение картины мира (на материале сборника А.С. Кушнера «Таврический сад»)
Бакалаврская работа, филология. Язык работы: Русский. Цена: 4310 р. Год сдачи: 2022 - ФЕНОМЕН ЖЕНСКОЙ ИНТЕРНЕТ-ПОЭЗИИ
(ВЕРА ПОЛОЗКОВА, СОЛА МОНОВА, АХ АСТАХОВА)
Дипломные работы, ВКР, литература. Язык работы: Русский. Цена: 4450 р. Год сдачи: 2018



