Тип работы:
Предмет:
Язык работы:


Создание инструмента для исследования метрики и ритмики поэтического текста

Работа №122431

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы89
Год сдачи2022
Стоимость4955 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
75
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Теоретические аспекты русской метрики 8
1.1. Анализ становления и развития русской силлабо-тоники 8
1.2. Исследования актуальных статистических моделей анализа стихотворного размера 25
Глава 2. Создание инструмента для автоматического анализа поэтической метрики 47
2.1. Имплементация классификатора поэтической метрики, основанного на правилах 48
2.2. Имплементация классификатора поэтической метрики с применением методов машинного обучения 56
2.3. Сравнительный анализ результатов работы классификатора поэтической метрики, основанного на строгих правилах, и классификатора поэтической метрики с применением методов машинного обучения 66
Заключение 69
Библиографический список 80
Приложения 84

Мировая тенденция к глобализации проникает во все сферы жизни. В условиях постоянного обновления и совершенствования технологий от современного специалиста требуется столь же постоянное обучение и поиск новых способов, методов и техник применения передовых наработок науки к своей сфере деятельности. Именно в этом русле лежит проблема создания инструмента для автоматического анализа поэтического текста. Мы не можем не признавать, что проблема определения размера стихотворения до сих пор остаётся не разрешённой в достаточной мере и вызывает множество затруднений и разночтений.
Между тем, мы должны отметить, что данная проблема не выпадала из внимания учёных, периодически вызывая дополнительный интерес, связанный с появлением какой-либо новой технологии или идеи, которую можно было бы применить к существующей проблеме и получить возможные положительные результаты. Так случилось в начале XX века, когда к проблеме определения размера были применены математические методы, потом то же самое произошло уже в последней трети XX века, когда компьютеры получили широкое распространение в науке. Так происходит и в последние несколько лет, когда компьютерных мощностей становится достаточно для применения алгоритмов машинного обучения и нейросетей.
Актуальность изучения возможностей создания инструмента для автоматического определения поэтической ритмики текста заключается в том, что данная проблема представляет собой постоянное препятствие как для школьников, пытающихся определить размер стихотворения на уроке литературы, так и для исследователей, занимающихся анализом поэтического текста и его влиянием на психику и когнитивные способности человека. При этом новые наработки в области глубокого обучения и нейросетей позволяют надеяться, что их можно будет применить и к данной проблеме.
Степень научной разработанности темы
Поэтическая ритмика не раз выступала объектом исследования в разных гуманитарных науках. Однако попыток создания инструмента для автоматического анализа текста было не так много, более того, не все из этих попыток заканчивались рабочими прототипами, пригодными к использованию.
Следует отметить, что практические подходы к созданию данного инструмента наметились в двух вариациях. Во-первых, это наиболее часто используемый метод классификатора, основанного на строгих правилах, где в систему изначально заложены схемы размеров, и её задача состоит в сравнении подаваемой пользователем строки с этими размерными сетками и в выдаче наиболее подходящего варианта. Во-вторых, существует разновидность вышеупомянутого классификатора, в котором он не сравнивает заранее известный размер с размером, полученным для строки, а пытается на основе выявления закономерностей и слогов определить его с нуля. Иной подход связан с использованием алгоритмов машинного обучения и расширением способов применения задачи небинарной классификации, для которой сперва собирается объёмный корпус размеченных стихотворных строк и даётся машине на обучение, после чего происходит извлечение различных свойств и закономерностей, по которым машина старается предсказать размер строки, полученной на вход.
Гипотеза
Выдвигается предположение о том, что через применение алгоритмов машинного обучения возможно будет добиться точности определения размера стихотворения выше, чем при применении классификатора, основанного на строгих правилах, поскольку технологии машинного обучения являются более адаптивными и лучше смогут работать с такой непостоянной и многоаспектной структурой как стихотворный размер.
Объект исследования — русская поэтическая метрика.
Предмет исследовательской работы — поэтический размер текста, программы и библиотеки для создания инструмента анализа размера поэтического текста, способы разработки инструментов для автоматического анализа метрики и ритмики поэтического текста.
Цель работы — создание и сравнительный анализ эффективности двух прототипов для анализа поэтического размера текста.
Поставленная цель определила следующие задачи:
1. Проанализировать путь становления и развития русской поэтической метрики;
2. Выявить наиболее подходящий и актуальный список размеров для анализа;
3. Изучить предыдущий опыт создания инструментов для автоматического анализа метрики и ритмики поэтического текста как в русскоязычных исследованиях, так и в англоязычной среде;
4. Разработать прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера;
5. Разработать прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера;
6. Провести сравнительный анализ эффективности и точности определения поэтической метрики текста.
В работе над диссертацией используется комплекс методов современного языкознания и программирования, направленных на теоретическое и практическое осмысление основных аспектов исследования русской поэтической метрики в её современном осмыслении.
Материал исследования
Стоит обозначить, что исследование ограничено, прежде всего, силлабо-тоническими размерами как теми, которые до сих пор получают наибольшее распространение в образовательной среде. С учётом относительного постоянства размерной сетки на протяжении всего произведения нами были отобраны стихотворения общим размером более пяти тысяч стихотворных строк, по одной тысяче строк каждого размера соответственно. Стихотворения были отобраны из материалов поэтического подкорпуса НКРЯ, Полный список этих стихотворений с разбивкой по размерам можно увидеть в Приложении 1.
Положения, выносимые на защиту
Создание инструмента для автоматического анализа поэтической метрики и ритмики текста; сравнительный анализ точности классификатора, основанного на строгих правилах, с алгоритмом машинного обучения; применение алгоритмов машинного обучения для дальнейшего анализа поэтических текстов.
Теоретическая новизна
В данном исследовании впервые в отечественном гуманитарном знании представлен развернутый анализ современных англоязычных исследований, посвящённых проблематике применения алгоритмов машинного обучения и нейронных сетей к определению метрики и ритмики поэтического текста. Проанализированы материалы для языков как с подвижным, так и с фиксированным ударением. Материалы работы могут послужить хорошей отправной точкой для более масштабных и детальных исследований по данной теме.
Практическая новизна
Данное исследование может послужить как научно-методический материал для исследований, связанных с областью исследования русской поэтической метрики и способов применения алгоритмов машинного обучения для упрощения этой задачи, а также как основа для будущих исследований, расширения и углубления.
Структура выпускной квалификационной работы
Работа состоит из Введения, двух глав, Заключения, Списка использованной литературы и Приложения. Во Введении представлена проблема исследования, актуальность, степень разработанности темы, обозначены объект, предмет, цель и задачи исследования. В первой главе представлено рассмотрение становления и развития русской поэтической традиции, а также обзор современных исследований проблематики использования алгоритмов машинного обучения при решении задачи автоматического определения метрики и ритмики текста. Вторая глава посвящена созданию двух прототипов инструментов для анализа поэтического текста, а именно — классификатора, основанного на строгих правилах, и алгоритма машинного обучения. В заключении подведены основные выводы и итоги исследования. Общий объём работы — 85 страниц.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Итогом настоящего магистерского диссертационного исследования явилось достаточно полное представление о возможностях, недостатках, особенностях и перспективах применения алгоритмов машинного обучения для решения задачи автоматического определения поэтической метрики текста. В ходе диссертационного исследования были получены следующие выводы:
1) Проанализирован путь становления и развития русской поэтической метрики;
Путь становления и развития русской поэтической метрики прослеживается от XVII века и до сегодняшнего дня. Русская силлабика явилась заимствованием из Франции эпохи Нового времени, в то время как русская тоника существовала в неформализованном виде ещё в устном народном творчестве. Благодаря реформе Ломоносова-Тредиаковского возникло представление о русских силлабо-тонических размерах, в которых имело значение как расположение и ритмическое чередование ударных и безударных слогов, так и общее количество слогов в строке.
XX век отметился в русской поэзии как переход от силлабо-тоники к формализованной тонике, разработкой тонических размеров, появлением попыток применения статистических методов к русскому стихосложению. Наблюдалось общее расширение границ допустимого в поэзии.
2) Выявить наиболее подходящий и актуальный список размеров для анализа;
Наиболее подходящий и актуальный список поэтических размеров для анализа был выявлен на основании анализа потребностей основной массы предполагаемых пользователей. В связи с этим было решено остановиться на традиционных школьных силлабо-тонических размерах стиха, поскольку большая часть предполагаемой аудитории — ученики школ, которым нужна помощь в определении размеров классической русской поэзии XIX века. Также, ограничиваясь рамками этих размеров, было существенно проще продумать и имплементировать изначальный алгоритм, который впоследствии можно было бы модифицировать и дополнить тоническими размерами и другой информацией об анализируемом стихотворении.
3) Изучить предыдущий опыт создания инструментов для автоматического анализа метрики и ритмики поэтического текста как в русскоязычных исследованиях, так и в англоязычной среде:
Большинство исследований, в той или иной мере обращающихся к автоматическому анализу метрики поэтического текста, воспринимают данную задачу как побочную для задачи генерации поэтического текста. Результат анализа исследований показывает, что подобное отношение может напрямую зависеть от языка, для которого проводится исследование. Так, для языка с неразвитой морфологией и фиксированным ударением (как, например, английский язык) подобная задача действительно не составляет особого труда и удовлетворительно решается простым классификатором, основанным на строгих правилах. При этом для языков с развитой морфологией и подвижным ударением (как, например, русский или отдельные языки хинди) подобная задача становится центральной проблемой исследования и почти никогда не решается в достаточной степени удовлетворительно, оставляя простор для дальнейших исследований. При этом опыт разработки данного направления в англоязычной сфере интересен скорее с методологической точки зрения, поскольку именно там на данный момент в первую очередь появляются и внедряются передовые технологии.
4) Разработать прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера;
Прототип классификатора, основанного на строгих правилах, для задачи автоматического определения стихотворного размера был успешно разработан и протестирован на корпусе из 2500 стихотворных строк. В основе классификатора лежит алгоритм, присваивающий числовую комбинацию ударных и безударных слогов для каждой строки и сравнивающий её со словарём “идеальных” размерных сеток, после чего выдающий наиболее схожий с полученной комбинацией размер. Точность классификатора в построчном анализе существенно ниже, чем для стихотворений целиком, и сильно колеблется в зависимости от размера: для строк анапеста точность составляет всего 10%, в то время как ямбические строки определяются в половине случаев.
5) Разработать прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера;
Прототип классификатора с применением алгоритмов машинного обучения для задачи автоматического определения стихотворного размера был успешно разработан и натренирован на корпусе из 5062 стихотворных строк. С помощью библиотеки для машинного обучения scikit-learn был разработан механизм извлечения признаков из необработанного текста, затем был проведён сравнительный анализ результатов предварительной работы моделей машинного обучения для решения задачи мультиклассификации, после чего наиболее подходящая модель была обучена на корпусе размеченных и предобработанных данных. Данные в корпусе были собраны на материале поэтического подкорпуса НКРЯ и дополнительно предобработаны библиотекой NLTK, после чего сведены в одну таблицу с помощью библиотеки pandas.
6) Провести сравнительный анализ эффективности и точности определения поэтической метрики текста;
Точность классификатора с применением методов машинного обучения для отдельных размеров была несколько ниже, однако у него не наблюдалось такого разброса между лучшим и худшим результатами, как у классификатора, основанного на строгих правилах, поэтому средние значения точности получились несколько выше. Учитывая этот фактор, а также возможности для дальнейшего повышения процента точности и расширения определяемых признаков стихотворной строки в частности и стихотворения в целом, разработка данного направления классификации в рамках нашего исследования была признана более перспективной и целесообразной.
Таким образом, обозначенные во введении задачи выполнены. В настоящем исследовании был проведён анализ литературы, посвящённой проблеме автоматического определения стихотворного размера, а также были созданы классификаторы поэтической метрики с применением разных подходов и методик, после чего был проведён сравнительный анализ результатов работы. Цель работы была достигнута.



1. Гаспаров М. Л. Оппозиция «стих – проза» и становление русского литературного стиха // Русское стихосложение: Традиции и проблемы развития. – 1985. – С. 264-277.
2. Томашевский Б. В. Стилистика и стихосложение. – 1959.
3. Холшевников В. Е. Основы стиховедения. – Academia;, 2004.
4. Лапшина Н. В., Романович И. К., Ярхо Б. И. Метрический справочник к стихотворениям А. С. Пушкина. — М.; Л.: Academia, 1934.
5. Плунгян В. А. Опыты неклассической метрики у Тютчева. Язык художественной литературы: традиционные и современные методы исследования. М.: Азбуковник, 2016, C. 393-406.
6. Русова Н. Ю. Терминологический словарь-тезаурус по литературоведению. От аллегории до ямба // М.: Флинта, наука. – 2004.
7. Гаспаров М. Л. Очерк истории русского стиха. – Фортуна Лимитед, 2002.
8. Тредьяковский В. К. Избранные произведения. – Советский писатель, 1963. – Т. 2.
9. Ломоносов М. Избранные произведения. – Strelbytskyy Multimedia Publishing, 2018.
10. Чернышевский Н. Г. <Критика>. Сочинения А. С. Пушкина. Изд. П. В. Анненкова // Чернышевский Н. Г. Полное собрание сочинений : В 15 т. М. : Гослитиздат, 1949. Т. 2. — С. 424–516.
11. Востоков А. Х. Опыт о русском стихосложении. – Directmedia, 2013.
12. Белый А. Символизм: Книга статей/Общ. ред. ВМ Пискунова //М.: Республика. – 2010.
13. Жирмунский В. М. Теория стиха. — Ленинград, 1975.
14. Томашевский Б. Русское стихосложение. Метрика. Пг.: Academia, 1923 //Вопросы поэтики. – №. 2.
15. Пушкин А. С. Евгений Онегин. М.: Художественная литература, 1967.
16. Холшевников В. Е. Сверхсхемное ударение // Энциклопедия К. Л. в 9-ти тт.–Т. 6. – 1962.
17. Гаспаров М. Л. Избранные труды, том III // О стихе. М.:«Языки русской культуры. – 1997.
18. Bailey J. Toward a statistical analysis of English verse: the iambic tetrameter of ten poets. – John Benjamins Publishing, 1975. – Т. 1.
19. Červenka M., Sgallová K. On a probabilistic model of the Czech Verse //Prague Studies in Mathematical Linguistics. – 1967. – Т. 2. – С. 105-120.
20. Тарановский К. Русские двусложные размеры. Статьи о стихе. – Litres, 2017.
21. Tarlinskaja M. English Verse //English Verse. – De Gruyter Mouton, 1976.
22. Колмогоров А. Н., Прохоров А. В. К основам русской классической метрики //Содружество наук и тайны творчества. – 1968. – С. 397-432.
23. Рогов, В.В. Что нужно знать переводчику о некоторых особенностях английского стихосложения Текст. /В.В. Рогов: в сборнике Keats J. Selected Poems. -M.: Прогресс, 1966.
24. Schumann A. K., Beierle C., Blößner N. Using finite-state machines to automatically scan Ancient Greek hexameter // Digital Scholarship in the Humanities. – 2022. – Т. 37. – №. 1. – С. 242-253.
25. De la Rosa J. et al. Transformers analyzing poetry: multilingual metrical pattern prediction with transfomer-based language models // Neural Computing and Applications. – 2021. – С. 1-6.
26. Estes A., Hench C. Supervised machine learning for hybrid meter // Proceedings of the fifth workshop on computational linguistics for literature. – 2016. – С. 1-8.
27. Perez Pozo A. et al. A bridge too far for artificial intelligence?: Automatic classification of stanzas in Spanish poetry // Journal of the Association for Information Science and Technology. – 2022.
28. Корчагин К. Русский стих: цезура. – Litres, 2021.
29. Rajan R., Raju A. A. Deep neural network based poetic meter classification using musical texture feature fusion // 2019 27th European Signal Processing Conference (EUSIPCO). – IEEE, 2019. – С. 1-5.
30. Yousef W. A. et al. Learning meters of Arabic and English poems with Recurrent Neural Networks: a step forward for language understanding and synthesis //arXiv preprint arXiv:1905.05700. – 2019.
31. Al-shaibani M. S., Alyafeai Z., Ahmad I. Meter classification of arabic poems using deep bidirectional recurrent neural networks // Pattern Recognition Letters. – 2020. – Т. 136. – С. 1-7.
32. Lamar A., Chambers A. Generating homeric poetry with deep neural networks // 2019 First International Conference on Transdisciplinary AI (TransAI). – IEEE, 2019. – С. 68-75.
33. Gopidi A., Alam A. Computational analysis of the historical changes in poetry and prose //Proceedings of the 1st International Workshop on Computational Approaches to Historical Language Change. – 2019. – С. 14-22.
34. Барахнин В. Б. и др. Автоматизация комплексного анализа русского поэтического текста: модели и алгоритмы // Вестник Новосибирского государственного университета. Серия: Информационные технологии. – 2015. – Т. 13. – №. 3. – С. 5-18.
35. Трошина Н.Н. Исследования по лингвистической поэтике // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Сер. 6, Языкознание: Реферативный журнал. 2018. №4. URL: https://cyberleninka.ru/article/n/issledovaniya-po-lingvisticheskoy-poetike (дата обращения: 15.01.2022).
36. Пильщиков И.А., Старостин А.С. Автоматическое распознавание метра: проблемы и решения // Славянский стих. М.: Рукописные памятники Древней Руси, 2012. С. 492–498.
37. Аншаков О. М. Проблема автоматического определения метра и ритма русского стиха: математические модели и алгоритмы // Института русского языка им. ВВ Виноградова. – 2017. – С. 179.
38. Бойков В. Н., Каряева М. С., Пильщиков И. А. Формально-языковая модель стиха и регулятивов его метра для автоматизированной метрической идентификации // Компьютерная лингвистика и вычислительные онтологии. – 2019. – №. 3. – С. 124-141.
39. Козьмин А. В. Автоматический анализ стиха в системе Starling // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конф. «Диалог 2006» (Бекасово, 31 мая – 4 июня 2006 г.). М., 2006. С. 265–268.
40. Зализняк А. А. Грамматический словарь русского языка. – Русские словари, 2003.
41. Викисловарь. URL: https://ru.wiktionary.org (дата обращения: 16.01.2022).
42. Wikitextparser. URL: https://pypi.org/project/wikitextparser/ (дата обращения: 15.01.2022).
43. Sberbank AI. Classic AI. Phonetic Baseline. URL: https://github.com/sberbank-ai/classic-ai/tree/master/examples/phonetic-baseline (дата обращения: 15.01.2022).
44. Национальный корпус русского языка. 2003—2022. URL: https://ruscorpora.ru/ (дата обращения 23.01.2022).
45. Scikit-learn. URL: https://scikit-learn.org/ (дата обращения: 01.03.2022).
46. Towards Data Science. URL: https://towardsdatascience.com/ (дата обращения: 02.03.2022).
47. Russtress. URL: https://pypi.org/project/russtress/ (дата обращения: 23.01.2022).
48. Ponomareva M. et al. Automated Word Stress Detection in Russian //Proceedings of the First Workshop on Subword and Character Level Models in NLP. – 2017. – С. 31-35.
49. Вычисление стихотворного размера / Хабр. URL: https://habr.com/ru/post/651395/ (дата обращения: 28.12.2021).


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ