📄Работа №215338

Тема: Разработка и исследование методов выделения и классификации поэтических текстов

📝
Тип работы Дипломные работы, ВКР
📚
Предмет информатика
📄
Объем: 29 листов
📅
Год: 2022
👁️
Просмотров: 12
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

ВВЕДЕНИЕ 7
1 ЗАДАЧА КЛАССИФИКАЦИИ ПОЭТИЧЕСКИХ ТЕКСТОВ 9
1.1 Обработка естественного языка 9
1.2 Обзор существующих средств классификации стихотворений 11
1.3 Методы классификации текстов 13
1.4 Выбор СУБД и языка программирования 16
1.5 Выводы по разделу 17
2 КЛАССИФИКАЦИЯ ПОЭТИЧЕСКИХ ТЕКСТОВ С ПОМОЩЬЮ
НЕЙРОННЫХ СЕТЕЙ 19
2.1 Архитектура свёрточной нейронной сети 22
2.2 Архитектура рекуррентной нейронной сети 24
2.3 Кодирование текста 26
2.4 Выводы по разделу 27
3.3 Нормализация текста 33
3.4 Расстановка ударений 33
3.5 Обучение нейронных сетей 34
3.6 Сравнение эффективности LSTM и CNN 36
3.7 Разработка интерфейса пользователя 37
ЗАКЛЮЧЕНИЕ 44
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 45

Приложения должны быть в работе, но в данный момент отсутствуют

📖 Введение

В 2000-е годы социальные сети становятся не просто каналами распространения информации, но и полем, новым пространством, в котором каноничные формы словесности трансформируются и синтезируются.
Проблема взаимодействия человека с новыми медиа (социальными сетями) становится все более актуальной и является предметом исследования в различных областях знания. В последнее десятилетие в пространстве социальных сетей активно развивается художественная словесность. Поэты, наряду со обычными постами о быте, путешествиях, социально-значимых и культурных событиях активно публикуют стихотворения в социальных сетях.
Поэзия как особое творческое восприятие мира всегда первой реагирует на новые веяния, тенденции, явления отражая их, демонстрируя взаимосвязь одного с другим. Современная поэзия - это поэзия мира медиа, новых технологий и социальных сетей. Так или иначе, абсолютно во всех современных поэтических текстах обнаруживается связи с миром новых медиа на структурном, тематическом и смысловом уровнях.
Комплексные методы исследования данного культурного феномена (сочетание количественных методов с литературоведческим анализом) позволят вывить некоторые визуально-графические особенности (астрофичность сетевой поэзии), метрические особенности (превалирование верлибра над силлабо-тонической системой стихосложения).
Важным в изучении феномена поэзии в социальных сетях также является формирование базы данных исследуемых текстов, выборка только художественных текстов со страниц поэтов и их дальнейшая каталогизация на различные категории. Очевидно, что в лентах своих социальных сетей поэты размещают не только стихотворения, но и обычные посты, содержащие различные высказывания или комментарии. Для качественного исследования сетевой поэзии также необходимо классифицировать художественные тексты внутри творчества отдельного автора (например, посмотреть сколько верлибров и рифмованных стихотворений в поэзии того или иного автора).
Собранный и обработанный с помощью разработанного программного обеспечения материал позволит обратиться к ранее не исследованному обширному корпусу текстов, расширить представления о функционировании и развитии современной русской поэзии.
Для классификации текста используются подходы с применением ручных аннотаций и фиксированных правил, либо алгоритмы машинного обучения. Также в условиях стремительного развития интернета появляется большое количество современных поэтов, публикующихся в социальных сетях, что делает процесс автоматизированной классификация текста всё более востребованным. Классификация на основе правил требует глубоких познаний в предметной области, тогда как машинное обучение позволяет классифицировать текст на основе наблюдения за данными. Используя примеры текстов с заранее определёнными параметрами алгоритмы машинного обучения учатся переносить этот опыт на новые тексты.
Для достижения поставленной цели необходимо решить следующие задачи.
1. Провести анализ существующих средств классификации стихотворений.
2. Составить математическую модель поэтического текста.
3. Определить метод классификации, подходящий для решения поставленной задачи.
4. Выполнить программную реализацию алгоритма.
5. Провести тестирование на экспериментальных данных.
6. Разработать пользовательский интерфейс для работы с классификатором.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Цель данной работы заключалась в разработке программы для автоматизированного сбора и классификации русскоязычных поэтических текстов.
В ходе работы были проанализированы существующие программные решения, была составлена математическая модель, рассмотрены методы классификации текстов.
В качестве метода решения было выбрано решение с использованием свёрточной и рекуррентной нейронных сетей. Для их обучения и тестирования была собрана и размечена выборка, состоящая из 2780 текстов, собранных со страниц поэтов. Реализованный алгоритм был проверен на тестовой выборке и показал точность от 78% до 96% в зависимости от класса стихотворения.
Можно заключить, что для задачи классификации поэтических текстов свёрточная нейронная сеть демонстрирует явное преимущество над рекуррентной нейронной сетью. Данная работа опиралась на результаты опубликованной научной статьи [5].
Программа реализована на языке программирования JavaScript с использованием библиотек electron и react для создания интерфейса пользователя, в качестве базы данных использована SQLite. Для разработки архитектуры нейронной сети использована библиотека Keras для языка программирования Python. Код с архитектурой нейронных сетей был опубликован в [26].
Разработанная программа была протестирована и внедрена в работу Лаборатории цифровой филологии Южно-Уральского государственного университета (см. приложение 1).

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1 Барахнин, В. Б. Алгоритмы комплексного анализа русских поэтических текстов с целью автоматизации процесса создания метрических справочников и конкордансов / В. Б. Барахнин, О. Ю. Кожемякина, А. В. Забайкин // Институт вычислительных технологий СО РАН, Новосибирский государственный университет. – 2015. – С. 138–143.
2 Вавилонская Башня. СТАРЛИНГ – программа для работы с лингвистически ориентированными текстами и базами данных. – URL: http://starling.rinet.ru/indexru.htm(дата обращения: 06.04.2021)
3 Козьмин, А. В. Автоматический анализ стиха в системе Starling / А. В. Козьмин // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006». – Москва: Издательский центр РГГУ, 2006. – С. 265–268.
4 Ляпунов, А. А. О соотношении понятий материя, энергия и информация / А. А. Ляпунов // Проблемы теоретической и прикладной кибернетики. – Новосибирск: Наука, 1980. – С. 320–323.
5 Самбурский, М. С. Исследование применимости свёрточной и рекуррентной нейронных сетей для классификации русскоязычных поэтических текстов / М. С. Самбурский, Т. Ю. Оленчикова // Южно¬Уральская молодежная школа по математическому моделированию: сб. тр. V Всеросс. студ. науч.-практ. конф. – Челябинск: Издательский центр ЮУрГУ, 2022. – С. 56–61.
6 Тарановский, К. О взаимоотношении стихотворного ритма и тематики / К. Тарановский // О поэзии и поэтике. – Москва: Языки Русской культуры, 2000. – С. 372–403.
7 Aggarwal, C. C. A survey of text classification algorithms / C. C. Aggarwal, C. Zhai // Springer. – Boston. – 2012. – P. 163–222.
8 Aich, S. Convolutional neural network-based model for web-based text classification / S. Aich, S. Chakraborty, H. C. Kim // International Journal of Electrical and Computer Engineering. - 2019. - Vol. 9. - № 6. - P. 5185-5191.
9 Azam, M. Feature Extraction based Text Classification using KNearest Neighbor Algorithm / M. Azam, T. Ahmed, F. Sabah, and M. I. Hussain // Int. Computer Science Network Security. - 2018. - P. 95-101.
10 Baumann, T. Style Detection for Free Verse Poetry from Text and Speech / T. Baumann, H. Hussein, B. Meyer-Sickendiek // Proceedings of the 27th International Conference on Computational Linguistics. - 2018. - P. 1929-1940.
11 Bird, S. Natural Language Processing with Python / S. Bird, E. Klein, E. Loper - Farnham: O’Reilly, 2009. - 502 p.
12 Cortes, C. / Support-Vector Network. Machine Learning // C. Cortes, V. Vapnik // Springer. - 1995. - P. 273-297.
13 Chen, G. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization / G. Chen, D. Ye, Z. Xing, J. Chen, E. Cambria // International Joint Conference on Neural Networks (IJCNN). - 2017. - P. 2377-2383.
14 Gachli, R. Online news text classification using Neural network and SVM / R. Gachli // International Journal of Engineering & Technology. - 2015.
15 Hassan, A. Efficient Deep Learning Model for Text Classification Based on Recurrent and Convolutional Layers / A. Hassan, and A. Mahmood // In Machine Learning and Applications (ICMLA). - 2017. - P. 1108-1113.
16 Hochreiter, S. Long short-term memory / S. Hochreiter, J. Schmidhuber // Neural computation - 1997. - Vol. 9. - № 8. - P. 1735-1780.
17 Hopkins, J. Automatically generating rhythmic verse with neural networks / J. Hopkins, D. Kiela // Association for Computational Linguistics. - 2017. - Vol. 1. - P. 168-178.
18 Hughes, M. Medical Text Classification using Convolutional Neural
Networks / M. Hughes, I. Li, S. Kotoulas, T. Suzumura // arxiv.org. - 2015. - 5 p.
19 Jacovi, A. Understanding Convolutional Neural Networks for Text Classification / A. Jacovi, O. S. Shalom, Y. Goldberg // arxiv.org. – 2018. – 10 p.
20 Jamal, N. Poetry classification using Support Vector Machines / N. Jamal, M. Mohd, S. A. Noah // Journal of Computer Science. – 2012. – № 9. – P. 1441–1446.
21 Jiang, L. Deep feature weighting for naive Bayes and its application to text classification / L. Jiang, C. Li, S. Wang, and L. Zhang // Engineering Applications of Artificial Intelligence. – 2016. – P. 26–39.
22 Johnson, R. Effective use of word order for text categorization with convolutional neural networks / R. Johnson, T. Zhang // arxiv.org. – 2014. – 10 p.
23 Kim, Y. Convolutional neural networks for sentence classification / Y. Kim // arxiv.org. – 2014. – 6 p.
24 Lou, A. Multilabel subject-based classification of poetry / A. Lou, D. Inkpen, C. Tanasescu // FLAIRS Conference. – 2015. – P. 187–192.
25 Naik, C. Document Classification using Neural Networks Based on Words / C. Naik, V. Kothari, Z. Rana // International Journal of Advanced Research in Computer Science. – 2015. – 4 p.
26 Poems classification with CNN and LSTM – URL: https://github.com/alpacone/poems-cnn-lstm(дата обращения: 16.04.2022).
27 Sari, W. K. Sequential Models for Text Classification Using Recurrent Neural Network / W. K. Sari, D. P. Rini, R. F. Malik, I. S. B. Azhar // Advances in Intelligent Systems Research. – 2019. – P. 333–340.
28 Text classification with a Recurrent Neural Network – URL: https://www.tensorflow.org/text/tutorials/text_classification_rnn(дата обращения: 28.11.2021).
29 Veber, J. Classifying Plain Source Files with Neural Network // Journal of systems integration. – 2010. – № 4. – P. 39–44.
30 Xiao, Y. Efficient character-level document classification by combining convolution and recurrent layers / Y. Xiao, K. Cho // arxiv.org. – 2016. – 10 p.
31 Yoon, K. Convolutional neural networks for sentence classification /
Yoon K. // arxiv.org. – 2014. – 6 p.
32 Zhang, X. Character-level convolutional networks for text classification / X. Zhang, J. Zhao, Y. LeCun // In Advances in neural information processing systems. – 2015. – P. 649–657.

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ