Тема: Разработка и исследование методов выделения и классификации поэтических текстов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 ЗАДАЧА КЛАССИФИКАЦИИ ПОЭТИЧЕСКИХ ТЕКСТОВ 9
1.1 Обработка естественного языка 9
1.2 Обзор существующих средств классификации стихотворений 11
1.3 Методы классификации текстов 13
1.4 Выбор СУБД и языка программирования 16
1.5 Выводы по разделу 17
2 КЛАССИФИКАЦИЯ ПОЭТИЧЕСКИХ ТЕКСТОВ С ПОМОЩЬЮ
НЕЙРОННЫХ СЕТЕЙ 19
2.1 Архитектура свёрточной нейронной сети 22
2.2 Архитектура рекуррентной нейронной сети 24
2.3 Кодирование текста 26
2.4 Выводы по разделу 27
3.3 Нормализация текста 33
3.4 Расстановка ударений 33
3.5 Обучение нейронных сетей 34
3.6 Сравнение эффективности LSTM и CNN 36
3.7 Разработка интерфейса пользователя 37
ЗАКЛЮЧЕНИЕ 44
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 45
Приложения должны быть в работе, но в данный момент отсутствуют
📖 Введение
Проблема взаимодействия человека с новыми медиа (социальными сетями) становится все более актуальной и является предметом исследования в различных областях знания. В последнее десятилетие в пространстве социальных сетей активно развивается художественная словесность. Поэты, наряду со обычными постами о быте, путешествиях, социально-значимых и культурных событиях активно публикуют стихотворения в социальных сетях.
Поэзия как особое творческое восприятие мира всегда первой реагирует на новые веяния, тенденции, явления отражая их, демонстрируя взаимосвязь одного с другим. Современная поэзия - это поэзия мира медиа, новых технологий и социальных сетей. Так или иначе, абсолютно во всех современных поэтических текстах обнаруживается связи с миром новых медиа на структурном, тематическом и смысловом уровнях.
Комплексные методы исследования данного культурного феномена (сочетание количественных методов с литературоведческим анализом) позволят вывить некоторые визуально-графические особенности (астрофичность сетевой поэзии), метрические особенности (превалирование верлибра над силлабо-тонической системой стихосложения).
Важным в изучении феномена поэзии в социальных сетях также является формирование базы данных исследуемых текстов, выборка только художественных текстов со страниц поэтов и их дальнейшая каталогизация на различные категории. Очевидно, что в лентах своих социальных сетей поэты размещают не только стихотворения, но и обычные посты, содержащие различные высказывания или комментарии. Для качественного исследования сетевой поэзии также необходимо классифицировать художественные тексты внутри творчества отдельного автора (например, посмотреть сколько верлибров и рифмованных стихотворений в поэзии того или иного автора).
Собранный и обработанный с помощью разработанного программного обеспечения материал позволит обратиться к ранее не исследованному обширному корпусу текстов, расширить представления о функционировании и развитии современной русской поэзии.
Для классификации текста используются подходы с применением ручных аннотаций и фиксированных правил, либо алгоритмы машинного обучения. Также в условиях стремительного развития интернета появляется большое количество современных поэтов, публикующихся в социальных сетях, что делает процесс автоматизированной классификация текста всё более востребованным. Классификация на основе правил требует глубоких познаний в предметной области, тогда как машинное обучение позволяет классифицировать текст на основе наблюдения за данными. Используя примеры текстов с заранее определёнными параметрами алгоритмы машинного обучения учатся переносить этот опыт на новые тексты.
Для достижения поставленной цели необходимо решить следующие задачи.
1. Провести анализ существующих средств классификации стихотворений.
2. Составить математическую модель поэтического текста.
3. Определить метод классификации, подходящий для решения поставленной задачи.
4. Выполнить программную реализацию алгоритма.
5. Провести тестирование на экспериментальных данных.
6. Разработать пользовательский интерфейс для работы с классификатором.
✅ Заключение
В ходе работы были проанализированы существующие программные решения, была составлена математическая модель, рассмотрены методы классификации текстов.
В качестве метода решения было выбрано решение с использованием свёрточной и рекуррентной нейронных сетей. Для их обучения и тестирования была собрана и размечена выборка, состоящая из 2780 текстов, собранных со страниц поэтов. Реализованный алгоритм был проверен на тестовой выборке и показал точность от 78% до 96% в зависимости от класса стихотворения.
Можно заключить, что для задачи классификации поэтических текстов свёрточная нейронная сеть демонстрирует явное преимущество над рекуррентной нейронной сетью. Данная работа опиралась на результаты опубликованной научной статьи [5].
Программа реализована на языке программирования JavaScript с использованием библиотек electron и react для создания интерфейса пользователя, в качестве базы данных использована SQLite. Для разработки архитектуры нейронной сети использована библиотека Keras для языка программирования Python. Код с архитектурой нейронных сетей был опубликован в [26].
Разработанная программа была протестирована и внедрена в работу Лаборатории цифровой филологии Южно-Уральского государственного университета (см. приложение 1).



