Тема: Экспериментальная реализация алгоритма исправления грамматических ошибок с использованием рекуррентных нейронных сетей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Анализ предметной области 5
1.1 Изучение предметной области машинного обучения и метода
рекуррентных нейронных сетей 5
1.2 Анализ существующих подходов к автоматическому исправлению
грамматических ошибок 8
2. Концептуальные основы машинного обучения методом рекуррентных
нейронных сетей 12
2.1 Нейронные сети 12
2.2 Формальное описание метода 14
3. Экспериментальная реализация алгоритма 17
3.1 Технологии для реализации метода рекуррентных нейронных сетей 17
3.2 Обучающее и тестовое множества 17
3.3 Этап машинного обучения 22
4. Тестирование по результатам обучения 27
4.1 Экспериментальная оценка результатов обучения 27
4.2 Целевой оценочный тест реализации алгоритма 31
Список использованных источников 34
📖 Введение
Без сомнения на данный момент существует большое количество готовых решений, таких как LanguageTool и ОРФО. Некоторые из них с самого начала существования ориентировались на русский язык, некоторые модифицированы для работы с ним, однако ни одна система не будет представлять идеальный результат. В упомянутых сервисах имеются проблемы, связанные с границами предложений, недостаточный словарь, некоторая путаница с прилагательными и не предназначенность для научного стиля речи в силу многочисленных терминов и неологизмов. При этом нельзя отрицать, что они достигли высоких достижений.
Данные результаты в области обработки естественного языка получены методами машинного обучения, в частности рекуррентные нейронными сетями. Популярные в настоящее время, рекуррентные нейронные сети отличаются от других подходов тем, что могут использовать информацию, обработанную на предыдущих шагах. С помощью этого рекуррентные нейронные сети смогут решить некоторые проблемы, встреченные у рассмотренных сервисов, например, связанные с границами предложений. Они уже показали более успешные по сравнению с альтернативными
подходами результаты в таких задачах, как распознавание речи, компьютерное зрение, машинный перевод и др.
Таким образом, актуальной является разработка системы исправления грамматических ошибок с использованием такой технологии машинного обучения, как рекуррентные нейронные сети.
Цель данной работы — исследовать возможность реализации алгоритма, направленного на поиск и исправление грамматических ошибок в тексте, при помощи методов машинного обучения, а именно с использованием рекуррентные нейронные сети.
Для этого необходимо решить данные задачи:
• провести анализ существующих на данный момент решений проблемы автоматической коррекции грамматических ошибок и метода рекуррентных нейронных сетей
• провести поиск существующих технологий и библиотек для реализации рекуррентных нейронных сетей, выбрать подходящую
• подготовить обучающий и тестовый набор текстов с грамматическими ошибками и без для работы выбранной технологии
• провести обучение на полученных текстах и провести эксперименты с тестовыми данными для выявления качества алгоритма
✅ Заключение
В ходе работы были изучены существующие подходы к исправлению грамматических ошибок и инструменты для их реализации. Были выявлены недостатки и особенности используемых для задачи решений. После исследования и выбора подходящего метода, которым стало обучение последовательность к последовательности, были подготовлены обучающее и тестовое множества на основе романов художественной литературы объемом 30 000 предложений. С их помощью успешно было произведено обучение рекуррентных нейронных сетей с использованием LSTM-модулей на основе инструмента keras для языка программирования Python.
В результате был получен алгоритм автоматического исправления грамматических ошибок. Система показывает точность в 74%, тем не менее было замечено, что алгоритм не справляется с предложениями, длиной более 80 символов. Это связано с большим объемом данным, обрабатываемым сетью при работе с каждым словом.
Для решения этой проблемы в дальнейшем процессе работы над рассматриваемой задачей можно использовать механизм внимания, который помогает нейронной сети рассматривать предложение не целиком, а фокусироваться только на важных для текущего токена элементах.



