Тема: РАЗРАБОТКА СИСТЕМЫ ОБРАБОТКИ МАТЕМАТИЧЕСКИХ РУКОПИСНЫХ ФОРМУЛ С ПРИМЕНЕНИЕМ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1.1. Распознавание рукописных математических формул 7
1.2. Обзор аналогичных проектов и существующих решений 8
1.3. Обзор готовых решений для создания нейронных сетей 12
1.4. Соревнование по распознаванию математических формул 13
Выводы по первому разделу 14
2. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 16
2.1. Сверточные нейронные сети 16
2.2. Алгоритм BFS (breadth-first search) 17
Выводы по второму разделу 18
3. ПРОЕКТИРОВАНИЕ 19
3.1. Варианты использования системы распознавания формул 19
3.2. Проектирование графического интерфейса пользователя 21
Выводы по третьему разделу 22
4. РЕАЛИЗАЦИЯ 23
4.1. Формирование обучающей выборки 23
4.2. Топология нейронной сети 27
4.3. Распознавание формулы 28
4.4. Разработка веб-сервиса 30
Выводы по четвертому разделу 32
5. ТЕСТИРОВАНИЕ 33
Вывод по пятому разделу 34
ЗАКЛЮЧЕНИЕ 35
ЛИТЕРАТУРА 36
ПРИЛОЖЕНИЯ 39
Приложение 1. Скриншоты веб-сервиса 39
Приложение 2. Примеры распознавания 41
Приложение 3. Награды 43
📖 Введение
Искусственные нейронные сети (ИНС) (Artificial neural networks, ANN) — упрощенные модели биологических нейронных сетей [26].
Сверточные нейронные сети (СНС, CNN) очень похожи на обычные нейронные сети: они также построены на основе нейронов, которые обладают изменяющимся весом и смещениями. Каждый нейрон получает некоторые входные данные, выполняет скалярное произведение информации и в отдельных ситуациях сопровождает это нелинейностью. Как и в случае с обычными нейронными сетями, вся CNN выражает одну дифференцируемую функцию взноса (эффективный взнос): с одной стороны, это необработанные пиксели изображения, с другой — вывод класса или группы вероятных классов, характеризующих картинку [29].
Классификация — один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделенных некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества [25].
Задача сегментации может быть сформулирована как разбиение исходного изображения на множество непересекающихся связных областей, ассоциируемых с объектами наблюдаемой сцены или их частями в соответствии с некоторыми выбранными критериями [30].
LaTeX — наиболее популярный набор макрорасширений системы компьютерного набора TeX [24].
АКТУАЛЬНОСТЬ ТЕМЫ ИССЛЕДОВАНИЯ
Задача распознавания печатного и рукописного текста приобрела актуальность в связи с широким распространением компьютерной техники. Существует множество решений задачи распознавания текста, вплоть до онлайн-сервисов [22]. Уровень распознавания существующих инструментов позволяет автоматизировать обработку машинописного текста и свести к минимуму необходимость постобработки человеком. Например, такими возможностями обладает программа ABBYY FineReader [27] и программа InftyReader [4]. Обе эти программы практически точно распознают печатные математические формулы. Однако в распознавании рукописных математических формул этот уровень еще достигнут.
C 2011 по 2016 год проводилось ежегодное соревнование по распознаванию математических формул — CROHME (Competition on Recognition of Online Handwritten Mathematical Expressions). Последнее подобное соревнование было проведено в 2016 году. Победу одержала команда «WIRIS» [11]. Для классификации отдельных символов ими были использованы технологии нейронных сетей.
Идея распознавания символов с помощью искусственных нейронных сетей рассматривалась Яном Лекуном и другими исследователями в работе «Handwritten character recognition using neural networks architecture» [8]. Задача распознавания символов является задачей классификации. Для решения этой задачи в основном используются сверточные нейронные сети.
Задача распознавания машинописного текста/формул и рукописного текста практически решена, однако распознавание рукописных математических выражений, по-прежнему, является актуальной задачей на сегодняшний день. Наиболее перспективным подходом к решению данной задачи является применение нейросетевых технологий.
ЦЕЛЬ И ЗАДАЧИ ИССЛЕДОВАНИЯ
Целью данной работы является разработка системы обработки математических рукописных формул, перевода рукописных формул в цифровые форматы LaTeX, MathML. Система должна быть реализована в виде веб-сервиса.
Для осуществления поставленной цели необходимо решить следующие задачи.
1. Провести обзор существующих аналогов и научной литературы по распознаванию рукописного текста и математических формул.
2. Подготовить обучающую и тестовую выборку рукописных символов.
3. Разработать нейронную сеть для распознавания рукописных математических символов.
4. Провести тестирование нейронной сети.
5. Реализовать систему обработки рукописных математических формул в виде веб-сервиса и провести ее тестирование.
СТРУКТУРА И ОБЪЕМ РАБОТЫ
Работа состоит из введения, 5 разделов, заключения, библиографии и трех приложений. Объем работы составляет 43 страницы, объем библиографии — 30 источников, объем приложений — 5 страниц.
В первой главе производится анализ предметной области и обзор существующих аналогов в данной области. Также здесь приведены существующие решения для создания нейронных сетей.
Во второй главе приведены описания алгоритмов, используемых в программной системе.
В третьей главе содержатся требования к классам нейронной сети, функциональные требования к программной системе, а также варианты использования этой системы.
Четвертая глава содержит детали реализации системы распознавания рукописных математических формул.
В пятой главе приведены результаты тестирования нейронной сети и системы распознавания рукописных математических формул.
В заключении приводятся основные результаты работы и рассматриваются направления дальнейших исследований.
✅ Заключение
В ходе разработки были решены следующие задачи.
1. Был проведен обзор существующих аналогов и научной литературы по распознаванию рукописного текста и математических формул.
2. Была подготовлена обучающая и тестовая выборка рукописных символов.
3. Разработана нейронная сеть для распознавания рукописных математических символов.
4. Проведено тестирование нейронной сети.
5. Реализована система обработки рукописных математических формул в виде веб-сервиса и проведено ее тестирование.
Работа апробирована на XIII Уральской выставке научно-технического творчества молодежи «Евразийские ворота России». Получила высокую оценку и диплом первой степени за лучшую творческую работу по информационным технологиям с вручением памятной медали выставки. Диплом представлен в приложении 3.
Дальнейшее направление работы
Планируется продолжать разработку и улучшение веб-сервиса, в частности.
1. Улучшить процент распознавания символов нейронной сетью путем увеличения обучающей выборки.
2. Увеличить количество классов в обучающей выборке.
3. Увеличить скорость распознавания.
4. Повысить удобство использования веб-сервиса.





