Тема: Разработка методов распознавания математического текста
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Предварительная обработка изображения документа 5
1.1. Удаление шума 5
1.1.1. Обзор методов, выбор оптимального алгоритма 6
1.2. Сегментация и структурный анализ изображения до кумента 8
1.2.1. Обзор методов 9
1.2.2. Docstrum 11
Глава 2. Формирование структуры строк документа и выражений 17
2.1. Уточнение границ 17
2.2. Сегментация выражений 18
2.2.1. Обзор методов 19
2.2.2. Предложенный метод 20
Глава 3. Распознавание символов и текста 25
3.1. Нейронная сеть 25
3.2. Касающиеся символы 26
3.3. Обработка полученного результата 27
Глава 4. Формирование результата 29
4.1. Формирование макета страницы 29
4.2. Обработка выражений 29
Глава 5. Тестирование, оценка результатов, интерфейс 30
5.1. Тестовые данные 30
5.2. Оценка результата 30
5.3. Интерфейс и реализация 31
Заключение 33
Список литературы 34
📖 Введение
Так же в настоящее время широко распространено использование электронной информации. Существует множество электронных библиотек, но не все книги и статьи доступны в таком варианте. Множество научных изданий содержит сложные математические формулы и выражения, но большинство существующих систем распознавания не способны представить корректный результат, так как для распознавания двумерной структуры формул необходимы несколько иные методы. Решение задачи распознавания математического текста могло бы дать возможность для перевода книг и статей в цифровой вид, а так же возможность откорректировать информацию перед сохранением.
Обзор существующих решений
На сегодняшний день существует много вариантов программного обеспечения для распознавания печатного текста. Коммерческие программы — Abbyy FineReader [1], OmniPage [2], Acrobat Capture, OCR, font, and page recognition [3]. Эти программы имеют большую функциональность, высокую точность распознавания, поддерживают большое число языков, например, Abby FineReader обеспечивает поддержку 192 языков. Из свободно распространяемых программ можно отметить Tesseract [4], который имеет открытый исходный код и обеспечивает поддержку 100 языков.
Но все описанные решения либо совсем не обеспечивают распознавание математических символов, либо, как Abby FineReader, поддерживают простые строчные формулы, допуская только верхние и нижние индексы. InftyReader [5] — коммерческое программное обеспечение для распознавания математических формул и текстов, которое предлагает выходной текст в 3 форматах — LATEX, MathML и XHTML.
Постановка задачи
Цель данной работы - разработать систему, способную распознать математический текст на английском языке и представить результат в формате LATEX.
Для успешного решения задачи распознавания документа необходимо решить несколько подзадач:
1. Анализ и подготовка изображения страницы: удаление шума, определение угла наклона содержимого страницы, сегментация — разбиение на текстовые и нетекстовые блоки.
2. Формирование структуры документа.
3. Оптическое распознавание извлеченных символов.
4. Формирование и вывод результата.
Данная работа построена следующим образом. Примерно, каждая глава описывает одну из стадий (изображено на рис. 1) обработки документа, проблематику задач данного этапа, методы их решения, реализацию или адаптацию подходящего алгоритма. В Главе 1 описываются методы предварительной обработки документа — удаление шума, определение угла искажения, сегментация на блоки, в Главе 2 описывается структурный анализ, в Главе 3 дается архитектура нейронной сети, описывается распознавание символов, Глава 4 описывает модуль, генерирующий выходной результат. Глава 5 представляет некоторые результаты и разработанный интерфейс.
Рис. 1. Блок-схема
✅ Заключение
Конечно, система нуждается в доработке и улучшении. Например, поддержка более сложных математических конструкций — на данном этапе система может распознавать системы, однако матрицы, которые могут иметь не стандартную структуру, содержать специальные символы — диагональные точки, крупные символы, занимающие несколько ячеек, на данный момент не поддерживаются. Кроме того, возможно, добавление большего числа правил и семантики фрагментам может улучшить результаты распознавания структуры.
Также, если говорить в целом о системе обработки изображения документа, то необходим модуль классифицирующий нетекстовые части изображения — картинки, графики, распознающий таблицы. Однако, это отдельная нетривиальная задача, не являющаяся целью данной работы.





