Введение 2
Глава 1. Предварительная обработка изображения документа 5
1.1. Удаление шума 5
1.1.1. Обзор методов, выбор оптимального алгоритма 6
1.2. Сегментация и структурный анализ изображения до кумента 8
1.2.1. Обзор методов 9
1.2.2. Docstrum 11
Глава 2. Формирование структуры строк документа и выражений 17
2.1. Уточнение границ 17
2.2. Сегментация выражений 18
2.2.1. Обзор методов 19
2.2.2. Предложенный метод 20
Глава 3. Распознавание символов и текста 25
3.1. Нейронная сеть 25
3.2. Касающиеся символы 26
3.3. Обработка полученного результата 27
Глава 4. Формирование результата 29
4.1. Формирование макета страницы 29
4.2. Обработка выражений 29
Глава 5. Тестирование, оценка результатов, интерфейс 30
5.1. Тестовые данные 30
5.2. Оценка результата 30
5.3. Интерфейс и реализация 31
Заключение 33
Список литературы 34
В настоящее время задача распознавания образов актуальна во многих сферах, например — распознавание автомобильных номеров, биометрических данных, текстовой информации — банковские чеки, почтовые адреса, различные бланки и документы. Распознавание документов является непростой задачей, так как помимо задачи корректного распознавания символов и формирования слов возникает задача правильной сегментации, определение шаблона документа — выделение колонок, извлечение изображений, таблиц, графиков и другой нетекстовой информации.
Так же в настоящее время широко распространено использование электронной информации. Существует множество электронных библиотек, но не все книги и статьи доступны в таком варианте. Множество научных изданий содержит сложные математические формулы и выражения, но большинство существующих систем распознавания не способны представить корректный результат, так как для распознавания двумерной структуры формул необходимы несколько иные методы. Решение задачи распознавания математического текста могло бы дать возможность для перевода книг и статей в цифровой вид, а так же возможность откорректировать информацию перед сохранением.
Обзор существующих решений
На сегодняшний день существует много вариантов программного обеспечения для распознавания печатного текста. Коммерческие программы — Abbyy FineReader [1], OmniPage [2], Acrobat Capture, OCR, font, and page recognition [3]. Эти программы имеют большую функциональность, высокую точность распознавания, поддерживают большое число языков, например, Abby FineReader обеспечивает поддержку 192 языков. Из свободно распространяемых программ можно отметить Tesseract [4], который имеет открытый исходный код и обеспечивает поддержку 100 языков.
Но все описанные решения либо совсем не обеспечивают распознавание математических символов, либо, как Abby FineReader, поддерживают простые строчные формулы, допуская только верхние и нижние индексы. InftyReader [5] — коммерческое программное обеспечение для распознавания математических формул и текстов, которое предлагает выходной текст в 3 форматах — LATEX, MathML и XHTML.
Постановка задачи
Цель данной работы - разработать систему, способную распознать математический текст на английском языке и представить результат в формате LATEX.
Для успешного решения задачи распознавания документа необходимо решить несколько подзадач:
1. Анализ и подготовка изображения страницы: удаление шума, определение угла наклона содержимого страницы, сегментация — разбиение на текстовые и нетекстовые блоки.
2. Формирование структуры документа.
3. Оптическое распознавание извлеченных символов.
4. Формирование и вывод результата.
Данная работа построена следующим образом. Примерно, каждая глава описывает одну из стадий (изображено на рис. 1) обработки документа, проблематику задач данного этапа, методы их решения, реализацию или адаптацию подходящего алгоритма. В Главе 1 описываются методы предварительной обработки документа — удаление шума, определение угла искажения, сегментация на блоки, в Главе 2 описывается структурный анализ, в Главе 3 дается архитектура нейронной сети, описывается распознавание символов, Глава 4 описывает модуль, генерирующий выходной результат. Глава 5 представляет некоторые результаты и разработанный интерфейс.
Рис. 1. Блок-схема
В работе изучена проблема распознавания изображения математического документа. Рассмотрены этапы и проблемы предварительной обработки текстовых документов, выбраны и адаптированы наиболее подходящие методы. Реализована система для распознавания документа, в которую интегрирован разработанный модуль для распознавания математических выражений и восстановления их структуры. Так же предложен web-интерфейс, с помощью которого пользователь может загрузить изображение формулы или текста и получить результат, который можно откорректировать и сохранить.
Конечно, система нуждается в доработке и улучшении. Например, поддержка более сложных математических конструкций — на данном этапе система может распознавать системы, однако матрицы, которые могут иметь не стандартную структуру, содержать специальные символы — диагональные точки, крупные символы, занимающие несколько ячеек, на данный момент не поддерживаются. Кроме того, возможно, добавление большего числа правил и семантики фрагментам может улучшить результаты распознавания структуры.
Также, если говорить в целом о системе обработки изображения документа, то необходим модуль классифицирующий нетекстовые части изображения — картинки, графики, распознающий таблицы. Однако, это отдельная нетривиальная задача, не являющаяся целью данной работы.
1. Abby FineReader. https://www.abbyy.com/en-gb/
2. OmniPage. https://www.nuance.com/
3. Acrobat Capture, OCR, font, and page recognition. http://www.adobe.com/
4. Tesseract. https://github.com/tesseract-ocr/tesseract
5. InftyReader. http://www.inftyreader.org/
6. Farahmand A., Sarrafzadeh A., Shanbehzadeh J. Document image noises and removal methods // Proc. of the International MultiConference of Engineers and Computer Scientists, 2013. Vol 1.
7. Pok G., Jyh-Charn L. Decision based median filter improved by predictions // ICIP 99, 1999. Vol. 2. P. 410-413.
8. Aiswarya K., Jayaraj V., Ebenezer D. A new and efficient algorithm for the removal of high density salt-and-pepper noise in images and videos // Proc. of the 2nd International Conference on Computer Modeling and Simulation, 2010. P. 409-13.
9. Esakkirajan S., Veerakumar T., Subramanyam AN., Chand CHP. Removal of high density salt-andpepper noise through modified decision based unsymmetric trimmed median filter // IEEE Signal Proc. Lett, 2011. Vol. 18. P. 287-90.
10. Mostafavi M., Kazerouni I., Haddadnia J. Noise removal from printed text and handwriting images using coordinate logic filters // International Conference on Computer Applications and Industrial Electronics, 2010. P. 161-164.
11. O’Gorman L. Image and Document Processing Techniques for the Rightpages Electronic Library System // Proc 11 IAPR Int’l conf. Pattern Recognition, 1992. Vol. 2. P. 260-263.
12. Chinnasarn K., Rangsanseri Y., Thitimajshima P. Removing salt-and- pepper noise in text/graphics images // IEEE Asia-Pacific Conference on Circuits and Systems, 1998. P. 459-462.
13. Smith R. A Simple And Efficient Skew Detection Algorithm Via Text Row Accumulation //In Proc. of the 3th International Conference on Document Analysis and Recognition, 1995. P. 1145-1148.
14. Shivakumara P., Hemantha G., Guru D.S., Nagabhushan P. A New Boundary Growing And Hough Transform Based Approach For Accurate Skew Detection In Binary Document Images // Proc. of ICISIP, 2005.
15. Yan H. Skew Correction Of Document Images Using Interline Crosscorrelation // CVGIP Graphic Models Image Processing, 1993. Vol. 55. P. 538-543.
...