Алгоритм извлечения текстовой информации из графических данных
|
ВВЕДЕНИЕ 3
Актуальность 3
Цель дипломной работы 5
АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧИ 6
Основные понятия OCR-технологии 6
Основные этапы работы OCR-приложения 10
Предобработка изображения 10
Анализ изображения и сегментация 18
Процесс распознавания (классификации) символов 21
Постобработка 25
Особенности разработки OCR-приложения для задачи распознавания формул 27
Постановка задачи 31
ПРИКЛАДНАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА 32
Инструментарий 32
Основные технологии 32
Вспомогательные инструменты 32
Итоги разработки 34
Исследование аналогов 39
ЗАКЛЮЧЕНИЕ 41
Список источников и используемой литературы 42
Приложение. Листинг 45
Актуальность 3
Цель дипломной работы 5
АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧИ 6
Основные понятия OCR-технологии 6
Основные этапы работы OCR-приложения 10
Предобработка изображения 10
Анализ изображения и сегментация 18
Процесс распознавания (классификации) символов 21
Постобработка 25
Особенности разработки OCR-приложения для задачи распознавания формул 27
Постановка задачи 31
ПРИКЛАДНАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА 32
Инструментарий 32
Основные технологии 32
Вспомогательные инструменты 32
Итоги разработки 34
Исследование аналогов 39
ЗАКЛЮЧЕНИЕ 41
Список источников и используемой литературы 42
Приложение. Листинг 45
Одной из главных целей создания вычислительных устройств была возможность заменить человеческие ресурсы машинными при выполнении некоторых трудоемких или рутинных операций. К подобным задачам можно отнести обработку больших структур данных, криптографические процедуры, а также распознавание образов, в частности распознавание текстовых документов.
Идеи устройства, распознающего некоторый класс символов, зародились еще в начале ХХ в. В 1929 году в Германии был зарегистрирован первый патент на метод оптического распознавания символов [1]. С появлением первых компьютеров область распознавания образов стала развиваться и расширяться — первые коммерческие системы внедрялись для чтения кредитных карт для работы с чеками и для распознавания имен адресатов на почтовых отправлениях. В настоящее время цифровые устройства используют технологии распознавания во многих сферах повседневной жизни, например, при распознавании автомобильных номеров камерами-регистраторами на дорогах или при оцифровке текстовой информации. Распознавание текста в контексте данной задачи существенно облегчает хранение и манипулирование данными — в качестве конечного результата будет файл в текстовом формате, который можно импортировать в привычный для пользователя редактор и осуществлять ориентирование, правки и поиск по документу.
Задача распознавания машинописного текста носит название оптического распознавания символов (Optical Character Recognition). В настоящее время создано немало систем распознавания текста, но многие проблемы до сих пор остаются нерешенными — например, проблема распознавания математических выражений, формул и специализированных символов, а также распознавание текста при плохом качестве исходного изображения.
Новая ветвь развития OCR-технологий — создание и использование инструментов для мобильных платформ. Развитие вычислительной мощности техники и доступность смартфонов на рынке позволили создавать специализированные приложения для распознавания образов и внедрять их в качестве вспомогательных инструментов для решения более крупных задач, позволяя оптимизировать временные и ресурсные затраты. Согласно исследованиям международной компании Newzoo, на апрель 2017 года в мире насчитывается около 3 млрд. людей, которые систематически используют смартфоны в повседневной жизни [2]. Предполагается, что их число будет только расти.
На данный момент существует немало технологических решений для распознавания текста (наиболее популярные из них: ABBYY FineReader, CuneiForm, Tesseract, OmniPage, Microsoft Office Document Imaging). Лишь малая их часть пригодна для использования на мобильных платформах. Доступные для использования варианты в основном решают заранее строго определенный класс задач (распознавание только букв, цифр и стандартных символов; распознавание штрих кодов; распознавание паспортных данных). Нерешенной остается проблема распознавания математических формул, так как инструмента, способного распознавать структуру подобного рода выражений с помощью технологии OCR, не существует.
Цель дипломной работы
Цель работы — разработка алгоритма извлечения текстовой информации из графических данных (алгоритма распознавания текста) и его программная реализация.
Задачи работы:
• Провести обзор этапов и основных методов технологии оптического распознавания символов, выявить факторы, оказывающие влияние на точность распознавания
• Сформировать собственный алгоритм на основе приведенного
исследования
• Разработать программную реализацию алгоритма для мобильной ОС и привести в дипломной работе результаты разработки
Идеи устройства, распознающего некоторый класс символов, зародились еще в начале ХХ в. В 1929 году в Германии был зарегистрирован первый патент на метод оптического распознавания символов [1]. С появлением первых компьютеров область распознавания образов стала развиваться и расширяться — первые коммерческие системы внедрялись для чтения кредитных карт для работы с чеками и для распознавания имен адресатов на почтовых отправлениях. В настоящее время цифровые устройства используют технологии распознавания во многих сферах повседневной жизни, например, при распознавании автомобильных номеров камерами-регистраторами на дорогах или при оцифровке текстовой информации. Распознавание текста в контексте данной задачи существенно облегчает хранение и манипулирование данными — в качестве конечного результата будет файл в текстовом формате, который можно импортировать в привычный для пользователя редактор и осуществлять ориентирование, правки и поиск по документу.
Задача распознавания машинописного текста носит название оптического распознавания символов (Optical Character Recognition). В настоящее время создано немало систем распознавания текста, но многие проблемы до сих пор остаются нерешенными — например, проблема распознавания математических выражений, формул и специализированных символов, а также распознавание текста при плохом качестве исходного изображения.
Новая ветвь развития OCR-технологий — создание и использование инструментов для мобильных платформ. Развитие вычислительной мощности техники и доступность смартфонов на рынке позволили создавать специализированные приложения для распознавания образов и внедрять их в качестве вспомогательных инструментов для решения более крупных задач, позволяя оптимизировать временные и ресурсные затраты. Согласно исследованиям международной компании Newzoo, на апрель 2017 года в мире насчитывается около 3 млрд. людей, которые систематически используют смартфоны в повседневной жизни [2]. Предполагается, что их число будет только расти.
На данный момент существует немало технологических решений для распознавания текста (наиболее популярные из них: ABBYY FineReader, CuneiForm, Tesseract, OmniPage, Microsoft Office Document Imaging). Лишь малая их часть пригодна для использования на мобильных платформах. Доступные для использования варианты в основном решают заранее строго определенный класс задач (распознавание только букв, цифр и стандартных символов; распознавание штрих кодов; распознавание паспортных данных). Нерешенной остается проблема распознавания математических формул, так как инструмента, способного распознавать структуру подобного рода выражений с помощью технологии OCR, не существует.
Цель дипломной работы
Цель работы — разработка алгоритма извлечения текстовой информации из графических данных (алгоритма распознавания текста) и его программная реализация.
Задачи работы:
• Провести обзор этапов и основных методов технологии оптического распознавания символов, выявить факторы, оказывающие влияние на точность распознавания
• Сформировать собственный алгоритм на основе приведенного
исследования
• Разработать программную реализацию алгоритма для мобильной ОС и привести в дипломной работе результаты разработки
Данная работа посвящена разработке и реализации алгоритма извлечения текстовой информации из графических данных на базе мобильной платформы OS Android.
В ходе выполнения работы был произведен анализ области оптического распознавания символов, а также были выделены основные этапы и методы, применяемые в практических реализациях алгоритма. Далее в работе были рассмотрены вопросы структурного анализа математических формул и обозначены особенности и проблемы работы с математическими выражениями в задачах распознавания текста.
Практическая часть данной работы состоит из постановки задачи, выделения требований к разрабатываемому приложению, результатов работы и анализу приложения со схожими разработками.
В качестве результата, с использованием средств Java, OS Android, Tesseract и Leptonica был реализован алгоритм извлечения данных из изображений, полученных с камеры мобильного телефона. Корректное распознавание достигалось более чем в 80% случаев.
В качестве доказательства актуальности разработки был произведен анализ приложений, имеющих схожую концепцию. Было доказано, что проектов с полностью аналогичной концепцией не существует.
Описанную в дипломной работе разработку планируется развивать и улучшать. Среди возможных перспектив развития — создание нового, уникального .traineddata-файла, увеличение класса распознаваемых выражений, проработка модуля распознавания (для корректного распознавания дробных и подкоренных выражений) и расширение функционала вычислительного модуля.
В ходе выполнения работы был произведен анализ области оптического распознавания символов, а также были выделены основные этапы и методы, применяемые в практических реализациях алгоритма. Далее в работе были рассмотрены вопросы структурного анализа математических формул и обозначены особенности и проблемы работы с математическими выражениями в задачах распознавания текста.
Практическая часть данной работы состоит из постановки задачи, выделения требований к разрабатываемому приложению, результатов работы и анализу приложения со схожими разработками.
В качестве результата, с использованием средств Java, OS Android, Tesseract и Leptonica был реализован алгоритм извлечения данных из изображений, полученных с камеры мобильного телефона. Корректное распознавание достигалось более чем в 80% случаев.
В качестве доказательства актуальности разработки был произведен анализ приложений, имеющих схожую концепцию. Было доказано, что проектов с полностью аналогичной концепцией не существует.
Описанную в дипломной работе разработку планируется развивать и улучшать. Среди возможных перспектив развития — создание нового, уникального .traineddata-файла, увеличение класса распознаваемых выражений, проработка модуля распознавания (для корректного распознавания дробных и подкоренных выражений) и расширение функционала вычислительного модуля.
Подобные работы
- СТЕГАНОГРАФИЯ И СТЕГАНОАНАЛИЗ НА АУДИО ФАЙЛАХ
Бакалаврская работа, математика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2016 - РАЗРАБОТКА ПРОГРАММЫ ВНЕДРЕНИЯ ШИФРОТЕКСТА В ПРОГРАММУ-КОНТЕЙНЕР И ЕГО ИЗВЛЕЧЕНИЯ
Дипломные работы, ВКР, программирование. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - ИЗВЛЕЧЕНИЕ БИОМЕДИЦИНСКИХ СУЩНОСТЕЙ НА ОСНОВЕ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ И ПЕРЕНОСА ОБУЧЕНИЯ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 6500 р. Год сдачи: 2019 - ИЗВЛЕЧЕНИЕ БИОМЕДИЦИНСКИХ СУЩНОСТЕЙ НА ОСНОВЕ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ И ПЕРЕНОСА ОБУЧЕНИЯ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019 - АВТОМАТИЗАЦИЯ ИЗВЛЕЧЕНИЯ
ИМЕННЫХ СЛОВОСОЧЕТАНИЙ
(НА МАТЕРИАЛЕ ИСПАНСКОГО ЯЗЫКА)
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4740 р. Год сдачи: 2018 - РАЗРАБОТКА ПРИЛОЖЕНИЯ ДЛЯ ПОИСКА МАТЕМАТИЧЕСКИХ ФОРМУЛ В ТЕКСТАХ НАУЧНЫХ СТАТЕЙ
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4870 р. Год сдачи: 2017 - СПЕЦИФИКА ПОЛИКОДОВЫХ ЖУРНАЛИСТСКИХ ПРОИЗВЕДЕНИЙ Л. Г. ПАРФЕНОВА
Диссертации (РГБ), журналистика. Язык работы: Русский. Цена: 4380 р. Год сдачи: 2021 - Средство аварийного извлечения данных из хранилища СУБД Microsoft SQL Server 2008 R2
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4790 р. Год сдачи: 2019 - АВТОМАТИЧЕСКОЕ КОНСПЕКТИРОВАНИЕ ДОКУМЕНТОВ
НАУЧНОЙ ТЕМАТИКИ С ВИЗУАЛИЗАЦИЕЙ ПОСРЕДСТВОМ
ИНТЕЛЛЕКТ-КАРТЫ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4750 р. Год сдачи: 2017



