Детекция фотографии на изображении документа
|
Введение…………………………………………………………. 13
1 Аналитический обзор методов оптического распознавания
символов.........................................................................................
14
1.1 Введение в предметную область………………………………. 14
1.2 Обзор систем оптического распознавания изображений…….. 17
1.2.1 ABBYY FineReader……………………………………………... 18
1.2.2 SimpleOCR………………………………………………………. 18
1.2.3 FreeOCR………………………………………………………….. 19
1.2.4 Microsoft Office Document Imaging…………………………….. 19
1.2.5 OCRFeeder……………………………………………………….. 20
1.3 Сравнения систем оптического распознавания изображений.. 21
1.4 Анализ методов распознавания………………………………... 23
1.4.1 Методы, основанные на шаблонах…………………………….. 24
1.4.2 Методы с использованием контурных моделей………………. 26
1.4.3 Нейросетевые методы…………………………………………... 27
1.4.4 Метод Виолы-Джонса…………………………………………... 29
1.4.5 Алгоритм k ближайших соседей……………………………….. 29
1.5 Требования к разрабатываемому алгоритму………………….. 33
1.6 Заключение по аналитическому обзору……………………….. 34
2 Алгоритм распознавания текста……………………………...... 37
2.1 Общее решение задачи…………………………………………. 37
2.2 Структурная схема и описание алгоритма……………………. 38
2.3 Методы цифровой обработки изображений………………….. 40
2.4 Выделение фотографии………………………………………… 42
2.5 Сегментация изображения……………………………………... 43
2.6 Секторизация текстовых блоков……………………………….. 44
2.7 Классификация сегментов текстовых блоков………………… 45
3 Разработка программного обеспечения……………………….. 46
3.1 Общие сведения…………………………………………………. 46
3.2 Прототип программного обеспечения………………………… 47
3.2.1 Функциональные требования…………………………………... 47
3.2.2 Логическая структура…………………………………………... 48
3.2.3 Входные данные………………………………………………… 51
3.2.4 Выходные данные………………………………………………. 52
3.2.5 Графический интерфейс пользователя………………………… 52
4 Результаты проведенного исследования………………………. 55
4.1 Описание представленных экспериментов……………………. 55
4.2 Полученные экспериментальные данные……………………... 56
4.3 Сравнительный анализ k ближайших соседей………………... 57
4.4 Выводы из результатов экспериментов……………………….. 59
Заключение……………………………………………………… 101
Список источников……………………………………………... 103
1 Аналитический обзор методов оптического распознавания
символов.........................................................................................
14
1.1 Введение в предметную область………………………………. 14
1.2 Обзор систем оптического распознавания изображений…….. 17
1.2.1 ABBYY FineReader……………………………………………... 18
1.2.2 SimpleOCR………………………………………………………. 18
1.2.3 FreeOCR………………………………………………………….. 19
1.2.4 Microsoft Office Document Imaging…………………………….. 19
1.2.5 OCRFeeder……………………………………………………….. 20
1.3 Сравнения систем оптического распознавания изображений.. 21
1.4 Анализ методов распознавания………………………………... 23
1.4.1 Методы, основанные на шаблонах…………………………….. 24
1.4.2 Методы с использованием контурных моделей………………. 26
1.4.3 Нейросетевые методы…………………………………………... 27
1.4.4 Метод Виолы-Джонса…………………………………………... 29
1.4.5 Алгоритм k ближайших соседей……………………………….. 29
1.5 Требования к разрабатываемому алгоритму………………….. 33
1.6 Заключение по аналитическому обзору……………………….. 34
2 Алгоритм распознавания текста……………………………...... 37
2.1 Общее решение задачи…………………………………………. 37
2.2 Структурная схема и описание алгоритма……………………. 38
2.3 Методы цифровой обработки изображений………………….. 40
2.4 Выделение фотографии………………………………………… 42
2.5 Сегментация изображения……………………………………... 43
2.6 Секторизация текстовых блоков……………………………….. 44
2.7 Классификация сегментов текстовых блоков………………… 45
3 Разработка программного обеспечения……………………….. 46
3.1 Общие сведения…………………………………………………. 46
3.2 Прототип программного обеспечения………………………… 47
3.2.1 Функциональные требования…………………………………... 47
3.2.2 Логическая структура…………………………………………... 48
3.2.3 Входные данные………………………………………………… 51
3.2.4 Выходные данные………………………………………………. 52
3.2.5 Графический интерфейс пользователя………………………… 52
4 Результаты проведенного исследования………………………. 55
4.1 Описание представленных экспериментов……………………. 55
4.2 Полученные экспериментальные данные……………………... 56
4.3 Сравнительный анализ k ближайших соседей………………... 57
4.4 Выводы из результатов экспериментов……………………….. 59
Заключение……………………………………………………… 101
Список источников……………………………………………... 103
Объектом исследования является процесс детектирования и
распознавания текста на изображении, а также задача детекции фотографии
на изображении документа.
Целью работы является исследование задачи оптического распознавания
изображений и реализация системы распознавания текста на документах,
удостоверяющих личность гражданина Казахстана.
В процессе исследования проводился аналитический обзор
существующих технических и программных систем, использующих
оптические методы для распознавания символов. Проведён анализ
существующих алгоритмов распознавания символов. Предложен
собственный алгоритм распознавания символов, основанный на применении
метода k ближайших соседей.
В результате исследования и применения предложенного алгоритма
удалось решить задачу распознавания символов на документах и достигнуть
приемлемой точности.
Сам процесс оптического распознавания символов ускорит ввод
персональных данных о гражданах в местные системы и базы данных, а
также поможет избежать графических ошибок, которые могут совершить
сотрудники той или иной компании, в которой система будет применяться.
Что позволит увеличить производительность как минимум в 2,5 раза.
Областью применения разработанного алгоритма являются
программные системы, задачи которых связаны с вводом, поиском и
идентификацией гражданских лиц, учётом пропуска через контрольнопропускные пункты, ограничением входа на частную территорию.
В будущем планируется модернизация эффективности работы
алгоритма, с целью улучшения выходных показателей.
Актуальность работы. Задача распознавания содержимого
документов, удостоверяющих личность, достаточно востребована при
реализации программных систем таможенного контроля,
правоохранительных органов, банков с целью автоматизации процесса
определения личности человека посредством сканирования и распознавания
документов. Системы могут размещаться в пунктах таможенного контроля,
участковых отделах полиции и т.д.
Целью магистерской диссертации является исследование задачи
оптического распознавания изображений и реализация системы
распознавания документов, удостоверяющих личность гражданина
Казахстана.
Объектом исследования работы является процесс детектирования и
распознавания текста на изображении, а также задача определения
фотографии на изображении документа.
Предметом исследования в рамках выпускной квалификационной
работы является задача распознавания содержимого документов,
удостоверяющих личность гражданина Казахстана.
Научная и практическая новизна заключается в разработке и
реализации алгоритма распознавания содержимого документов
удостоверяющих личность гражданина Казахстана, а также определении
местоположении фотографии на изображении документа.
Практическая значимость результатов ВКР. Результаты выпускной
квалификационной работы могут быть использованы с целью поиска
конкретного человека, быстрого автоматизированного определения личности
с использованием базы документов.
Реализация и апробация работы. Планируется внедрение в опытную
эксплуатацию разработанной системы распознавания документов,
удостоверяющих личность, в пунктах контроля.
распознавания текста на изображении, а также задача детекции фотографии
на изображении документа.
Целью работы является исследование задачи оптического распознавания
изображений и реализация системы распознавания текста на документах,
удостоверяющих личность гражданина Казахстана.
В процессе исследования проводился аналитический обзор
существующих технических и программных систем, использующих
оптические методы для распознавания символов. Проведён анализ
существующих алгоритмов распознавания символов. Предложен
собственный алгоритм распознавания символов, основанный на применении
метода k ближайших соседей.
В результате исследования и применения предложенного алгоритма
удалось решить задачу распознавания символов на документах и достигнуть
приемлемой точности.
Сам процесс оптического распознавания символов ускорит ввод
персональных данных о гражданах в местные системы и базы данных, а
также поможет избежать графических ошибок, которые могут совершить
сотрудники той или иной компании, в которой система будет применяться.
Что позволит увеличить производительность как минимум в 2,5 раза.
Областью применения разработанного алгоритма являются
программные системы, задачи которых связаны с вводом, поиском и
идентификацией гражданских лиц, учётом пропуска через контрольнопропускные пункты, ограничением входа на частную территорию.
В будущем планируется модернизация эффективности работы
алгоритма, с целью улучшения выходных показателей.
Актуальность работы. Задача распознавания содержимого
документов, удостоверяющих личность, достаточно востребована при
реализации программных систем таможенного контроля,
правоохранительных органов, банков с целью автоматизации процесса
определения личности человека посредством сканирования и распознавания
документов. Системы могут размещаться в пунктах таможенного контроля,
участковых отделах полиции и т.д.
Целью магистерской диссертации является исследование задачи
оптического распознавания изображений и реализация системы
распознавания документов, удостоверяющих личность гражданина
Казахстана.
Объектом исследования работы является процесс детектирования и
распознавания текста на изображении, а также задача определения
фотографии на изображении документа.
Предметом исследования в рамках выпускной квалификационной
работы является задача распознавания содержимого документов,
удостоверяющих личность гражданина Казахстана.
Научная и практическая новизна заключается в разработке и
реализации алгоритма распознавания содержимого документов
удостоверяющих личность гражданина Казахстана, а также определении
местоположении фотографии на изображении документа.
Практическая значимость результатов ВКР. Результаты выпускной
квалификационной работы могут быть использованы с целью поиска
конкретного человека, быстрого автоматизированного определения личности
с использованием базы документов.
Реализация и апробация работы. Планируется внедрение в опытную
эксплуатацию разработанной системы распознавания документов,
удостоверяющих личность, в пунктах контроля.
Задача ˋ автоматизированного ˋраспознавания документов,
удостоверяющих ˋличность, в настоящее ˋ время ˋпока еще ˋне решена ˋв полной
ˋмере, в виду чего ˋона ˋ является ˋодной из наиболее ˋ актуальных ˋзадач
распознавания ˋ данных.
Системы распознавания ˋ документов ˋпризваны для ˋупрощения ˋ работы
ˋсотрудников таможенного ˋ контроля, органов МВД, сотрудников ˋбанков и
т.д., а также ˋ для ˋснижения вероятности ˋ возникновения ˋчеловеческой
ошибки, определения ˋподлинности документа, а также ˋавтоматизации
процесса ˋпоиска ˋ личности по базам ˋ данных.
Выбранная область ˋ разработки ˋсама по себе ˋ является ˋуникальной т.к.
не существует ˋаналогов систем ˋ оптического ˋраспознавания изображений ˋ
предназначенных ˋдля ˋдокументов, удостоверяющих ˋ личность ˋграждан
Республики ˋ Казахстан, на что ˋи делается основной ˋупор ˋ при ˋнаписании
выпускной ˋ квалификационной ˋработы.
Существующие ˋсистемы ˋраспознавания не позволяют ˋв полной ˋмере
просканировав ˋ какой ˋ- либо официальный ˋ документ, определить ключевые ˋ
данные, содержащиеся в документе, выделить ˋфотографию гражданина ˋи
сохранить ˋданные в базе. Как ˋ правило ˋто, что ˋсуществует на сегодняшний ˋ
день, больше предназначено ˋ для ˋпростого ˋперевода текстовых ˋ документов ˋв
электронный формат ˋ (например, для ˋперевода книг).
В рамках ˋВКР ˋвыполнен аналитический ˋ обзор ˋсуществующих систем ˋи
методов ˋоптического ˋраспознавания ˋданных, проведен ˋих сравнительный
ˋанализ, выявлены ˋ основные ˋнедостатки, обоснована необходимость ˋ
разработки ˋсистемы.
Анализ ˋ различных ˋметодов распознавания ˋ данных ˋпозволил понять ˋ
проблемы, существующие в данной ˋ области ˋи выявить области ˋ применения
ˋразличных методов, их достоинства ˋи недостатки в применении ˋк решению
ˋразличных задач.Упомянуты ˋосновные методы, на которых ˋстроятся системы ˋ
распознавания ˋданных. Проведен ˋ сравнительный ˋанализ результатов ˋ
распознавания ˋданных при ˋразличных ˋ параметрах ˋвыбранного метода ˋk
ближайших ˋсоседей. Данный ˋанализ ˋпозволяет сделать ˋвывод ˋо наиболее
удачных ˋ значениях ˋпараметра для ˋрешения ˋ поставленной ˋзадачи.
Разработанный ˋалгоритм ˋраспознавания документов, удостоверяющих
ˋличность, позволяет ˋ достичь ˋточности распознавания ˋ до 83,1%. Результаты
были ˋполучены ˋ на тестовых образцах ˋ документов.
Для ˋдемонстрации ˋ предложенного ˋрешения распознавания ˋ данных
ˋразработан прототип ˋ системы, представляющий собой ˋ веб-ориентированное
ˋприложение, имеющее ˋдоступ ˋ к веб-камере клиентского ˋ устройства.
Архитектура разработанной ˋ системы ˋпозволяет вносить ˋ изменения ˋв
алгоритм и в систему, не нарушая ˋее общей работоспособности ˋи
целостности ˋее компонент.
удостоверяющих ˋличность, в настоящее ˋ время ˋпока еще ˋне решена ˋв полной
ˋмере, в виду чего ˋона ˋ является ˋодной из наиболее ˋ актуальных ˋзадач
распознавания ˋ данных.
Системы распознавания ˋ документов ˋпризваны для ˋупрощения ˋ работы
ˋсотрудников таможенного ˋ контроля, органов МВД, сотрудников ˋбанков и
т.д., а также ˋ для ˋснижения вероятности ˋ возникновения ˋчеловеческой
ошибки, определения ˋподлинности документа, а также ˋавтоматизации
процесса ˋпоиска ˋ личности по базам ˋ данных.
Выбранная область ˋ разработки ˋсама по себе ˋ является ˋуникальной т.к.
не существует ˋаналогов систем ˋ оптического ˋраспознавания изображений ˋ
предназначенных ˋдля ˋдокументов, удостоверяющих ˋ личность ˋграждан
Республики ˋ Казахстан, на что ˋи делается основной ˋупор ˋ при ˋнаписании
выпускной ˋ квалификационной ˋработы.
Существующие ˋсистемы ˋраспознавания не позволяют ˋв полной ˋмере
просканировав ˋ какой ˋ- либо официальный ˋ документ, определить ключевые ˋ
данные, содержащиеся в документе, выделить ˋфотографию гражданина ˋи
сохранить ˋданные в базе. Как ˋ правило ˋто, что ˋсуществует на сегодняшний ˋ
день, больше предназначено ˋ для ˋпростого ˋперевода текстовых ˋ документов ˋв
электронный формат ˋ (например, для ˋперевода книг).
В рамках ˋВКР ˋвыполнен аналитический ˋ обзор ˋсуществующих систем ˋи
методов ˋоптического ˋраспознавания ˋданных, проведен ˋих сравнительный
ˋанализ, выявлены ˋ основные ˋнедостатки, обоснована необходимость ˋ
разработки ˋсистемы.
Анализ ˋ различных ˋметодов распознавания ˋ данных ˋпозволил понять ˋ
проблемы, существующие в данной ˋ области ˋи выявить области ˋ применения
ˋразличных методов, их достоинства ˋи недостатки в применении ˋк решению
ˋразличных задач.Упомянуты ˋосновные методы, на которых ˋстроятся системы ˋ
распознавания ˋданных. Проведен ˋ сравнительный ˋанализ результатов ˋ
распознавания ˋданных при ˋразличных ˋ параметрах ˋвыбранного метода ˋk
ближайших ˋсоседей. Данный ˋанализ ˋпозволяет сделать ˋвывод ˋо наиболее
удачных ˋ значениях ˋпараметра для ˋрешения ˋ поставленной ˋзадачи.
Разработанный ˋалгоритм ˋраспознавания документов, удостоверяющих
ˋличность, позволяет ˋ достичь ˋточности распознавания ˋ до 83,1%. Результаты
были ˋполучены ˋ на тестовых образцах ˋ документов.
Для ˋдемонстрации ˋ предложенного ˋрешения распознавания ˋ данных
ˋразработан прототип ˋ системы, представляющий собой ˋ веб-ориентированное
ˋприложение, имеющее ˋдоступ ˋ к веб-камере клиентского ˋ устройства.
Архитектура разработанной ˋ системы ˋпозволяет вносить ˋ изменения ˋв
алгоритм и в систему, не нарушая ˋее общей работоспособности ˋи
целостности ˋее компонент.



