Содержание 1
Введение 1
Постановка задачи 4
1. Формальное описание 4
2. Формат входных данных 4
3. Оценка результатов 5
Обзор публикаций 6
1. Подход 6
2. Исторический обзор 6
3. Выводы 9
Глава 1. Структура сверточной нейронной сети 11
1.1. Структура сети для сегментации текста 11
Глава 2. Подготовка данных 14
2.1. Размерность входных данных 14
2.2. Алгоритм генерации изображений 16
2.3. Предобработка изображений 19
Глава 3. Тестирование 22
3.1. Бинарная сегментация 22
3.2. Многоклассовая сегментация 24
3.3. Выводы 26
Глава 4. Заключение 27
Список литературы 28
Приложение 30
В настоящее время большое распространение получила задача семантической сегментации - точного выделения объектов различных классов на изображениях. Она нашла применение во многих сферах:
• Автомобилестроение - классификация дорожных знаков, разметки, пешеходов и тд. на изображении с камеры автомобиля.
• Медицина - распознавание различных новообразований и отклонений на ктмрт-снимках.
• Биология - исследование численности редких видов животных по снимкам со спутника.
• Различного рода аналитика
Данный список не следует считать полным, он приведен только лишь для показа широты применимости данной задачи.
Стоит отметить разницу задач обнаружения и сегментации объектов (рис. 1.1).
Рис. 1.1. Слева направо: исходное изображение, результат обнаружения текста, результат сегментации.
На рисунке выше видно, что, в случае задачи обнаружения, достаточно получить минимальный прямоугольник, описывающий объект, а в случае сегментации - четкий контур, что важно в текущей задаче, т.к. в противном случае усложняется процесс отделения текста от фона.
Данная работа рассматривает сегментацию текста на сложном фоне, результаты которой предполагается использовать для различного рода аналитики. Суть задачи состоит в выделении на входных изображениях регионов, содержащих текстовую информацию, которая, в свою очередь, легче поддается различного рода анализу (анализ настроения текста, его тематики и т.д.). В таком виде задача применима в надзадаче - описания сцены, которая в последнее время становится все более актуальной, т.к. количество медиа-контента в сети растет, отсюда возникает потребность в его обработке и анализе.
В рамках данной работы не рассматривается последующее устранение геометрических искажений текста, также не предполагается оптического распознавания символов (OCR [1]) и самой аналитики на полученных текстовых областях.
Задача, поставленная в рамках данной выпускной квалификационной работы, состояла в создании алгоритма сегментации текста на сложном фоне. Для этого подразумевалось решение сразу нескольких задач: создание алгоритма сегментации на базе имеющихся наработок в данной области, исследование возможных путей предобработки изображений, содержащих текст, а также создание набора данных для тестирования и обучения. В ходе ее решения были получены следующие результаты:
1. Найден актуальный алгоритм сегментации на основе которого предложена структура сверточной нейронной сети для сегментации текста.
2. Проведено исследование свойств печатного текста, результатом которого стал метод предобработки, позволяющий существенно снизить число число входных данных, а также обнулить большую нетекстовую часть изображения.
3. Предложен алгоритм генерации набора данных для обучения.
4. Проведено тестирование предложенной структуры сети для бинарной и многоклассовой сегментации, а также подтверждена ее работоспособность.
Исходя из всего вышеперечисленного, можно утверждать, что поставленная задача была решена полностью.