Тип работы:
Предмет:
Язык работы:


Сегментация текста на изображениях

Работа №130925

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы33
Год сдачи2018
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
34
Не подходит работа?

Узнай цену на написание


Содержание 1
Введение 1
Постановка задачи 4
1. Формальное описание 4
2. Формат входных данных 4
3. Оценка результатов 5
Обзор публикаций 6
1. Подход 6
2. Исторический обзор 6
3. Выводы 9
Глава 1. Структура сверточной нейронной сети 11
1.1. Структура сети для сегментации текста 11
Глава 2. Подготовка данных 14
2.1. Размерность входных данных 14
2.2. Алгоритм генерации изображений 16
2.3. Предобработка изображений 19
Глава 3. Тестирование 22
3.1. Бинарная сегментация 22
3.2. Многоклассовая сегментация 24
3.3. Выводы 26
Глава 4. Заключение 27
Список литературы 28
Приложение 30

В настоящее время большое распространение получила задача семантической сегментации - точного выделения объектов различных классов на изображениях. Она нашла применение во многих сферах:
• Автомобилестроение - классификация дорожных знаков, разметки, пешеходов и тд. на изображении с камеры автомобиля.
• Медицина - распознавание различных новообразований и отклонений на ктмрт-снимках.
• Биология - исследование численности редких видов животных по снимкам со спутника.
• Различного рода аналитика
Данный список не следует считать полным, он приведен только лишь для показа широты применимости данной задачи.
Стоит отметить разницу задач обнаружения и сегментации объектов (рис. 1.1).
Рис. 1.1. Слева направо: исходное изображение, результат обнаружения текста, результат сегментации.
На рисунке выше видно, что, в случае задачи обнаружения, достаточно получить минимальный прямоугольник, описывающий объект, а в случае сегментации - четкий контур, что важно в текущей задаче, т.к. в противном случае усложняется процесс отделения текста от фона.
Данная работа рассматривает сегментацию текста на сложном фоне, результаты которой предполагается использовать для различного рода аналитики. Суть задачи состоит в выделении на входных изображениях регионов, содержащих текстовую информацию, которая, в свою очередь, легче поддается различного рода анализу (анализ настроения текста, его тематики и т.д.). В таком виде задача применима в надзадаче - описания сцены, которая в последнее время становится все более актуальной, т.к. количество медиа-контента в сети растет, отсюда возникает потребность в его обработке и анализе.
В рамках данной работы не рассматривается последующее устранение геометрических искажений текста, также не предполагается оптического распознавания символов (OCR [1]) и самой аналитики на полученных текстовых областях.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Задача, поставленная в рамках данной выпускной квалификационной работы, состояла в создании алгоритма сегментации текста на сложном фоне. Для этого подразумевалось решение сразу нескольких задач: создание алгоритма сегментации на базе имеющихся наработок в данной области, исследование возможных путей предобработки изображений, содержащих текст, а также создание набора данных для тестирования и обучения. В ходе ее решения были получены следующие результаты:
1. Найден актуальный алгоритм сегментации на основе которого предложена структура сверточной нейронной сети для сегментации текста.
2. Проведено исследование свойств печатного текста, результатом которого стал метод предобработки, позволяющий существенно снизить число число входных данных, а также обнулить большую нетекстовую часть изображения.
3. Предложен алгоритм генерации набора данных для обучения.
4. Проведено тестирование предложенной структуры сети для бинарной и многоклассовой сегментации, а также подтверждена ее работоспособность.
Исходя из всего вышеперечисленного, можно утверждать, что поставленная задача была решена полностью.


[1] Оптическое распознавание символов. URL: ЬЦрз://ги.мтк1ред1а.огд/мтк1/Оптическое распознавание символов
[2] Набор данных Pascal VOC2012. URL: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
[3] Pascal VOC2012 Leaderboard. URL: http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?cls=mean&challengeid =11&compid=6&submid=12345
[4] Semantic Texton Forests for Image Categorization and Segmentation. Jamie Shotton, Matthew Johnson, Roberto Cipolla. 2008. URL: http://mi.eng.cam.ac.uk/~cipolla/publications/inproceedings/2008-CVPR-semantic -texton-forests.pdf
[5] Real-Time Human Pose Recognition in Parts from Single Depth Images. Jamie Shotton, Andrew Fitzgibbon, Mat Cook, Toby Sharp, Mark Finocchio, Richard Moore, Alex Kipman, Andrew Blake. 2011. URL: http://www.cse.chalmers.se/edu/year/2011/ course/TDA361/Advanced%20Comput er%20Graphics/ BodyPartRecognition.pdf
[6] Fully Convolutional Networks for Semantic Segmentation. Jonathan Long, Evan Shelhamer, Trevor Darrell. 2014. URL: https://arxiv.org/abs/1411.4038
[7] Multi-Scale Context Aggregation by Dilated Convolutions. Fisher Yu, Vladlen Koltun. 2015. URL: https://arxiv.org/abs/1511.07122
[8] Rethinking Atrous Convolution for Semantic Image Segmentation. Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam. 2017. URL: https://arxiv.org/abs/1706.05587
[9] Набор данных “Chars74k”. URL: http ://www.ee. surrey.ac .uk/CV S SP/demos/chars7 4k
[10] Deep Residual Learning for Image Recognition. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. 2015. URL: https://arxiv.org/abs/1512.03385
[11] Репозиторий с исходным кодом. URL: https://github.com/AlexEbral/text-seg
[12] A Computational Approach to Edge Detection. John Canny. 1986. URL: https://perso.limsi.fr/vezien/PAPIERS ACS/canny1986.pdf


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ