ВЕДЕНИЕ 13
1 МЕТОДЫ ДЕТЕКТИРОВАНИЯ И РАСПОЗНАВАНИЯ ТЕКСТА 14
1.1 Методы детектирования текста 14
1.1.1 Традиционные методы детектирования текста 14
1.1.2 Методы глубокого обучения для детектирования текста 16
1.2 Метод распознавания текста 24
1.3 Сравнение методов детектирования текста 25
2 ВЫБОР МЕТОДА И РЕАЛИЗАЦИЯ АЛГОРИТМА 27
2.1 Используемые инструменты разработки 27
2.2 Реализация модели FCN 28
2.3 Реализация модели U-net 31
2.4 Реализация модели EAST 32
2.5 Сравнение результатов детектирования текста 35
2.6 Реализация финального метода 38
2.6.1 Ветка распознавания 39
3 РЕЗУЛЬТАТЫ МОДЕЛИ 43
3.1 Результаты детектирования текста для метода 43
3.2 Результат вырезания области текста 43
3.3 Результаты распознавания корейского и английского текста 44
3.4 Результаты распознавания текста для модели EAST 46
3.5 Результат точности метода распознавания текста 47
4 ФИНАНСОВЫЙ МЕНЕДЖМЕНТ, РЕСУРСОЭФФЕКТИВНОСТЬ И
РЕСУРСОСБЕРЕЖЕНИЕ 49
4.1 Предпроектный анализ 49
4.2 Планирование управления научно-техническим проектом 53
4.3 Выводы по разделу 59
5 СОЦИАЛЬНАЯ ОТВЕТСВЕННОСТЬ 60
5.1 Правовые и организационные вопросы обеспечения безопасности 60
5.1.1 Специальные правовые нормы трудового законодательства 60
5.2 Организационные мероприятия при компоновке рабочей зоны 62
5.3 Производственная безопасность 63
5.3.1 Вредные производственные факторы 65
5.4 Экологическая безопасность 73
5.4.1 Анализ влияния объекта исследования на окружающую среду 73
5.4.2 Обоснование мероприятий по защите окружающей среды 74
5.5 Безопасность в чрезвычайных ситуациях 75
5.5.1 Анализ вероятных ЧС, которые может инициировать объект
разработки 75
5.5.2 Обоснование мероприятий по предотвращению ЧС и разработка
порядка действия в случае возникновения ЧС 75
5.6 Выводы по разделу 77
ЗАКЛЮЧЕНИЕ 78
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 79
ПРИЛОЖЕНИЕ А
Тексты — это образы или символы, несущие язык, фиксирующие идеи и передающие знания. В современном обществе наши жизненные сцены полны различной текстовой информации. Текст с конкретной и четкой семантикой является чрезвычайно важным обобщением, описанием и выражением для реальных сцен. Детектирование текста реальной сцены является ключевой технологией для реализации интеллектуального восприятия сцены, имеет важные исследовательское значение. Однако из-за сложного и разнообразного фона, неоднородных текстовых шрифтов, несовместимых размеров и неопределенных направлений текста в реальных сценах текущая обработка этой задачи не достигла идеальных результатов.
Обработка текста обычно делится на два этапа: детектирование текста и распознавание текста. Традиционные методы детектирования текста обычно используют ручное извлечение признаков для детектирования текста, а затем эти тексты распознаются путем сопоставления с шаблоном или обучения модели машинного обучения. Текущие методы глубокого обучения используют сверточные нейронные сети вместо методов ручного извлечения признаков для детектирования текста, а затем для распознавания текста применяются нейронные сети.
Целью данной работы является разработка алгоритма детектирования и распознавания надписей на изображениях реальных сцен. Для достижения поставленной цели необходимо решить следующие задачи:
- анализ существующих моделей и алгоритмов детектирования и распознавания надписей на изображениях реальных сцен;
- поиск и анализ наборов данных;
- выбор моделей и алгоритмов для реализации;
- разработка алгоритма детектирования и распознавания надписей на изображениях реальных сцен;
- реализация алгоритма и проведение численных экспериментов.
В этой работе анализируются и изучаются различные отличные статьи в смежных областях, а также рассматриваются и сравниваются существующие методы детектирования объектов и детектирования текста. EAST+CRNN был выбран в качестве сети для детектирования и распознавания текста.
Набор данных текстовых изображений реальных сцен ICDAR 2015 был выбран в качестве базы данных изображений для обучения и тестирования сети EAST. Искусственно синтезированный набор текстовых данных MJSynth был выбран в качестве базы данных изображений для обучения и проверки сети CRNN. И используйте набор данных ICDAR 2015 для тестирования общей архитектуры.
Разработан метод детектирования и распознавания надписей на изображениях реальных сцен, для чего выбираются параметры обучения нейронной сети, такие как размер входного изображения, замена базовой сети, выбор функции потерь.
Ветка детектирования текста метода достигла точности 79,8% в наборе данных ICDAR 2015, ветка распознавания достигла точности обучения 93,3% и точности проверки 91,8% в наборе данных MJSynth, в то время как в ICDAR 2015 г. Точность теста в наборе данных составляет 72,9%.
Этот метод в основном удовлетворяет требованиям идентификации и детектирования надписей на изображениях реальных сцен. А если добавить набор данных, похожий на обрезанные текстовые изображения, считается, что точность распознавания текста еще больше повысится.