Введение 3
Постановка задачи 6
Обзор существующих методов получения субтитров встроенных в видеопоток 8
Глава 1. Предварительная обработка изображений 12
1.1 Обнаружение краев 12
1.2 Статический региональный анализ 13
1.3 Обработка изображения 15
Глава 2.Обнаружение субтитров и распознавание текста 17
2.1 Анализ связанных областей 17
2.2 Создание временных меток 19
2.3 Распознавание текста 21
Экспериментальная процедура и результаты эксперимента 22
Выводы 25
Заключение 28
Список литературы 30
С быстрым развитием цифровых медиа видеоконтент стал одним из основных способов доступа людей к информации, развлечениям и обучению. Однако при просмотре видео иногда приходится сталкиваться с языковыми барьерами или ограниченным слухом, что делает субтитры все более важными. Субтитры не только дают зрителям возможность понять содержание видео, но и являются необходимым подспорьем для людей с нарушениями речи, слуха и обучающихся. Поэтому разработка методов извлечения субтитров имеет большое значение для улучшения доступности и понятности видео.
Однако большинство современных видео не поставляются с внешними файлами субтитров, а информация о субтитрах встраивается непосредственно в видеопоток. Извлечение таких встроенных субтитров является более сложной задачей, чем традиционное извлечение внешних файлов субтитров, поскольку они обычно сочетаются с видеоконтентом и могут зависеть от качества видео, стиля субтитров и языка субтитров. Поэтому разработка эффективного и точного алгоритма извлечения встроенных субтитров имеет большое практическое значение и представляет собой сложную задачу.
Целью данной работы является исследование и реализация метода извлечения встроенных субтитров на основе компьютерного зрения и методов оптического распознавания символов (OCR). Комбинируя методы обработки изображений и алгоритмы OCR, мы стремимся к автоматическому обнаружению, извлечению и преобразованию встроенных субтитров в видео для создания внешних файлов субтитров, которые впоследствии могут быть обработаны и проанализированы. Мы сосредоточимся на том, как эффективно работать со встроенными субтитрами различных типов и языков, а также изучим алгоритмы оптимизации для повышения точности и эффективности извлечения субтитров.
Данная диссертация организована следующим образом: сначала мы представим историю исследований и связанные с ними работы в области извлечения встроенных субтитров. Затем мы подробно опишем предложенный нами метод извлечения субтитров и детали его реализации. Далее мы представим экспериментальную схему и анализ результатов для оценки эффективности предложенного метода на различных наборах видеоданных. Наконец, мы подведем итоги исследования и обсудим будущие направления исследований и перспективы применения.
Проводя данное исследование, мы рассчитываем предложить новые идеи и методы для разработки методов извлечения встроенных субтитров, которые могут внести больший вклад в обеспечение доступности и понятности видеоконтента.
В данном исследовании представлено автоматизированное решение на основе компьютерного зрения и оптического распознавания символов (OCR) для извлечения встроенных субтитров из видеопотоков. Текст субтитров извлекается из различных фонов с помощью методов обработки изображений, использующих их свойства. Подход включает в себя выделение контрастных точек, анализ статических областей и метод "заливки" для очистки и бинаризации изображения. Экспериментальные результаты показывают, что алгоритм эффективно работает на различных фонах и в анимационных средах, повышая надежность и эффективность обработки программы.
С помощью анализа связанных компонент (CCA) мы решили проблему определения местоположения текста субтитров и символов, что позволяет не только точно определить местоположение текстовой области, но и обеспечить точные границы для распознавания OCR на уровне символов. Логические операции "и" над статичными областями значительно сокращают необходимость покадрового распознавания, ускоряя процесс и позволяя точно определить время показа субтитров. Эти шаги гарантируют, что обработанное изображение подходит для использования с TesseractOCR, что повышает точность и эффективность распознавания текста.
Алгоритм, предложенный в данной работе, имеет значительные преимущества в точности распознавания и скорости обработки по сравнению с традиционными методами (такими как videocr). Результаты экспериментов показывают, что точность распознавания алгоритма достигает 93,6 %, уровень утечки - 2 %, уровень артефактов - 3 %, в то время как соответствующие показатели videocr составляют 89,3 %, 4,7 % и 7 %, соответственно. Кроме того, алгоритм данной работы обрабатывает трехминутное видео примерно за три минуты, в то время как videocr - за двадцать минут.
В дальнейшей работе планируется оптимизировать алгоритм и протестировать его на более сложных и длинных видео, чтобы проверить его стабильность и надежность в различных сценариях применения в реальном мире. Ожидается, что с учетом этих оптимизаций и расширений алгоритм, предложенный в данной работе, станет эффективным и надежным решением в области обработки видео и извлечения субтитров, обеспечивая зрителям лучшие впечатления от просмотра видео и снижая нагрузку на ручную транскрибацию субтитров.
Burnt-in subtitle extractor. [Online resource]: https://github.com/roybaer/burnt-in-subtitle-extractor
[2] CCExtractor’s home page. [Online resource]: https://www.ccextractor.org/start
[3] Chen, Datong, Herve Bourlard, Jean-Philippe Thiran. "Text Identification in Complex Background Using SVM." Proceedings of the International Conference on Computer Vision. In Proc. IEEE CVPR, 2001: 621-626.
[4] Gaussian Blur. [Online resource]: https://baike.baidu.com/item/%E9%AB%98%E6%96%AF%E6%A8%A1%E7%B3%8A/10885810
[5] Image Segmentation - Connected Region Analysis. [Online resource]: https://blog.csdn.net/sy95122/article/details/80757281
[6] Ji, Chun. "Key Frame Extraction Technology in Content-based Video Retrieval." Nanjing Institute of Science and Technology Information, 2006.
[7] Liu, Yang. "Comparative Study of Road Sign Detection" [D]. Zhejiang University, 2013.
[8] OpenCV python. [Online resource]: https://docs.opencv.org/4.x/
[9] Tang, X., Gao, X., Liu, J., et al. "A spatial-temporal approach for video caption detection and recognition." Neural Networks, IEEE Transactions on, 2002, 13(4): 961-971.
[10] Tesseract-ocr. [Online resource]: https://github.com/tesseract-ocr/tesseract
[11] Videocr. [Online resource]: https://github.com/apm1467/videocr
[12] What is OCR (Optical Character Recognition)? [Online resource]: https://aws.amazon.com/what-is/ocr/?nc1=h_ls
[13] Yongjiu, L., et al. "Video Subtitle Location and Recognition Based on Edge Features." 2019 6th International Conference on Dependable Systems and Their Applications (DSA), IEEE, 2020.
[14] Zafarifar, B., Jingyue Cao, With P.H.N. de. "Instantaneously responsive subtitle localization and classification for TV applications." IEEE Transactions on Consumer Electronics, 2011, Vol. 57, No. 1, pp. 274–282.
[15] Zhong, Ji, Jian Wang, Yu-Ting Su. "Text detection in video frames using hybrid features." Machine Learning and Cybernetics, 2009, 1: 318-322.