Тип работы:
Предмет:
Язык работы:


Распознавание внедренных субтитров в видео потоке

Работа №129109

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы27
Год сдачи2020
Стоимость4235 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
17
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Глава 1. Обзор литературы 7
1.1. Обзор существующих методов 7
Глава 2. Методы сегментации текста на изображениях .... 8
2.1. Работа с видеопотоком 8
2.2. Метод MSER 8
2.3. Метод Otsu 9
2.4. Метод связных компонент 10
2.5. Метод семантической сегментации с использованием нейронных сетей 10
Глава 3. Система распознавания внедренных субтитров ... 13
3.1. Выбор метода сегментации 13
3.2. Локализация текста на изображении 14
3.3. Распознавание текста изображения с помощью метода OCR 15
Глава 4. Реализация предложенного алгоритма 17
4.1. Структура системы 17
4.2. Работа программы 19
4.3. Результаты 22
Заключение 25
Список литературы

Человек может черпать информацию из различных источников, та¬ких как интернет, книги, общение с другими людьми, телевидение и т.д. Значительную часть человек может получать из различных видео файлов, начиная от фильмов (исторических, документальных, художественных) и заканчивая видеозаписями лекций. Последний из названных способов один из наиболее удобных, так как позволяет получать информацию удаленно. Однако не каждый пользователь способен воспринимать информацию из видеопотока ввиду различных причин. В таких случаях субтитры играют важную роль. Что такое субтитры и насколько они важны для человека?
Субтитры - это сопровождение видеоряда в виде текста на языке ори-гинала или в переводе. Важно различать субтитры и интертитры, ведь последние выполнялись в виде отдельных монтажных кадров и использо-вались чаще всего в немом кино, а субтитры накладываются поверх основ¬ного изображения, что усложняет их распознавание. В настоящее время субтитры играют огромную роль для людей, которые не владеют языком, используемым в видеопотоке и не могут воспринимать полноценно пере¬даваемую информацию. Также субтитры являются необходимостью для людей с частичным или полным нарушением слуха. Субтитры содержат в себе важную информацию, переводя в текстовый формат происходящее в видеопотоке, например реплики персонажей, надписи в кадре, какие-либо звуковые эффекты, а иногда и дополняя видео комментариями или форму¬лами. Также субтитры используются в случаях, когда приходится расшиф¬ровывать видеозапись с звуковыми дефектами или неразборчивой речью говорящего. Значительная часть научных докладов не всегда нуждается в сопровождении видеоряда и достаточно лишь изучить прилагаемые к ви¬деопотоку субтитры. Однако субтитры не всегда удобно воспринимать вви¬ду их большого количества в кадре или их быстрой смене. Таким образом процесс извлечения информации из видеопотока усложняется и становится более долгим и трудоемким.
Учитывая, что в последние годы значимость автоматизации процес¬сов выросла и имеет достаточно удачные результаты, решение данной про¬блемы становится более актуальным.
Распознавая внедренные в видеопоток субтитры, появляется возможность предоставить зрителю отдельно от видеопотока работать с текстом, проводить его анализ. Несмотря на то, что существуют эффективные методы отделения текста от различных документов и статей, сегментация и распознавание текста в видеопотоке проблема актуальная и нерешенная. Достижение цели усложняется тем, что в видеопотоке присутствует постоянно сменяющаяся неоднородная фоновая структура, надписи, не являющиеся частью субтитров. Также фактором, осложняющим решение задачи, является непосредственно работа с видеопотоком, а именно определение, есть ли в кадре субтитры, не совпадают ли полученные субтитры с ранее обработанными, дублируя извлеченную информацию. Задача становится актуальнее ввиду огромного количества информации, архивированной человеком.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы были выполнены все поставленные задачи. Был определен метод работы с видеопотоком, позволяющий сократить количество обрабатываемых изображений. Также проведен анализ существующих методов сегментации, из которых впоследствии был выбран и реализован один. В процессе реализации алгоритма было обнаружено, что необходим дополнительный шаг с локализацией субтитров для наиболее точных результатов работы программы. Данный шаг так же был реализован с помощью метода связных компонент.
Также в ходе работы экспериментальным путем было обнаружено, что используя различные алгоритмы предобработки изображения, можно увеличить точность методов сегментации и локализации. Поэтому были использованы методы уменьшения шума на изображении и бинаризация.
Завершающим шагом работы программы является распознавание текста на изображениях, которые ранее были обработаны вышеупомянутыми методами. Построенный алгоритм был протестирован на нескольких видеозаписях с различными условиями и была построена таблица точности. В дальнейшем планируется модифицировать построенный алгоритм для улучшения его результатов.



[1] Buades A., Coll B., Morel J. M. «Non-Local Means Denoising». 2011 Image Processing On Line, P. 208-212.
[2] Gupta M., Jacobson N., Garcia E. «OCR binarization and image pre¬processing for searching historical documents». 2007 Pattern Recognition. 40 (2): P. 389.
[3] Forssen P.E., Lowe D.G. «Shape Descriptors for Maximally Stable Extremal Regions». 2011
[4] Nister D., Stewenius H. «Linear Time Maximally Stable Extremal Regions». 2008
[5] Otsu N. «A threshold selection method from gray-level histograms». 1979 IEEE Trans. Sys. Man. Cyber. 9 (1): PP. 62-66.
[6] Kittler J., Illingworth J. «On threshold selection using clustering criteria». 1985 IIEEE Transactions on Systems, Man and Cybernetics. SMC-15 (5): PP. 652-655
[7] Paralic M. «Fast connected component labeling in binary images». 2012 35th International Conference on Telecommunications and Signal Processing (TSP) PP. 706-707
[8] Vincent L., Soille P. «Watersheds in digital spaces: an efficient algorithm based on immersion simulations». 1991 IEEE Transactions on Pattern Analysis and Machine Intelligence P. 583
[9] Shapiro L., Stockman G. «Computer Vision». 2002. Prentice Hall. PP. 69-73.
[10] Long J., Shelhamer E., Darrell T. «Fully Convolutional Networks for Semantic Segmentation». 2016. IEEE Transactions on Pattern Analysis and Machine Intelligence , Volume 39 , Issue 4, PP. 640 - 651
[11] Nair V., Hinton G.E. «Rectified linear units improve restricted boltzmann machines». 2010 ICML’10: Proceedings of the 27th International Conference on International Conference on Machine Learning, PP. 807-814
[12] Smith R. «An Overview of the Tesseract OCR Engine». 2013. Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), PP. 629-633
[13] Kim D., Sohn K. «Static text region detection in video sequences using color and orientation consistencies». 2008. 19th International Conference on Pattern Recognition, PP. 1-4
[14] Ссылка на исходный код разработанной программыURL:https://github.com/nikitapleshkanov/diploma.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ