📄Работа №129109

Тема: Распознавание внедренных субтитров в видео потоке

📝
Тип работы Бакалаврская работа
📚
Предмет информатика
📄
Объем: 27 листов
📅
Год: 2020
👁️
Просмотров: 56
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Постановка задачи 5
Глава 1. Обзор литературы 7
1.1. Обзор существующих методов 7
Глава 2. Методы сегментации текста на изображениях .... 8
2.1. Работа с видеопотоком 8
2.2. Метод MSER 8
2.3. Метод Otsu 9
2.4. Метод связных компонент 10
2.5. Метод семантической сегментации с использованием нейронных сетей 10
Глава 3. Система распознавания внедренных субтитров ... 13
3.1. Выбор метода сегментации 13
3.2. Локализация текста на изображении 14
3.3. Распознавание текста изображения с помощью метода OCR 15
Глава 4. Реализация предложенного алгоритма 17
4.1. Структура системы 17
4.2. Работа программы 19
4.3. Результаты 22
Заключение 25
Список литературы

📖 Введение

Человек может черпать информацию из различных источников, та¬ких как интернет, книги, общение с другими людьми, телевидение и т.д. Значительную часть человек может получать из различных видео файлов, начиная от фильмов (исторических, документальных, художественных) и заканчивая видеозаписями лекций. Последний из названных способов один из наиболее удобных, так как позволяет получать информацию удаленно. Однако не каждый пользователь способен воспринимать информацию из видеопотока ввиду различных причин. В таких случаях субтитры играют важную роль. Что такое субтитры и насколько они важны для человека?
Субтитры - это сопровождение видеоряда в виде текста на языке ори-гинала или в переводе. Важно различать субтитры и интертитры, ведь последние выполнялись в виде отдельных монтажных кадров и использо-вались чаще всего в немом кино, а субтитры накладываются поверх основ¬ного изображения, что усложняет их распознавание. В настоящее время субтитры играют огромную роль для людей, которые не владеют языком, используемым в видеопотоке и не могут воспринимать полноценно пере¬даваемую информацию. Также субтитры являются необходимостью для людей с частичным или полным нарушением слуха. Субтитры содержат в себе важную информацию, переводя в текстовый формат происходящее в видеопотоке, например реплики персонажей, надписи в кадре, какие-либо звуковые эффекты, а иногда и дополняя видео комментариями или форму¬лами. Также субтитры используются в случаях, когда приходится расшиф¬ровывать видеозапись с звуковыми дефектами или неразборчивой речью говорящего. Значительная часть научных докладов не всегда нуждается в сопровождении видеоряда и достаточно лишь изучить прилагаемые к ви¬деопотоку субтитры. Однако субтитры не всегда удобно воспринимать вви¬ду их большого количества в кадре или их быстрой смене. Таким образом процесс извлечения информации из видеопотока усложняется и становится более долгим и трудоемким.
Учитывая, что в последние годы значимость автоматизации процес¬сов выросла и имеет достаточно удачные результаты, решение данной про¬блемы становится более актуальным.
Распознавая внедренные в видеопоток субтитры, появляется возможность предоставить зрителю отдельно от видеопотока работать с текстом, проводить его анализ. Несмотря на то, что существуют эффективные методы отделения текста от различных документов и статей, сегментация и распознавание текста в видеопотоке проблема актуальная и нерешенная. Достижение цели усложняется тем, что в видеопотоке присутствует постоянно сменяющаяся неоднородная фоновая структура, надписи, не являющиеся частью субтитров. Также фактором, осложняющим решение задачи, является непосредственно работа с видеопотоком, а именно определение, есть ли в кадре субтитры, не совпадают ли полученные субтитры с ранее обработанными, дублируя извлеченную информацию. Задача становится актуальнее ввиду огромного количества информации, архивированной человеком.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В рамках данной работы были выполнены все поставленные задачи. Был определен метод работы с видеопотоком, позволяющий сократить количество обрабатываемых изображений. Также проведен анализ существующих методов сегментации, из которых впоследствии был выбран и реализован один. В процессе реализации алгоритма было обнаружено, что необходим дополнительный шаг с локализацией субтитров для наиболее точных результатов работы программы. Данный шаг так же был реализован с помощью метода связных компонент.
Также в ходе работы экспериментальным путем было обнаружено, что используя различные алгоритмы предобработки изображения, можно увеличить точность методов сегментации и локализации. Поэтому были использованы методы уменьшения шума на изображении и бинаризация.
Завершающим шагом работы программы является распознавание текста на изображениях, которые ранее были обработаны вышеупомянутыми методами. Построенный алгоритм был протестирован на нескольких видеозаписях с различными условиями и была построена таблица точности. В дальнейшем планируется модифицировать построенный алгоритм для улучшения его результатов.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

[1] Buades A., Coll B., Morel J. M. «Non-Local Means Denoising». 2011 Image Processing On Line, P. 208-212.
[2] Gupta M., Jacobson N., Garcia E. «OCR binarization and image pre¬processing for searching historical documents». 2007 Pattern Recognition. 40 (2): P. 389.
[3] Forssen P.E., Lowe D.G. «Shape Descriptors for Maximally Stable Extremal Regions». 2011
[4] Nister D., Stewenius H. «Linear Time Maximally Stable Extremal Regions». 2008
[5] Otsu N. «A threshold selection method from gray-level histograms». 1979 IEEE Trans. Sys. Man. Cyber. 9 (1): PP. 62-66.
[6] Kittler J., Illingworth J. «On threshold selection using clustering criteria». 1985 IIEEE Transactions on Systems, Man and Cybernetics. SMC-15 (5): PP. 652-655
[7] Paralic M. «Fast connected component labeling in binary images». 2012 35th International Conference on Telecommunications and Signal Processing (TSP) PP. 706-707
[8] Vincent L., Soille P. «Watersheds in digital spaces: an efficient algorithm based on immersion simulations». 1991 IEEE Transactions on Pattern Analysis and Machine Intelligence P. 583
[9] Shapiro L., Stockman G. «Computer Vision». 2002. Prentice Hall. PP. 69-73.
[10] Long J., Shelhamer E., Darrell T. «Fully Convolutional Networks for Semantic Segmentation». 2016. IEEE Transactions on Pattern Analysis and Machine Intelligence , Volume 39 , Issue 4, PP. 640 - 651
[11] Nair V., Hinton G.E. «Rectified linear units improve restricted boltzmann machines». 2010 ICML’10: Proceedings of the 27th International Conference on International Conference on Machine Learning, PP. 807-814
[12] Smith R. «An Overview of the Tesseract OCR Engine». 2013. Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), PP. 629-633
[13] Kim D., Sohn K. «Static text region detection in video sequences using color and orientation consistencies». 2008. 19th International Conference on Pattern Recognition, PP. 1-4
[14] Ссылка на исходный код разработанной программыURL:https://github.com/nikitapleshkanov/diploma.

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ