Тема: Распознавание внедренных субтитров в видео потоке
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Глава 1. Обзор литературы 7
1.1. Обзор существующих методов 7
Глава 2. Методы сегментации текста на изображениях .... 8
2.1. Работа с видеопотоком 8
2.2. Метод MSER 8
2.3. Метод Otsu 9
2.4. Метод связных компонент 10
2.5. Метод семантической сегментации с использованием нейронных сетей 10
Глава 3. Система распознавания внедренных субтитров ... 13
3.1. Выбор метода сегментации 13
3.2. Локализация текста на изображении 14
3.3. Распознавание текста изображения с помощью метода OCR 15
Глава 4. Реализация предложенного алгоритма 17
4.1. Структура системы 17
4.2. Работа программы 19
4.3. Результаты 22
Заключение 25
Список литературы
📖 Введение
Субтитры - это сопровождение видеоряда в виде текста на языке ори-гинала или в переводе. Важно различать субтитры и интертитры, ведь последние выполнялись в виде отдельных монтажных кадров и использо-вались чаще всего в немом кино, а субтитры накладываются поверх основ¬ного изображения, что усложняет их распознавание. В настоящее время субтитры играют огромную роль для людей, которые не владеют языком, используемым в видеопотоке и не могут воспринимать полноценно пере¬даваемую информацию. Также субтитры являются необходимостью для людей с частичным или полным нарушением слуха. Субтитры содержат в себе важную информацию, переводя в текстовый формат происходящее в видеопотоке, например реплики персонажей, надписи в кадре, какие-либо звуковые эффекты, а иногда и дополняя видео комментариями или форму¬лами. Также субтитры используются в случаях, когда приходится расшиф¬ровывать видеозапись с звуковыми дефектами или неразборчивой речью говорящего. Значительная часть научных докладов не всегда нуждается в сопровождении видеоряда и достаточно лишь изучить прилагаемые к ви¬деопотоку субтитры. Однако субтитры не всегда удобно воспринимать вви¬ду их большого количества в кадре или их быстрой смене. Таким образом процесс извлечения информации из видеопотока усложняется и становится более долгим и трудоемким.
Учитывая, что в последние годы значимость автоматизации процес¬сов выросла и имеет достаточно удачные результаты, решение данной про¬блемы становится более актуальным.
Распознавая внедренные в видеопоток субтитры, появляется возможность предоставить зрителю отдельно от видеопотока работать с текстом, проводить его анализ. Несмотря на то, что существуют эффективные методы отделения текста от различных документов и статей, сегментация и распознавание текста в видеопотоке проблема актуальная и нерешенная. Достижение цели усложняется тем, что в видеопотоке присутствует постоянно сменяющаяся неоднородная фоновая структура, надписи, не являющиеся частью субтитров. Также фактором, осложняющим решение задачи, является непосредственно работа с видеопотоком, а именно определение, есть ли в кадре субтитры, не совпадают ли полученные субтитры с ранее обработанными, дублируя извлеченную информацию. Задача становится актуальнее ввиду огромного количества информации, архивированной человеком.
✅ Заключение
Также в ходе работы экспериментальным путем было обнаружено, что используя различные алгоритмы предобработки изображения, можно увеличить точность методов сегментации и локализации. Поэтому были использованы методы уменьшения шума на изображении и бинаризация.
Завершающим шагом работы программы является распознавание текста на изображениях, которые ранее были обработаны вышеупомянутыми методами. Построенный алгоритм был протестирован на нескольких видеозаписях с различными условиями и была построена таблица точности. В дальнейшем планируется модифицировать построенный алгоритм для улучшения его результатов.



