ОГЛАВЛЕНИЕ 2
ВВЕДЕНИЕ 4
1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ 6
1.1 Области применения методов поиска нечетких дубликатов видео 6
1.1.1 Защита авторских прав 6
1.1.2 Видеомониторинг 7
1.1.3 Ранжирование видео 7
1.1.4 Рекомендация по видео 7
1.1.5 Отслеживание видеопотока 8
1.2 Случаи нарушения авторских прав на веб-сайтах 8
1.2.1 Видео-реакции 9
1.2.2 Повторные загрузки видео 9
1.2.3 Экранная съемка 10
1.3 Характеристики видеофайлов 11
1.4 Нечеткий дубликат видео 13
1.5 Методы поиска нечетких дубликатов видео 14
2. РАЗРАБОТКА СИСТЕМЫ ПОИСКА ДУБЛИКАТОВ ВИДЕО 16
2.1 Концепция 16
2.2 Извлечение кадров из видеоряда 17
2.3 Подготовка цветовых последовательностей 18
2.3.1 Цветовые модели RGB и HSV 18
2.3.2 Средний цвет изображения 19
2.4 Алгоритм поиска дублирования видеофайлов 21
2.5 Определение оптимальных параметров работы алгоритма 24
2.6 Исключительные ситуации в работе алгоритма 27
3. АНАЛИЗ ПАРАМЕТРОВ ДУБЛИРОВАНИЯ ВИДЕО 29
3.1 Определение параметров дублирования видеофайлов 29
3.2 Интерфейс взаимодействия 29
4. ТЕСТИРОВАНИЕ 31
ЗАКЛЮЧЕНИЕ 33
ГЛОССАРИЙ 34
СПИСОК ЛИТЕРАТУРЫ 35
ПРИЛОЖЕНИЕ 1 38
ПРИЛОЖЕНИЕ 2 40
ПРИЛОЖЕНИЕ 3 41
ПРИЛОЖЕНИЕ 4
С каждым годом растет популярность видеоинформации среди пользователей сети Интернет. Ежедневно по всему миру создаются тысячи видеоклипов, которые добавляются в сервисы-видеохостинги, в числе которых YouTube [1], Netflix [2], HBO [3]. Так, по данным на 2018 год на YouTube каждую минуту загружаются видеоролики общей длительностью 300 часов [4].
Массовая публикация и распространение видео привели к существованию большого количества дублированных видеороликов. Популярные видео на видеохостингах часто копируются. Авторы уникальных видео встречаются с множеством повторных загрузок и видео-реакций на их ролики, что свидетельствует о нарушении авторских прав.
С другой стороны, пользователи видеохостинга YouTube сталкиваются с ошибочным удалением роликов из-за подачи жалоб о нарушении авторских прав. Количество жалоб очень велико, и на их рассмотрение затрачивается ручной труд сотрудников YouTube.
Для автоматизации и оптимизации описанных процессов необходим эффективный алгоритм обнаружения дубликатов. Сопоставление видео на основе содержимого считается сложной задачей. Одной из главных причин является количество внутриклассовых вариаций, когда одна и та же семантическая концепция может возникать при разных характеристиках исходных видеофайлов, настройках освещения, внешнего вида, сцены и прочее. Информация о свойствах обнаруженных дубликатов позволяет определять параметры и характер дублирования. На основе этих данных может быть сформирован отчет о дублировании, который, в свою очередь, может иметь применение в работе сайтов-видеохостингов.
Целью дипломной работы является разработка системы определения параметров дублирования видеофайлов.
Для достижения поставленной цели необходимо решение следующих задач:
• Провести анализ существующих решений для поиска дубликатов видео, выявить их преимущества и недостатки;
• Определить характеристики сравнения видеофайлов;
• Вывести оптимальные способы получения и измерения характеристик;
• Вывести алгоритм измерения численных показателей дублирования видео;
• Разработать модуль преобразования измеренных показателей в отчет о дублировании;
• Протестировать полученную систему.
Объектом исследования дипломной работы является процесс разработки программного средства для автоматического поиска нечетких дубликатов видео и выделения параметров дублирования. Предметом исследования является система, определяющая параметры дублирования видеофайлов.
Разработана система, состоящая из двух модулей:
1. модуль обнаружения дублирования видеофайлов,
2. модуль определение параметров дублирования видеофайлов.
Программа обнаружения дублирования видеофайлов способна распознавать экранную съемку, частичное дублирования, зеркальные копии и устойчива к различным искажениям цифрового видео, таким как изменение качества изображения, размеров, ориентации видео (повороты), добавление субтитров и небольших логотипов и т.д.
Модуль определения параметров дублирования обрабатывает данные, полученные в результате обнаружения дубликатов, и формирует отчет, содержащий информацию о параметрах и характере дублирования. Отчет хранится в формате JSON для обеспечения удобства дальнейшей обработки полученной информации.
Таким образом, система позволяет не только детектировать наличие дублирования видеофайлов, но и измерить количественные и качественные показателей дублирования, за счет чего можно построить индивидуальную политику в отношении дубликатов видео. Результаты выпускной квалификационной работы могут иметь практическое применение на видеохостингах.
Система имеет перспективы дальнейшего развития, ближайшей задачей является добавление предобработки кадров для устранения возможности обхода алгоритма поиска дубликатов.