ОГЛАВЛЕНИЕ 2
ВВЕДЕНИЕ 4
1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ 6
1.1 Области применения методов поиска нечетких дубликатов видео 6
1.1.1 Защита авторских прав 6
1.1.2 Видеомониторинг 7
1.1.3 Ранжирование видео 7
1.1.4 Рекомендация по видео 7
1.1.5 Отслеживание видеопотока 8
1.2 Случаи нарушения авторских прав на веб-сайтах 8
1.2.1 Видео-реакции 9
1.2.2 Повторные загрузки видео 9
1.2.3 Экранная съемка 10
1.3 Характеристики видеофайлов 11
1.4 Нечеткий дубликат видео 13
1.5 Методы поиска нечетких дубликатов видео 14
2. РАЗРАБОТКА СИСТЕМЫ ПОИСКА ДУБЛИКАТОВ ВИДЕО 16
2.1 Концепция 16
2.2 Извлечение кадров из видеоряда 17
2.3 Подготовка цветовых последовательностей 18
2.3.1 Цветовые модели RGB и HSV 18
2.3.2 Средний цвет изображения 19
2.4 Алгоритм поиска дублирования видеофайлов 21
2.5 Определение оптимальных параметров работы алгоритма 24
2.6 Исключительные ситуации в работе алгоритма 27
3. АНАЛИЗ ПАРАМЕТРОВ ДУБЛИРОВАНИЯ ВИДЕО 29
3.1 Определение параметров дублирования видеофайлов 29
3.2 Интерфейс взаимодействия 29
4. ТЕСТИРОВАНИЕ 31
ЗАКЛЮЧЕНИЕ 33
ГЛОССАРИЙ 34
СПИСОК ЛИТЕРАТУРЫ 35
ПРИЛОЖЕНИЕ 1 38
ПРИЛОЖЕНИЕ 2 40
ПРИЛОЖЕНИЕ 3 41
ПРИЛОЖЕНИЕ 4
С каждым годом растет популярность видеоинформации среди пользователей сети Интернет. Ежедневно по всему миру создаются тысячи видеоклипов, которые добавляются в сервисы-видеохостинги, в числе которых YouTube [1], Netflix [2], HBO [3]. Так, по данным на 2018 год на YouTube каждую минуту загружаются видеоролики общей длительностью 300 часов [4].
Массовая публикация и распространение видео привели к существованию большого количества дублированных видеороликов. Популярные видео на видеохостингах часто копируются. Авторы уникальных видео встречаются с множеством повторных загрузок и видео-реакций на их ролики, что свидетельствует о нарушении авторских прав.
С другой стороны, пользователи видеохостинга YouTube сталкиваются с ошибочным удалением роликов из-за подачи жалоб о нарушении авторских прав. Количество жалоб очень велико, и на их рассмотрение затрачивается ручной труд сотрудников YouTube.
Для автоматизации и оптимизации описанных процессов необходим эффективный алгоритм обнаружения дубликатов. Сопоставление видео на основе содержимого считается сложной задачей. Одной из главных причин является количество внутриклассовых вариаций, когда одна и та же семантическая концепция может возникать при разных характеристиках исходных видеофайлов, настройках освещения, внешнего вида, сцены и прочее. Информация о свойствах обнаруженных дубликатов позволяет определять параметры и характер дублирования. На основе этих данных может быть сформирован отчет о дублировании, который, в свою очередь, может иметь применение в работе сайтов-видеохостингов.
Целью дипломной работы является разработка системы определения параметров дублирования видеофайлов.
Для достижения поставленной цели необходимо решение следующих задач:
• Провести анализ существующих решений для поиска дубликатов видео, выявить их преимущества и недостатки;
• Определить характеристики сравнения видеофайлов;
• Вывести оптимальные способы получения и измерения характеристик;
• Вывести алгоритм измерения численных показателей дублирования видео;
• Разработать модуль преобразования измеренных показателей в отчет о дублировании;
• Протестировать полученную систему.
Объектом исследования дипломной работы является процесс разработки программного средства для автоматического поиска нечетких дубликатов видео и выделения параметров дублирования. Предметом исследования является система, определяющая параметры дублирования видеофайлов.
Разработана система, состоящая из двух модулей:
1. модуль обнаружения дублирования видеофайлов,
2. модуль определение параметров дублирования видеофайлов.
Программа обнаружения дублирования видеофайлов способна распознавать экранную съемку, частичное дублирования, зеркальные копии и устойчива к различным искажениям цифрового видео, таким как изменение качества изображения, размеров, ориентации видео (повороты), добавление субтитров и небольших логотипов и т.д.
Модуль определения параметров дублирования обрабатывает данные, полученные в результате обнаружения дубликатов, и формирует отчет, содержащий информацию о параметрах и характере дублирования. Отчет хранится в формате JSON для обеспечения удобства дальнейшей обработки полученной информации.
Таким образом, система позволяет не только детектировать наличие дублирования видеофайлов, но и измерить количественные и качественные показателей дублирования, за счет чего можно построить индивидуальную политику в отношении дубликатов видео. Результаты выпускной квалификационной работы могут иметь практическое применение на видеохостингах.
Система имеет перспективы дальнейшего развития, ближайшей задачей является добавление предобработки кадров для устранения возможности обхода алгоритма поиска дубликатов.
1. Youtube [Электронный ресурс] URL: https://www.youtube.com/ (дата обращения: 5.2.2019).
2. Netflix [Электронный ресурс] URL: https://www.netflix.com/ru/ (дата обращения: 2.2.2019).
3. HBO [Электронный ресурс] URL: https://www.hbo.com/ (дата обращения:
1.3.2019) .
4. Зеленянская А. Статистика YouTube — 2018 // Zov Marketing. 2018. URL: https://zovmarketing.com/statistika-youtube-2018/ (дата обращения: 1.04.2019) .
5. Basharat A., Zhai , Shah. Content based video matching using spatiotemporal volumes // Computer Vision and Image Understanding. Jun 2008. Vol. 110. No.
3. pp. 360-377.
6. Liu J. Near-Duplicate Video Retrieval: Current Research and Future Trends // Multimedia, IEEE. Aug 2013. Vol. 45. No. 1.
7. Гражданский кодекс Российской Федерации. Часть четвертая: от 18.12.2006 N 230-ФЗ (ред. от 23.05.2018). Глава 70. АВТОРСКОЕ ПРАВО.
8. Zhao W. On the Annotation of Web Videos by Efficient Near-Duplicate Search // IEEE Transactions on Multimedia, Vol. 12, No. 5, Aug 2010. pp. 448-461.
9. Yang J., Rong R., Yan , Xing L.P. Harmonium Models for Video Classification // Statistical Analysis and Data Mining, Vol. 1, No. 1, Feb 2008. pp. 23-37.
10. Авторское право на YouTube [Электронный ресурс] // YouTube: [сайт]. [2019]. URL: https://www.youtube.com/intl/ru/yt/about/copyright (дата обращения: 1.05.2019).
11. Свешников Р.А. Сборник двенадцатой Межрегиональной научной студенческой конференции // Соблюдение прав авторов на террент- трекерах. Вологда. 2010. С. 360-361.
12. L.Szabo T. Diagnostic Ultrasound Imaging: Inside Out. 2nd ed. Boston: Academic Press, 2014. 501-563 pp. диафрагма-выдержка-и-светочувствительность-треугольник-экспозиции- 4c1b93bffa7a (дата обращения: 1.05.2019).
14. Гофайзен О.В. Измерительная и вычислительная техника в технологических процессах // Требования к спектральным хакартеристикам камер. Одесса. 2015. Т. 14. С. 30-32.
15. Che X. A Survey of Current YouTube Video Characteristics // MultiMedia,
IEEE. Jun 2015. Vol. 22. No. 2. pp. 56-63.
16. F.Smeaton A. Techniques used and open challenges to the analysis, indexing and retrieval of digital video // Information Systems, Vol. 32, No. 4, Jun 2007. pp. 545-559.
17. Wu X. Proceedings of the 15th ACM international conference on Multimedia // Practical elimination of near-duplicates from web video search. ACM, New York, NY, USA. 2007. Vol. MM '07. pp. 218-227.
18. Илья Н. Методология поиска и идентификации нечетких дубликатов видеоизображений // Конференция «Новые информационные технологии». Москва. 2013. Т. 2. С. 12-34.
19. Илья Н. Поиск нечетких дубликатов видео на основе сцен // Конференция: I Международная заочная научно-практическая конференция «Наука вчера, сегодня, завтра». Москва. 2013. Т. 3. С. 3-24.
20. Веб-сервис для хостинга IT-проектов и их совместной разработки GitHub [Электронный ресурс] URL: https://github.com (дата обращения: 4.2.2019).
21. Near Duplicate Video Detection [Электронный ресурс] // GitHub: [сайт]. [2017]. URL: https://github.com/Chinmay26/Near-Duplicate-Video-Detection (дата обращения: 1.02.2019).
22. Video Duplicate Finder [Электронный ресурс] // GitHub: [сайт]. [2019]. URL: https://github.com/0x90d/videoduplicatefinder (дата обращения: 1.05.2019).
23. Documentation [Электронный ресурс] // Xuggle: [сайт]. [2017]. URL: http:// www.xuggle.com/ (дата обращения: 1.2.2019).
24. Documentation [Электронный ресурс] // FFmpeg: [сайт]. [2019]. URL: https:// ffmpeg.org/ (дата обращения: 1.2.2019).
26. Java™ Platform, Standard Edition 7 API Specification [Электронный ресурс] // Oracle Help Center: [сайт]. [2019]. URL: https://docs.oracle.com (дата обращения: 10.2.2019).
27. P.Allebach J. Image Scanning, Sampling, and Interpolation // In: Handbook of Image and Video Processing (Second Edition). Academic Press, 2005. pp. 895910.
28. Мясников В.В., Глумов Н.И. Поиск дубликатов на цифровых изображениях // Компьютерная оптика, Т. 37, № 3, 2013. С. 360-367.
29. Кузнецов А.В., Мясников В.В. Сборник трудов III международной конференции и молодежной школы «Информационные технологии и нанотехнологии» // Исследование методов предварительной обработки изображений в задаче обнаружения дубликатов на изображении. Самара.
2017. С. 904-911.