Тип работы:
Предмет:
Язык работы:


ПРОПОРЦИИ ВИДЕО И ПРОБЛЕМЫ ИХ ИЗМЕНЕНИЯ

Работа №178456

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы43
Год сдачи2022
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
0
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 4
| ВВЕДЕНИЕ 6
1 Обзор литератур^ 8
2 Структура алгоритм^ 14
2.1 Вычисление карты значимости 15
2.1.1 Выбор датасет^ 15
2.1.2 Обучение нейронной сети 16
2.2 Предварительные границы области обрезки] 18
2.3 Движение окна обрезки внутри сцены| 21
2.4 Обнаружение сцен| 22
2.5 Скачок внутри текущей сцены| 23
3 Настраиваемые параметры] 25
4 Сравнений 27
4.1 Исследование значимости разных модулей алгоритма] 27
4.1.1 Необходимость взвешенных сумм| 27
4.1.2 Необходимость адаптивной скорости окна обрезки] 28
4.1.3 Необходимость применения метода моментов 29
4.1.4 Необходимость учитывать скорость кадра в будущем при |
вычислении скорости окна обрезки] 29
4.1.5 Необходимость возводить значения вероятностей в карте |
значимости в степень 30
4.2 Сравнение с альтернативными работами] 31
4.2.1 Сравнение с Adobe Premiere Pro 31
4.2.2 Сравнение с Multimedia 3 32
4.2.3 Сравнение с Google AutoFlip[4]| 33
(^ЗАКЛЮЧЕНИЕ 35
|=СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ . . 36
ПРИЛОЖЕНИЕ А Границы области обрезки для одного кадра с | применением взвешенных сумм| 39
ПРИЛОЖЕНИЕ Б Границы области обрезки для одного кадра без ~|
применения взвешенных сумм| 41
ПРИЛОЖЕНИЕ В Кэширование 42


Сегодня для каждой социальной сети требуется, чтобы соотношения сторон загруженных видео соответствовали установленным для данной платформы правилам: для Instagram это — 4:5, для TikTok — 9:16, а для YouTube — 16:9, и более того, на разных смартфонах эффективное соотношение сторон показываемого видео может отличаться. Чтобы профессионально кадрировать видео под конкретное соотношение, нужен специалист, который будет этим заниматься. Это долгий и энергозатратный процесс, а если учитывать растущее количество разных устройств, для каждого из которых надо адаптировать видеоконтент, процесс становится непосильным.
Есть два наиболее популярных способа решения данной проблемы, предоставляемые многими бесплатными онлайн ресурсами. Первый способ — добавление черных полей по краям до нужного соотношения. Однако при таком подходе эффективное разрешение контента уменьшается и черные поля даже могут оказаться больше самого видео. Второй способ заключается в обрезке видео до нужного соотношения — для этого пользователю предлагается выбрать положение окна обрезки, которое будет зафиксировано для всех кадров. Если привлекающий внимание контент находится в одной области кадра на протяжении всего видео, такой метод работает хорошо. В противном случае при данном подходе будет потеряна важная информация, находящаяся за пределами выбранного окна обрезки. Чтобы избежать этого, можно разрешить окну обрезки двигаться вместе с движением объекта за которым мы наблюдаем, имитируя таким образом движение камеры.
Общая структура алгоритма, правила, по которым можно двигать область обрезки, и способы сгладить это движение описаны в секции |2. В секции 3 описаны мета-параметры алгоритма, которые могут быть настроены для оптимального результата на конкретном наборе видео. В секции 4.1 разбираются эффекты от изменения значения предлагаемых параметров. В секции 4.2 представленно сравнение предлагаемого метода с альтернативными работами.
В данной работе мы предлагаем оценивать распределение внимания среднестатистического зрителя и изменять положения окна обрезки в зависимости от того, где предположительно будет сконцентрированно внимание. Механизмы внимания моделируются с использованием нейронной сети архитектуры U-Net [1] с кодирующей частью MobileNetV2 [5], предобученной на датасете ImageNet [6]. В данной работе
использовался простой декодер на основе интерполяций методом ближайшего соседа и сверток, состоящий из 5 последовательных декодирующих блоков. Глубина сети — 64 слоя. Нейронная сеть обучалась на датасете SALICON [2]. Подробнее архитектура и процесс обучения будут описаны в секции 2.1.
Модель, предсказывающая внимание зрителей не идеальна, и если результаты такого моделирования использовать без каких-либо дополнительных ограничений, то возникает эффект дрожащей камеры. Подробнее о том, как сгладить дрожание в секции 2.3.
Предлагаемый алгоритм работает последовательно, обрабатывая кадр за кадром, что оставляет возможность в будущем применять его в процессе съемки видео, например, для прямых трансляций на устройства с разным соотношением сторон экранов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе предлагается алгоритм по изменению соотношения сторон видео, путем обрезания их до нужного соотношения. Предлагаемый алгоритм работает лучше известных аналогов. Так как алгоритм работает линейно обрабатывая кадр за кадром (с некоторым заглядыванием в будущее), его можно будет использовать для трансляций в прямом эфире. В результате сравнения стало очевидно, что детектирование смены сцен, значительно улучшает качество полученного видео. Также сравнения показывают, что для сглаживания движения окна обрезки не обязательно обрабатывать всю сцену целиком, что и открывает возможности для использования данного алгоритма для трансляций в режиме реального времени. На современных пользовательских компьютерах, при использовании 8 ядрер, алгоритм потенциально может работать в реальном времени обрабатывая кадры со скоростью их поступления.


1. Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. CoRR, abs/1505.04597, 2015.
2. Ming Jiang, Shengsheng Huang, Juanyong Duan, and Qi Zhao. Salicon: Saliency in context. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015.
3. Konstantinos Apostolidis and Vasileios Mezaris. A web service for video smart-cropping. In 2021 IEEE International Symposium on Multimedia (ISM), pages 25-26. IEEE, 2021.
4. Google. Google autoflip, 2020. Last accessed 18 May 2022.
5. Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4510-4520, 2018.
6. Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248-255. Ieee, 2009.
7. Li-Qun Chen, Xing Xie, Xin Fan, Wei-Ying Ma, Hong-Jiang Zhang, and He-Qin Zhou. A visual attention model for adapting images on small displays. Multimedia systems, 9(4):353-364, 2003.
8. Feng Liu and Michael Gleicher. Automatic image retargeting with fisheye-view warping. In Proceedings of the 18th annual ACM symposium on User interface software and technology, pages 153-162, 2005.
9. Shai Avidan and Ariel Shamir. Seam carving for content-aware image resizing. In ACM SIGGRAPH 2007 papers, pages 10-es. 2007.
10. Bongwon Suh, Haibin Ling, Benjamin B Bederson, and David W Jacobs. Automatic thumbnail cropping and its effectiveness. In Proceedings of the 16th annual ACM symposium on User interface software and technology, pages 95-104, 2003.
11. Lior Wolf, Moshe Guttmann, and Daniel Cohen-Or. Non-homogeneous content-driven video-retargeting. In 2007 IEEE 11th international conference on computer vision, pages 1-6. IEEE, 2007.
12. Michael Rubinstein, Ariel Shamir, and Shai Avidan. Improved seam carving for video retargeting. ACM transactions on graphics (TOG), 27(3):1-9, 2008.
13. Kranthi Kumar Rachavarapu, Moneish Kumar, Vineet Gandhi, and Ramanathan Subramanian. Watch to edit: Video retargeting using gaze. In Computer Graphics Forum, volume 37, pages 205-215. Wiley Online Library, 2018.
14. Eakta Jain, Yaser Sheikh, Ariel Shamir, and Jessica Hodgins. Gaze-driven video re-editing. ACM Transactions on Graphics (TOG), 34(2):1-12, 2015.
15. Christel Chamaret and Olivier Le Meur. Attention-based video reframing: Validation using eye-tracking. In 2008 19th International Conference on Pattern Recognition, pages 1-4. IEEE, 2008.
...29

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ