Тип работы:
Предмет:
Язык работы:


Генерация музыкального сопровождения для видео на основе архитектуры Transformer

Работа №144851

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы22
Год сдачи2024
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
38
Не подходит работа?

Узнай цену на написание


Глава 1. Введение 3
1.1. Краткое описание задач/результатов 3
Глава 2. Обзор литературы и существующих методов 4
2.1. Архитектура Transformer 4
2.2. Music Transformer 5
2.3. Генерация музыки под видео 6
2.3.1 V-musProd 7
2.3.2 V2Meow 7
2.3.3 Video2Music 8
Глава 3. Основная часть 9
3.1. Постановка задачи 9
3.2. Извлечение признаков из видео, выделение главных моментов 10
3.3. Рассмотренные архитектуры для моделей генерации 12
3.3.1 MT+velocity 12
3.3.2 MT+note_density 12
3.3.3 MT+variations 13
3.4. Метрика соответствия музыки и видео 14
3.5. Полученные результаты, оценки качества 15
3.5.1 Объективные метрики 16
3.5.2 Субъективные метрики 17
Глава 4. Заключение 18
4.1. Результаты работы, метрики 18
4.2. Дальнейший план работы 19
Список литературы 20
Приложение 22

В эпоху стремительного развития технологий глубокого обучения и искусственного интеллекта (ИИ) задачи, которые ранее казались исключи­тельно творческими и трудоемкими, теперь могут решаться с помощью ал­горитмов глубокого обучения и нейросетевых моделей. В последние годы большие языковые модели (LLM), в том числе модели основанные на архитек­туре Transformer , нашли широкое применение в самых разных областях, включая генерацию текста, изображений и музыки.
Генерация музыки представляет собой задачу создания последователь­ности звуков, которые воспринимаются как мелодичные, гармоничные и му­зыкально целостные. Это требует от модели понимания музыкальных струк­тур и закономерностей, чтобы результат был не просто набором звуков, а полноценным музыкальным произведением.
Одной из интересных задач является генерация музыкального сопро­вождения для видео. В этом контексте важно учитывать изменения в кадре, значимые события, кульминации и другие существенные моменты. Музыка должна не только гармонично сочетаться с видеорядом, но и подчеркивать драматургические акценты, усиливая эмоциональное воздействие. Когда на видео происходит что-то важное, музыка должна это отражать и подчерки­вать, добавляя глубину и насыщенность восприятию видео.
Задача генерации музыкального сопровождения для видео находит при­менение в самых разных областях. Например, в создании фоновой музыки для рекламных роликов или в создании развлекательного контента на платформах типа TikTok. Традиционный поиск музыки, подходящей под уже созданное видео, может быть трудоемким, дорогостоящим и ограниченным лицензия­ми, поэтому автоматическая генерация музыки представляет собой привле­кательное решение.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Результаты экспериментов показали что одна из полученный моделей по качеству не хуже открытой модели Video2Music, и даже лучше ее без статистической значимости.
Расхождение в объективных и субъективных метриках можно объяснить как раз тем, что оценка музыки - сложная задача, не имеющая объективных оценок. Иногда метрика concordance score может не улавливать те совпадения, которые слышит эксперт - это видно в показателях модели MT+note density.
По итогу работы можно заключить, что получилось разработать модель, которая по качеству сопоставима с state-of-the-art моделью Video2Music. Бо­лее того она статистически незначимо ее превосходит по метрике concordance score, и существенно превосходит по оценке экспертов.
В дальнейшем планируется сделать продуктовое решение, основанной на одной из наших моделей, и внедрить в текущий производственный процесс.
Есть идеи по разработке следующей версии архитектуры, хочется по­пробовать объединить структурную идею из модели MT+variations и настра­иваемость по громкости из модели MT+velocity. Так же есть планы по добав­лению других признаков из видео, как в Video2Music.


[1] Andrea Agostinelli, Timo I. Denk, Zalan Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, and Christian Frank. Musiclm: Generating music from text, 2023.
[2] Breakthrough. Pyscenedetect: Video scene cut detection and analysis tool. https://www.scenedetect.eom/docs/0.6.3/index.html, 2023. Accessed: 2024-05-30.
[3] Shuqi Dai, Huan Zhang, and Roger B. Dannenberg. Automatic analysis and influence of hierarchical structure on melody, rhythm and harmony in popular music, 2020.
[4] https://github.com/AndreevArkady/musicgeneration.
[5] https://glinka.club.
[6] Composer Eugeny Grigorovich https://t.me/grigorovichmusic.
[7] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Ian Simon, Curtis Hawthorne, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, and Douglas Eck. Music transformer, 2018.
[8] Joel Ibaceta. Video keyframe detector. https://github.com/joelibaceta/ video-keyframe-detector, 2023. Accessed: 2024-05-30.
[9] Jaeyong Kang, Soujanya Poria, and Dorien Herremans. Video2music: Suitable music generation from videos using an affective multimodal transformer model. Expert Systems with Applications, 249:123640, September 2024.
[10] monkeyDemon. Ai-toolbox. https://github.com/monkeyDemon/ AI-Toolbox/tree/master, 2024. Algorithm Engineer Toolbox for quickly iterating new ideas.
[11] Sageev Oore, Ian Simon, Sander Dieleman, Douglas Eck, and Karen Simonyan. This time with feeling: Learning expressive musical performance, 2018.
[12] Python Software Foundation. Python programming language. https://www. python.org/, 2023. Accessed: 2024-05-30.
[13] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision, 2021.
[14] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position representations, 2018.
[15] Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, and Timo I. Denk. V2meow: Meowing to the visual beat via video-to-music generation, 2024.
[16] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2023.
[17] Ziyu Wang, Ke Chen, Junyan Jiang, Yiyi Zhang, Maoran Xu, Shuqi Dai, Xianbin Gu, and Gus Xia. Pop909: A pop-song dataset for music arrangement generation, 2020.
[18] Le Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Chenxi Bao, Stanley Peng, Songhao Han, Aixi Zhang, Fei Fang, and Si Liu. Video background music generation: Dataset, method and evaluation, 2023.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ