Глава 1. Введение 3
1.1. Краткое описание задач/результатов 3
Глава 2. Обзор литературы и существующих методов 4
2.1. Архитектура Transformer 4
2.2. Music Transformer 5
2.3. Генерация музыки под видео 6
2.3.1 V-musProd 7
2.3.2 V2Meow 7
2.3.3 Video2Music 8
Глава 3. Основная часть 9
3.1. Постановка задачи 9
3.2. Извлечение признаков из видео, выделение главных моментов 10
3.3. Рассмотренные архитектуры для моделей генерации 12
3.3.1 MT+velocity 12
3.3.2 MT+note_density 12
3.3.3 MT+variations 13
3.4. Метрика соответствия музыки и видео 14
3.5. Полученные результаты, оценки качества 15
3.5.1 Объективные метрики 16
3.5.2 Субъективные метрики 17
Глава 4. Заключение 18
4.1. Результаты работы, метрики 18
4.2. Дальнейший план работы 19
Список литературы 20
Приложение 22
В эпоху стремительного развития технологий глубокого обучения и искусственного интеллекта (ИИ) задачи, которые ранее казались исключительно творческими и трудоемкими, теперь могут решаться с помощью алгоритмов глубокого обучения и нейросетевых моделей. В последние годы большие языковые модели (LLM), в том числе модели основанные на архитектуре Transformer , нашли широкое применение в самых разных областях, включая генерацию текста, изображений и музыки.
Генерация музыки представляет собой задачу создания последовательности звуков, которые воспринимаются как мелодичные, гармоничные и музыкально целостные. Это требует от модели понимания музыкальных структур и закономерностей, чтобы результат был не просто набором звуков, а полноценным музыкальным произведением.
Одной из интересных задач является генерация музыкального сопровождения для видео. В этом контексте важно учитывать изменения в кадре, значимые события, кульминации и другие существенные моменты. Музыка должна не только гармонично сочетаться с видеорядом, но и подчеркивать драматургические акценты, усиливая эмоциональное воздействие. Когда на видео происходит что-то важное, музыка должна это отражать и подчеркивать, добавляя глубину и насыщенность восприятию видео.
Задача генерации музыкального сопровождения для видео находит применение в самых разных областях. Например, в создании фоновой музыки для рекламных роликов или в создании развлекательного контента на платформах типа TikTok. Традиционный поиск музыки, подходящей под уже созданное видео, может быть трудоемким, дорогостоящим и ограниченным лицензиями, поэтому автоматическая генерация музыки представляет собой привлекательное решение.
Результаты экспериментов показали что одна из полученный моделей по качеству не хуже открытой модели Video2Music, и даже лучше ее без статистической значимости.
Расхождение в объективных и субъективных метриках можно объяснить как раз тем, что оценка музыки - сложная задача, не имеющая объективных оценок. Иногда метрика concordance score может не улавливать те совпадения, которые слышит эксперт - это видно в показателях модели MT+note density.
По итогу работы можно заключить, что получилось разработать модель, которая по качеству сопоставима с state-of-the-art моделью Video2Music. Более того она статистически незначимо ее превосходит по метрике concordance score, и существенно превосходит по оценке экспертов.
В дальнейшем планируется сделать продуктовое решение, основанной на одной из наших моделей, и внедрить в текущий производственный процесс.
Есть идеи по разработке следующей версии архитектуры, хочется попробовать объединить структурную идею из модели MT+variations и настраиваемость по громкости из модели MT+velocity. Так же есть планы по добавлению других признаков из видео, как в Video2Music.
[1] Andrea Agostinelli, Timo I. Denk, Zalan Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, and Christian Frank. Musiclm: Generating music from text, 2023.
[2] Breakthrough. Pyscenedetect: Video scene cut detection and analysis tool. https://www.scenedetect.eom/docs/0.6.3/index.html, 2023. Accessed: 2024-05-30.
[3] Shuqi Dai, Huan Zhang, and Roger B. Dannenberg. Automatic analysis and influence of hierarchical structure on melody, rhythm and harmony in popular music, 2020.
[4] https://github.com/AndreevArkady/musicgeneration.
[5] https://glinka.club.
[6] Composer Eugeny Grigorovich https://t.me/grigorovichmusic.
[7] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Ian Simon, Curtis Hawthorne, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, and Douglas Eck. Music transformer, 2018.
[8] Joel Ibaceta. Video keyframe detector. https://github.com/joelibaceta/ video-keyframe-detector, 2023. Accessed: 2024-05-30.
[9] Jaeyong Kang, Soujanya Poria, and Dorien Herremans. Video2music: Suitable music generation from videos using an affective multimodal transformer model. Expert Systems with Applications, 249:123640, September 2024.
[10] monkeyDemon. Ai-toolbox. https://github.com/monkeyDemon/ AI-Toolbox/tree/master, 2024. Algorithm Engineer Toolbox for quickly iterating new ideas.
[11] Sageev Oore, Ian Simon, Sander Dieleman, Douglas Eck, and Karen Simonyan. This time with feeling: Learning expressive musical performance, 2018.
[12] Python Software Foundation. Python programming language. https://www. python.org/, 2023. Accessed: 2024-05-30.
[13] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision, 2021.
[14] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position representations, 2018.
[15] Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, and Timo I. Denk. V2meow: Meowing to the visual beat via video-to-music generation, 2024.
[16] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2023.
[17] Ziyu Wang, Ke Chen, Junyan Jiang, Yiyi Zhang, Maoran Xu, Shuqi Dai, Xianbin Gu, and Gus Xia. Pop909: A pop-song dataset for music arrangement generation, 2020.
[18] Le Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Chenxi Bao, Stanley Peng, Songhao Han, Aixi Zhang, Fei Fang, and Si Liu. Video background music generation: Dataset, method and evaluation, 2023.