Глава 1. Введение 3
1.1. Краткое описание задач/результатов 3
Глава 2. Обзор литературы и существующих методов 4
2.1. Архитектура Transformer 4
2.2. Music Transformer 5
2.3. Генерация музыки под видео 6
2.3.1 V-musProd 7
2.3.2 V2Meow 7
2.3.3 Video2Music 8
Глава 3. Основная часть 9
3.1. Постановка задачи 9
3.2. Извлечение признаков из видео, выделение главных моментов 10
3.3. Рассмотренные архитектуры для моделей генерации 12
3.3.1 MT+velocity 12
3.3.2 MT+note_density 12
3.3.3 MT+variations 13
3.4. Метрика соответствия музыки и видео 14
3.5. Полученные результаты, оценки качества 15
3.5.1 Объективные метрики 16
3.5.2 Субъективные метрики 17
Глава 4. Заключение 18
4.1. Результаты работы, метрики 18
4.2. Дальнейший план работы 19
Список литературы 20
Приложение 22
В эпоху стремительного развития технологий глубокого обучения и искусственного интеллекта (ИИ) задачи, которые ранее казались исключительно творческими и трудоемкими, теперь могут решаться с помощью алгоритмов глубокого обучения и нейросетевых моделей. В последние годы большие языковые модели (LLM), в том числе модели основанные на архитектуре Transformer , нашли широкое применение в самых разных областях, включая генерацию текста, изображений и музыки.
Генерация музыки представляет собой задачу создания последовательности звуков, которые воспринимаются как мелодичные, гармоничные и музыкально целостные. Это требует от модели понимания музыкальных структур и закономерностей, чтобы результат был не просто набором звуков, а полноценным музыкальным произведением.
Одной из интересных задач является генерация музыкального сопровождения для видео. В этом контексте важно учитывать изменения в кадре, значимые события, кульминации и другие существенные моменты. Музыка должна не только гармонично сочетаться с видеорядом, но и подчеркивать драматургические акценты, усиливая эмоциональное воздействие. Когда на видео происходит что-то важное, музыка должна это отражать и подчеркивать, добавляя глубину и насыщенность восприятию видео.
Задача генерации музыкального сопровождения для видео находит применение в самых разных областях. Например, в создании фоновой музыки для рекламных роликов или в создании развлекательного контента на платформах типа TikTok. Традиционный поиск музыки, подходящей под уже созданное видео, может быть трудоемким, дорогостоящим и ограниченным лицензиями, поэтому автоматическая генерация музыки представляет собой привлекательное решение.
Результаты экспериментов показали что одна из полученный моделей по качеству не хуже открытой модели Video2Music, и даже лучше ее без статистической значимости.
Расхождение в объективных и субъективных метриках можно объяснить как раз тем, что оценка музыки - сложная задача, не имеющая объективных оценок. Иногда метрика concordance score может не улавливать те совпадения, которые слышит эксперт - это видно в показателях модели MT+note density.
По итогу работы можно заключить, что получилось разработать модель, которая по качеству сопоставима с state-of-the-art моделью Video2Music. Более того она статистически незначимо ее превосходит по метрике concordance score, и существенно превосходит по оценке экспертов.
В дальнейшем планируется сделать продуктовое решение, основанной на одной из наших моделей, и внедрить в текущий производственный процесс.
Есть идеи по разработке следующей версии архитектуры, хочется попробовать объединить структурную идею из модели MT+variations и настраиваемость по громкости из модели MT+velocity. Так же есть планы по добавлению других признаков из видео, как в Video2Music.