📄Работа №141974

Тема: Добавление признаков композиций в функцию потерь модели MusicTransformer для настраиваемой генерации музыки

Характеристики работы

Тип работы Дипломные работы, ВКР
Математика
Предмет Математика
📄
Объем: 25 листов
📅
Год: 2023
👁️
Просмотров: 70
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Глава 1. Введение 3
1.1. MusicTransformer 3
1.1.1 Self-Attention в Transformer 3
1.1.2 Relative Position Representations 4
1.1.3 Представление композиций 6
Глава 2. Обзор литературы 7
Глава 3. Основная часть 9
3.1. Постановка задачи 9
3.2. Подбор дифференцируемого алгоритма подсчёта признака . 10
3.2.1 Подход с предобученным предсказателем признака . . 10
3.2.2 Подход с модификацией оригинальной модели 11
3.3. Динамика 12
3.3.1 Разметка динамики 13
3.3.2 Подход с предобученным предсказателем динамики . . 14
3.3.3 Анализ обученной модели 16
3.3.4 Подход с модификацией исходной модели 18
3.4. Гармония 19
3.4.1 Разметка гармонии 19
3.4.2 Подход с предобученным предсказателем гармонии . . 20
3.4.3 Подход с модификацией исходной модели 21
3.4.4 Анализ обученных моделей 21
Заключение 23
Список литературы 23

📖 Аннотация

Работа посвящена исследованию модификации функции потерь модели MusicTransformer для настраиваемой генерации музыки. Актуальность исследования обусловлена тем, что современные нейросетевые подходы к созданию музыки часто генерируют структурно корректные, но эмоционально и стилистически нейтральные последовательности, что ограничивает их практическое применение в задачах, требующих контроля над параметрами выходного аудиопотока. В рамках методологии в базовую архитектуру Transformer, лежащую в основе MusicTransformer, интегрируются дополнительные слагаемые в функцию потерь, кодирующие доменные знания о музыке, а именно признаки динамики и гармонии. Реализованы и сравнены два подхода: использование предобученных предсказателей музыкальных признаков и прямая модификация исходной модели для их внутреннего вычисления. Результаты экспериментов демонстрируют, что предложенные модификации позволяют осуществлять более гибкий контроль над генерируемыми композициями, влияя на их эмоциональную окраску и структурную сложность без существенной потери в общей связности музыкального текста. Практическая значимость работы заключается в возможности применения усовершенствованной модели в областях, требующих автоматизированного создания тематического музыкального контента с заданными характеристиками, таких как звуковое сопровождение для видеоигр, рекламы или медиапроизводства. Проведенный анализ литературы подтверждает, что интеграция экспертных знаний в процесс обучения генеративных моделей является перспективным направлением для повышения управляемости и выразительности синтезируемой музыки.

📖 Введение

Генерация музыки - задача, целью которой является получение звуковой последовательности, которая бы звучала складно, гармонично; которая бы могла быть охарактеризована человеком как музыка. Настраиваемое создание музыки отсылает к генерации, позволяющей менять параметры создаваемой музыки, такие как настроение, жанр и т.д.
Задачу генерации музыки можно рассматривать как частный случай задачи порождения последовательностей в машинном обучении. Широкое распространение здесь получили нейросетевые подходы, которые продолжают исследоваться и совершенствоваться дальше. Одним из путей их развития в контексте музыки может служить привнесение доменных знаний о музыке в модель; в данной работе будет рассмотрено привнесение таких знаний посредством добавления признаков композиций в модель через её функцию потерь. Подробнее об этом будет сказано в основной части.
Далее представлен обзор на модель MusicTransformer [1], генерирующую музыку и которая была выбрана базовой в экспериментах.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Ian Simon, Curtis Hawthorne, Noam Shazeer, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, and Douglas Eck. «Music Transformer: Generating music with long-term structure». In International Conference on Learning Representations, 2019.
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. «Attention Is All You Need». In Advances in Neural Information Processing Systems, 2017.
[3] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. «Self-attention with Relative Position Representations». In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, volume 2, 2018.
[4] Sageev Oore, Ian Simon, Sander Dieleman, Douglas Eck, and Karen Simonyan. «This Time with Feeling: Learning Expressive Musical Performance». arXiv preprint arXiv:1808.03715, 2018.
[5] Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, and Ilya Sutskever. «Jukebox: A Generative Model for Music». arXiv:2005.00341, 2020.
[6] Ali Razavi, Aaron van den Oord, and Oriol Vinyals. «Generating Diverse High-Fidelity Images with VQ-VAE-2». In Advances in Neural Information Processing Systems, pp. 14837- 14847, 2019.
[7] Aaron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. «Neural Discrete Representation Learning». In Neural Information Processing Systems, 2017.
[8] Ziyu Wang, Dingsu Wang, Yixiao Zhang, and Gus Xia. «Learning Interpretable Representation for Controllable Polyphonic Music Generation». In International Society for Music Information Retrieval, pp. 662-669, 2020.
[9] Diederik P. Kingma, and Max Welling. «Auto-Encoding Variational Bayes». arXiv preprint arXiv:1312.6114, 2013.
[10] Ziyu Wang, Yiyi Zhang, Yixiao Zhang, Junyan Jiang, Ruihan Yang, Junbo Zhao, and Gus Xia. «PIANOTREE VAE: Structured Representation Learning for Polyphonic Music». In Proceedings of 21st International Conference on Music Information Retrieval, 2020.
[11] Shangzhe Di, Zeren Jiang, Si Liu, Zhaokai Wang, Leyan Zhu, Zexin He, Hongming Liu, and Shuicheng Yan. «Video Background Music Generation with Controllable Music Transformer». In Proceedings of the ACM International Conference on Multimedia, 2021.
[12] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David WardeFarley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. «Generative adversarial nets». In Advances in Neural Information Processing Systems 27, pp. 2672-2680, 2014.
[13] Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng- Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, and Douglas Eck. «Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset». In International Conference on Learning Representations, 2019.
[14] Lucas N. Ferreira, Levi H. S. Lelis, and Jim Whitehead. «Computer- Generated Music for Tabletop Role-Playing Games». In Proceedings of the 16th annual AAAI conference on Artificial Intelligence and Interactive Digital Entertainment, 2020.
[15] Qiuqiang Kong, Bochen Li, Jitong Chen, and Yuxuan Wang. «GiantMIDI- Piano: A large-scale MIDI dataset for classical piano music». arXiv preprint arXiv:2010.07061, 2020.

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ