Глава 1. Введение 3
1.1. MusicTransformer 3
1.1.1 Self-Attention в Transformer 3
1.1.2 Relative Position Representations 4
1.1.3 Представление композиций 6
Глава 2. Обзор литературы 7
Глава 3. Основная часть 9
3.1. Постановка задачи 9
3.2. Подбор дифференцируемого алгоритма подсчёта признака . 10
3.2.1 Подход с предобученным предсказателем признака . . 10
3.2.2 Подход с модификацией оригинальной модели 11
3.3. Динамика 12
3.3.1 Разметка динамики 13
3.3.2 Подход с предобученным предсказателем динамики . . 14
3.3.3 Анализ обученной модели 16
3.3.4 Подход с модификацией исходной модели 18
3.4. Гармония 19
3.4.1 Разметка гармонии 19
3.4.2 Подход с предобученным предсказателем гармонии . . 20
3.4.3 Подход с модификацией исходной модели 21
3.4.4 Анализ обученных моделей 21
Заключение 23
Список литературы 23
Генерация музыки - задача, целью которой является получение звуковой последовательности, которая бы звучала складно, гармонично; которая бы могла быть охарактеризована человеком как музыка. Настраиваемое создание музыки отсылает к генерации, позволяющей менять параметры создаваемой музыки, такие как настроение, жанр и т.д.
Задачу генерации музыки можно рассматривать как частный случай задачи порождения последовательностей в машинном обучении. Широкое распространение здесь получили нейросетевые подходы, которые продолжают исследоваться и совершенствоваться дальше. Одним из путей их развития в контексте музыки может служить привнесение доменных знаний о музыке в модель; в данной работе будет рассмотрено привнесение таких знаний посредством добавления признаков композиций в модель через её функцию потерь. Подробнее об этом будет сказано в основной части.
Далее представлен обзор на модель MusicTransformer [1], генерирующую музыку и которая была выбрана базовой в экспериментах.
Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Ian Simon, Curtis Hawthorne, Noam Shazeer, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, and Douglas Eck. «Music Transformer: Generating music with long-term structure». In International Conference on Learning Representations, 2019.
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. «Attention Is All You Need». In Advances in Neural Information Processing Systems, 2017.
[3] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. «Self-attention with Relative Position Representations». In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, volume 2, 2018.
[4] Sageev Oore, Ian Simon, Sander Dieleman, Douglas Eck, and Karen Simonyan. «This Time with Feeling: Learning Expressive Musical Performance». arXiv preprint arXiv:1808.03715, 2018.
[5] Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, and Ilya Sutskever. «Jukebox: A Generative Model for Music». arXiv:2005.00341, 2020.
[6] Ali Razavi, Aaron van den Oord, and Oriol Vinyals. «Generating Diverse High-Fidelity Images with VQ-VAE-2». In Advances in Neural Information Processing Systems, pp. 14837- 14847, 2019.
[7] Aaron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. «Neural Discrete Representation Learning». In Neural Information Processing Systems, 2017.
[8] Ziyu Wang, Dingsu Wang, Yixiao Zhang, and Gus Xia. «Learning Interpretable Representation for Controllable Polyphonic Music Generation». In International Society for Music Information Retrieval, pp. 662-669, 2020.
[9] Diederik P. Kingma, and Max Welling. «Auto-Encoding Variational Bayes». arXiv preprint arXiv:1312.6114, 2013.
[10] Ziyu Wang, Yiyi Zhang, Yixiao Zhang, Junyan Jiang, Ruihan Yang, Junbo Zhao, and Gus Xia. «PIANOTREE VAE: Structured Representation Learning for Polyphonic Music». In Proceedings of 21st International Conference on Music Information Retrieval, 2020.
[11] Shangzhe Di, Zeren Jiang, Si Liu, Zhaokai Wang, Leyan Zhu, Zexin He, Hongming Liu, and Shuicheng Yan. «Video Background Music Generation with Controllable Music Transformer». In Proceedings of the ACM International Conference on Multimedia, 2021.
[12] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David WardeFarley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. «Generative adversarial nets». In Advances in Neural Information Processing Systems 27, pp. 2672-2680, 2014.
[13] Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng- Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, and Douglas Eck. «Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset». In International Conference on Learning Representations, 2019.
[14] Lucas N. Ferreira, Levi H. S. Lelis, and Jim Whitehead. «Computer- Generated Music for Tabletop Role-Playing Games». In Proceedings of the 16th annual AAAI conference on Artificial Intelligence and Interactive Digital Entertainment, 2020.
[15] Qiuqiang Kong, Bochen Li, Jitong Chen, and Yuxuan Wang. «GiantMIDI- Piano: A large-scale MIDI dataset for classical piano music». arXiv preprint arXiv:2010.07061, 2020.