Глава 1. Введение 3
Глава 2. Постановка задачи 4
2.1. Основные понятия музыки 5
2.2. Первичное представления музыкальной композиции .... 6
2.2.1 MIDI 6
2.2.2 Хронограммы 7
2.3. Инвариантность сдвига гармонии 8
2.4. Учитывание полного контекста при сегментации 9
Глава 3. Обзор литературы 10
3.1. Правила и эвристики 10
3.2. Графические модели и скрытые марковские процессы (HMM) 11
3.3. Машинное и глубокое обучение 11
Глава 4. Основная часть 13
4.1. Алгоритм CHORD 13
4.1.1 Предобработка данных 14
4.1.2 Этап оценки вероятности 15
4.1.3 Этап сегментации 17
4.2. Алгоритм CHORD* 19
4.3. Тонкости реализации 20
4.4. Интерпритация 20
4.5. Датасеты и валидация 22
4.6. JSBChorales 22
4.7. McGill Billboard 2.0 23
Глава 5. Приложения 23
Глава 6. Заключение 24
Список литературы 25
Музыка, как универсальный язык эмоций и идей, играет значительную роль в жизни современного общества. С развитием информационных технологий, взаимодействие человека с музыкой выходит за рамки простого прослушивания. Возникает потребность в интеллектуальных системах, способных анализировать, понимать и даже создавать музыку. Именно здесь на первый план выходит область Music Information Retrieval (MIR) [1], призванная извлекать знания из музыкальных данных.
Одной из ключевых задач MIR является выделение гармоний [3] - процесс определения последовательности аккордов, составляющих гармоническую основу музыкальной композиции. Знание гармонической структуры открывает широкие возможности для решения целого ряда прикладных задач: автоматическое создание аккомпанимента и аранжировок [2] , классификация музыкальных жанров [4] , поиск и ранжирования похожих композиций [5], анализ музыкального стиля и настроения. В настоящее время существует множество методов выделения гармоний, основанных на различных подходах - от классических алгоритмов обработки сигналов до современных методов машинного обучения.
Однако, ни одно из решений в себе не содержит в себе: инвариантность сдвига гармонии [7], учитывание полного контекста при сегментации и интерпретируемость.
В данной дипломной работе придуман и реализован новый алгоритм CHORD (Chord Harmony Optimized Recognition and Detection) и его улучшение CHORD*, основанный на итеративном подходе с использованием деревьев решений. Алгоритм CHORD нацелен на повышение точности выделения гармоний с помощью использования выше перечисленных свойств. Результатом алгоритма является эффективное разделение композиции на гармонические фрагменты и возможность адаптации к различным форматам музыкальных данных (MIDI, хронограммы).
Полезное и близкое к нашим исследованиям приложение алгоритма состоит в использовании выделенных гармоний для улучшения генерации и настройки музыки с помощью архитектуры Transformer [6].
Эксперименты показали, что наша модель активно соперничает и бьет метрики с текущими решениями. Оказалось, можно изящной идеей и классической моделью добиться хороших результатов.
Множество маленьких улучшений в самых разных частях алгоритма внезапно показали изменения метрик в положительную сторону. Данное наблюдение оставляет возможность продолжать работу и улучшать алгоритм.
Кодовая база находиться на github.
[1] Downie, J. S. 2003. Music information retrieval. Annual review of information science and technology, 37(1): 295-340.
[2] Simon, I.; Morris, D.; and Basu, S. 2008. MySong: automatic accompaniment generation for vocal melodies. In Proceedings of the SIGCHI conference on human factors in computing systems, 725-734..
[3] Schedl, M.; Gomez, E.; Urbano, J.; et al. 2014. Music in- formation retrieval: Recent developments and applications. Foundations and Trends® in Information Retrieval, 8(2-3):127-261.
[4] Fu, Z.; Lu, G.; Ting, K. M.; and Zhang, D. 2010. A survey of audio-based music classification and annotation. IEEE transactions on multimedia, 13(2): 303-319.
[5] Song, Y.; Dixon, S.; and Pearce, M. 2012. A survey of music recommendation systems and future perspectives. In 9th international symposium on computer music modeling and retrieval, volume 4, 395-410. Citeseer.
[6] Vaswani, Ashish, et al. «Attention Is All You Need »*Advances in Neural Information Processing Systems*, vol. 30, 2017, pp. 5998-6008.
[7] Shah, R. C., Mankad, S. H. Chord Recognition- Music and Audio Information Retrieval.
[8] Mauch, M.; and Dixon, S. 2010. «Approximate Note Transcription for the Improved Identification of Difficult Chords ». In Downie, J. S.; and Veltkamp, R. C., eds., Proceedings of the 11th International Society for Music Information Retrieval Conference, 135-140.
[9] Oudre, L., Grenier, Y., Fevotte, C. (2011). Chord recognition by fitting rescaled chroma vectors to chord templates. IEEE Transactions on Audio Speech and Language Processing, 19(6), 1782-1793.
[10] Harte, C., Sandler, M. (2006). Detecting harmonic change in musical audio. Proceedings of the 2006 International Conference on Advances in Multimedia Modeling, 429-434.
[11] Sheh, A., Ellis, D. P. W. (2003). Chord segmentation and recognition using EM-trained hidden Markov models. In Proceedings of the 3rd International Conference on Music Information Retrieval (pp. 183-189).
[12] Masada, K., Bunescu, R. (2018). Chord recognition in symbolic music: A segmental CRF model, segment-level features, and comparative evaluations on classical and popular music. Transactions of the International Society for Music Information Retrieval, 5(1),
[13] Radicioni, D. P., Esposito, R. (2010). BREVE: An HMPerceptron-based chord recognition system. In Z.W. Ras A.A. Wieczorkowska (Eds.), Advances in Music Information Retrieval: 9th International Conference on Music Information Retrieval, ISMIR 2010, Utrecht, The Netherlands, August 23-27, 2010, Proceedings (pp. 143-164). Springer.
[14] Bayron, C. J. (2021). Autochord: Automatic chord recognition library and chord visualization app. In Extended Abstracts for the Late-Breaking Demo Session of the 22nd International Society for Music Information Retrieval Conference. Online.
[15] Chen, T.-P., Su, L. (2019). Harmony Transformer: Incorporating chord segmentation into harmony recognition. In Proceedings of the 20th International Society for Music Information Retrieval Conference (pp. 000-000). Delft, The Netherlands.
[16] Cheng-Zh Anna Huang; Ashish Vaswani, 2018, «Music Transformer: Generating music with long-term structure »