Аннотация 2
ВВЕДЕНИЕ 5
1 АУДИОАНАЛИТИКА 9
1.1 Методы детектирования аудиособытий 9
1.1.1 Метод детектирования аудиособытий на основе стандартного
отклонения нормированных значений мощностей блоков 10
1.1.2 Метод детектирования аудиособытий на основе использования
медианного фильтра 11
1.1.3 Метод детектирования аудиособытия на основе
динамического порога для значений мощностей блоков 13
1.2 Классификация аудиособытий 14
1.2.1 Буферизация с перекрытием 14
1.2.2 Стадия предобработки 15
1.2.3 Извлечение признаков 16
1.2.4 Постобработка признаков 22
1.2.5 Выбор классификатора 24
1.3 Существующие модели поиска похожей музыки 29
1.3.1 Рекомендательная технология Диско 29
1.3.2 Функция поиска похожего трека Яндекс.Музыка 32
1.3.3 Система подбора похожего контента Genius 33
1.4 Исследования в области неврологии 34
2 ПЛАНИРОВАНИЕ 37
2.1 Входные данные 37
2.2 Обработка аудиофайла 38
2.2.1 Разбиение на фреймы. Предобработка 39
2.2.2 Преобразование Фурье 41
2.2.3 Извлечение признаков. Уменьшение размерности 43
2.2.4 Формирование вектора признаков 47
2.3 Классификатор 48
2.3.1 Выбор структуры ИНС 49
2.3.2 Нормировка 49
2.3.3 Обучение 49
3. РАЗРАБОТКА 53
3.1 Термины и сокращения 53
3.2 Основные сведения 55
3.3 Требования к программе 55
3.3.1 Требования к GUI 55
3.3.2 Функциональные требования 56
3.4 Требования к видам обеспечения 56
3.4.1 Требования к хранению данных 56
3.4.2 Требования к языкам программирования 56
3.4.3 Требования к производительности 57
3.4.4 Требования к аудио файлам 57
3.4.5 Требования к аппаратному обеспечению 57
3.5 Проектирование 57
4. РЕАЛИЗАЦИЯ 61
4.1 Реализация блока сбора статистики 61
4.2 Реализация аналитического блока 69
4.3 Реализация связующего блока 75
4.4 Реализация системы рекомендаций 76
5. ОЦЕНКА РЕЗУЛЬТАТОВ РАБОТЫ СИСТЕМЫ 79
ЗАКЛЮЧЕНИЕ 80
Библиографический список 81
Приложение 83
На основе чартов музыкальных предпочтений слушателей сервиса «Яндекс.Музыка» замечено, что пользователи все чаще ищут новую музыку, а не ставят на повтор проверенные композиции [2]. На сегодня одна из самых сложных и интересных задач для музыкальных сервисов — научиться подбирать музыку под музыкальные пристрастия пользователя.
Задача поиска акустически похожих треков достаточно непростая, потому что понятие «схожести» музыки довольно условно. Для кого-то важно, чтобы был похож вокал, другой услышал интересный музыкальный инструмент, а третьему важен ритм. В качестве инструмента для решения данной проблемы в этой работе используются искусственные нейронные сети (ИНС).
ИНС — один из методов машинного обучения, который стал особенно популярен в последние годы. Нейросети прекрасны тем, что им достаточно показать, условно, что такое хорошо, а что такое плохо, чтобы получить желаемый результат. Данный метод обучения ИНС получил название - метод обучения с учителем. Нейросети доказали свою эффективность в области распознавания изображений. Например, нейронную сеть можно обучить распознавать на изображениях те или иные объекты — скажем, автомобили или собак. В ходе обучения ей показывают огромное количество картинок, где есть нужные объекты (положительные примеры) и где их нет (отрицательные примеры). В результате ИНС получает способность верно определять нужные объекты на любых изображениях. К примеру, система распознавания лиц от компанни "DeepFace" имеет заявленную точность в 97%. Эта система обладает устойчивостью к разной освещенности, различию в фоне и ракурсе лица на изображении.
Хочется отметить, что результаты в области распознавания звуков несколько скромнее. Самой успешной является система "SoundNet" [3]. На наборе данных с 10 различными категориями звуков SoundNet классифицирует звуки с точностью 92%, а на наборе данных с 50 категориями показывает точность 74%. Для сравнения, на тех же наборах данных люди показывают точность распознавания, в среднем, 96% и 81%. Но особенностью этой системы является то, что она использует наработки в области распознавания объектов и сцен по видео. А именно использовался метод естественной синхронизации между машинным зрением и машинным слухом, научив нейросеть автоматически извлекать звуковую репрезентацию объекта с неразмеченного видеоматериала.
В данной работе был разработан продукт, предназначенный для классификации музыки согласно музыкальным предпочтениям слушателей. Простой интерфейс программы не вызовет трудности для начинающего пользователя. Данная программа не использует в своем анализе ничего, кроме формы звуковой волны музыкального трека.
В ходе выполнения работы решены следующие задачи:
1. Проведен детальный анализ методов, решений и характеристик в области аудиоаналитики;
2. Разработана система аудиоанализа музыкальных коллекций исключительно на основе звуковой волны, способную успешно решать задачу прогнозирования оценки пользователя на аудиотрек;
3. Проведен анализ результатов работы системы.
Результат работы - программный продукт, который позволяет прогнозировать оценку пользователя перед прослушиванием аудиокомпозиции с ошибкой в 8.4 % .