РАЗДЕЛЕНИЕ ГОЛОСОВ В ЗАПИСЯХ МНОЖЕСТВА ДИКТОРОВ
|
ВВЕДЕНИЕ 4
Глава 1. Анализ предметной области 6
1.1. Задача разделения голосов 6
1.2. Машинное обучение 8
1.3. Цифровая обработка сигналов 10
1.4. Подходы к решению CPP 12
Глава 2. Применяемые методы 15
2.1. Модель сети 15
2.1.1. Dilated CNN 16
2.1.2. Bidirectional LSTM 18
2.2. Выход сети 21
Глава 3. Реализация 24
3.1. Входные данные 24
3.2. Предобработка данных 25
3.2.1. Обработка аудио сигналов 26
3.2.2. Обработка видео сигналов 27
3.3. Метрики 30
3.3.1. Целевая функция 30
3.3.2. SDR 31
3.3.3. PESQ 31
3.4. Реализация модели 32
Глава 4. Исследование эффективности 35
4.1. Полученные результаты 35
4.1.1. 1S+noise 35
4.2. Анализ полученных результатов 39
ЗАКЛЮЧЕНИЕ 41
СПИСОК ЛИТЕРАТУРЫ 43
ПРИЛОЖЕНИЕ 45
Глава 1. Анализ предметной области 6
1.1. Задача разделения голосов 6
1.2. Машинное обучение 8
1.3. Цифровая обработка сигналов 10
1.4. Подходы к решению CPP 12
Глава 2. Применяемые методы 15
2.1. Модель сети 15
2.1.1. Dilated CNN 16
2.1.2. Bidirectional LSTM 18
2.2. Выход сети 21
Глава 3. Реализация 24
3.1. Входные данные 24
3.2. Предобработка данных 25
3.2.1. Обработка аудио сигналов 26
3.2.2. Обработка видео сигналов 27
3.3. Метрики 30
3.3.1. Целевая функция 30
3.3.2. SDR 31
3.3.3. PESQ 31
3.4. Реализация модели 32
Глава 4. Исследование эффективности 35
4.1. Полученные результаты 35
4.1.1. 1S+noise 35
4.2. Анализ полученных результатов 39
ЗАКЛЮЧЕНИЕ 41
СПИСОК ЛИТЕРАТУРЫ 43
ПРИЛОЖЕНИЕ 45
В наши дни сложно найти такую сферу жизни, которая не соприкасалась бы с информационными технологиями. Увеличивая наши способности, они стали неотъемлемой частью быта и многих видов деятельности. Разнообразие предлагаемых возможностей и доступность - одни из главных преимуществ, непосредственно влияющих на распространенность и спектр решаемых задач, а также методы, которыми эти задачи могут быть решены.
Каждая новая работа или изобретение впечатляют своими идеями и областями применения. Однако их создание, как и любая созидательная деятельность, всегда прежде чем-то вдохновляется. Так человеческий мозг и его возможности нередко становятся тем самым вдохновляющим фактором. Ведь многие методы уже давно были реализованы самой природой. Ученые и исследователи же в свою очередь уже давно пытаются бросить ей вызов и воссоздать, а иногда и улучшить ее творения.
Идеи, полученные таким образом, часто находят применение во многих задачах, в том числе и прикладных. Ярким примером могут служить нейронные сети. Однако сам человек не всегда задумывается об уникальности своих возможностей. Многие из них также могли бы послужить идеями, которые будут способны решать вопросы новым способом.
Одной из таких способностей, к которой хотелось бы привлечь внимание, - это способность выделять из некоторой зашумленной сцены конкретные голос или звук. Многим наверняка знакома ситуация, когда в шумном помещении мы можем услышать, в каком направлении находится наша цель. Или же способность вести беседу в условиях множества посторонних шумов. Описанные примеры настолько повседневны и привычны для нас, что кажутся совершенно незначительными. Однако, обучив машину совершать подобные действия, можно с ее помощью решать целые классы задач распознавания речи и смежные.
Одной из областей применения может служить и информационная
безопасность в одном из ее проявлений, связанным с проведением
4
мероприятий, связанных со сбором данных, так как выделение голосов конкретных дикторов помогает их структурировать. Выделение конкретного говорящего в некоторой зашумленной сцене в отдельный канал может действительно дать много полезной информации, которая в свою очередь может быть использована для специальных нужд.
Описанная задача в англоязычной литературе получила название Cocktail Party Problem (CPP). Одно из первых упоминаний CPP можно найти в работе [1], датированной 1953 годом. В ней говорится об опытах, проводимых с целью понять этот феномен человеческой возможности фильтрации звуков. С тех пор было совершено множество попыток решения этой задачи различными методами, однако, в свете влияния последних лет, алгоритмы, основанные на машинном обучении, пользуются наибольшей популярностью на фоне результатов в других областях. Действительно данные алгоритмы позволяют использовать новые подходы в решении проблем и дают простор для создания собственных.
Целью данной выпускной квалификационной работы является создание и обучение модели нейронной сети, позволяющей выделять голоса из записи множества дикторов.
Задачи работы:
1) разработка архитектуры нейронной сети, позволяющей разделять голоса;
2) найти и предобработать набор данных для обучения модели нейронной сети;
3) обучить модели для выделения голоса из записи с одним диктором и из записи с двумя;
4) провести проверку обученных моделей при помощи специальных метрик.
Каждая новая работа или изобретение впечатляют своими идеями и областями применения. Однако их создание, как и любая созидательная деятельность, всегда прежде чем-то вдохновляется. Так человеческий мозг и его возможности нередко становятся тем самым вдохновляющим фактором. Ведь многие методы уже давно были реализованы самой природой. Ученые и исследователи же в свою очередь уже давно пытаются бросить ей вызов и воссоздать, а иногда и улучшить ее творения.
Идеи, полученные таким образом, часто находят применение во многих задачах, в том числе и прикладных. Ярким примером могут служить нейронные сети. Однако сам человек не всегда задумывается об уникальности своих возможностей. Многие из них также могли бы послужить идеями, которые будут способны решать вопросы новым способом.
Одной из таких способностей, к которой хотелось бы привлечь внимание, - это способность выделять из некоторой зашумленной сцены конкретные голос или звук. Многим наверняка знакома ситуация, когда в шумном помещении мы можем услышать, в каком направлении находится наша цель. Или же способность вести беседу в условиях множества посторонних шумов. Описанные примеры настолько повседневны и привычны для нас, что кажутся совершенно незначительными. Однако, обучив машину совершать подобные действия, можно с ее помощью решать целые классы задач распознавания речи и смежные.
Одной из областей применения может служить и информационная
безопасность в одном из ее проявлений, связанным с проведением
4
мероприятий, связанных со сбором данных, так как выделение голосов конкретных дикторов помогает их структурировать. Выделение конкретного говорящего в некоторой зашумленной сцене в отдельный канал может действительно дать много полезной информации, которая в свою очередь может быть использована для специальных нужд.
Описанная задача в англоязычной литературе получила название Cocktail Party Problem (CPP). Одно из первых упоминаний CPP можно найти в работе [1], датированной 1953 годом. В ней говорится об опытах, проводимых с целью понять этот феномен человеческой возможности фильтрации звуков. С тех пор было совершено множество попыток решения этой задачи различными методами, однако, в свете влияния последних лет, алгоритмы, основанные на машинном обучении, пользуются наибольшей популярностью на фоне результатов в других областях. Действительно данные алгоритмы позволяют использовать новые подходы в решении проблем и дают простор для создания собственных.
Целью данной выпускной квалификационной работы является создание и обучение модели нейронной сети, позволяющей выделять голоса из записи множества дикторов.
Задачи работы:
1) разработка архитектуры нейронной сети, позволяющей разделять голоса;
2) найти и предобработать набор данных для обучения модели нейронной сети;
3) обучить модели для выделения голоса из записи с одним диктором и из записи с двумя;
4) провести проверку обученных моделей при помощи специальных метрик.
В ходе выполнения данной работы была реализована архитектура нейронной сети, позволяющая выделять определенный голос из записи с шумом. Показатели эффективности метрик показывают, что все используемые инструменты, предположения относительно применимости некоторых методов действительно имеют место быть в моделях, решающих данную задачу.
Ключевым моментом используемого подхода является совместное использование как аудио информации, так и визуальной. В ходе выполнения работы это было не раз показано. С другой стороны, затрачиваемые при этом ресурсы сильно отталкивают тех, кто пытаются эту задачу решить. Однако, учитывая тот факт, с какой скоростью мы получаем доступ к все более новым и продвинутым возможностям и ресурсам, возможно, в скором времени описанный недостаток перестанет быть таковым.
Очевидным недостатком реализуемой модели является тот факт, что для выделения голосов в записи необходима сеть, обученная на количестве дикторов равном или меньшем присутствующих на записи. Это делает работу с моделью несколько затруднительной, так как увеличение дикторов в обучении влечет увеличение необходимых вычислительных ресурсов.
Помимо этого, было выявлено, как сильно влияет количество данных в выборке на процесс обучения, что можно наблюдать на графиках с валидации в момент увеличения ошибки.
Также в ходе предобработки данных было изучено множество новых библиотек для работы с аудио и видео сигналами, реализованы алгоритмы цифровой обработки сигналов. Были изучены работы, связанные с устройством механизмов разделения внимания человека, влияния внешних факторов на процесс получения информации.
Из задач, сформулированных во введении, были реализованы все, однако разделение голосов из записи множества дикторов не показало ожидаемых результатов: качество полученных сигналов не всегда можно
41
Ключевым моментом используемого подхода является совместное использование как аудио информации, так и визуальной. В ходе выполнения работы это было не раз показано. С другой стороны, затрачиваемые при этом ресурсы сильно отталкивают тех, кто пытаются эту задачу решить. Однако, учитывая тот факт, с какой скоростью мы получаем доступ к все более новым и продвинутым возможностям и ресурсам, возможно, в скором времени описанный недостаток перестанет быть таковым.
Очевидным недостатком реализуемой модели является тот факт, что для выделения голосов в записи необходима сеть, обученная на количестве дикторов равном или меньшем присутствующих на записи. Это делает работу с моделью несколько затруднительной, так как увеличение дикторов в обучении влечет увеличение необходимых вычислительных ресурсов.
Помимо этого, было выявлено, как сильно влияет количество данных в выборке на процесс обучения, что можно наблюдать на графиках с валидации в момент увеличения ошибки.
Также в ходе предобработки данных было изучено множество новых библиотек для работы с аудио и видео сигналами, реализованы алгоритмы цифровой обработки сигналов. Были изучены работы, связанные с устройством механизмов разделения внимания человека, влияния внешних факторов на процесс получения информации.
Из задач, сформулированных во введении, были реализованы все, однако разделение голосов из записи множества дикторов не показало ожидаемых результатов: качество полученных сигналов не всегда можно
41
Подобные работы
- РАЗДЕЛЕНИЕ ГОЛОСОВ В ЗАПИСЯХ МНОЖЕСТВА ДИКТОРОВ
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 6500 р. Год сдачи: 2019 - ПОСТРОЕНИЕ И ИССЛЕДОВАНИЕ АЛГОРИТМА РАСПОЗНАВАНИЯ ДИКТОРОВ НА ОСНОВЕ ОГРАНИЧЕННОЙ МАШИНЫ БОЛЬЦМАНА
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4370 р. Год сдачи: 2016



