ВВЕДЕНИЕ 4
Глава 1. Анализ предметной области 6
1.1. Задача разделения голосов 6
1.2. Машинное обучение 8
1.3. Цифровая обработка сигналов 10
1.4. Подходы к решению CPP 12
Глава 2. Применяемые методы 15
2.1. Модель сети 15
2.1.1. Dilated CNN 16
2.1.2. Bidirectional LSTM 18
2.2. Выход сети 21
Глава 3. Реализация 24
3.1. Входные данные 24
3.2. Предобработка данных 25
3.2.1. Обработка аудио сигналов 26
3.2.2. Обработка видео сигналов 27
3.3. Метрики 30
3.3.1. Целевая функция 30
3.3.2. SDR 31
3.3.3. PESQ 31
3.4. Реализация модели 32
Глава 4. Исследование эффективности 35
4.1. Полученные результаты 35
4.1.1. 1S+noise 35
4.2. Анализ полученных результатов 39
ЗАКЛЮЧЕНИЕ 41
СПИСОК ЛИТЕРАТУРЫ 43
ПРИЛОЖЕНИЕ
В наши дни сложно найти такую сферу жизни, которая не соприкасалась бы с информационными технологиями. Увеличивая наши способности, они стали неотъемлемой частью быта и многих видов деятельности. Разнообразие предлагаемых возможностей и доступность - одни из главных преимуществ, непосредственно влияющих на распространенность и спектр решаемых задач, а также методы, которыми эти задачи могут быть решены.
Каждая новая работа или изобретение впечатляют своими идеями и областями применения. Однако их создание, как и любая созидательная деятельность, всегда прежде чем-то вдохновляется. Так человеческий мозг и его возможности нередко становятся тем самым вдохновляющим фактором. Ведь многие методы уже давно были реализованы самой природой. Ученые и исследователи же в свою очередь уже давно пытаются бросить ей вызов и воссоздать, а иногда и улучшить ее творения.
Идеи, полученные таким образом, часто находят применение во многих задачах, в том числе и прикладных. Ярким примером могут служить нейронные сети. Однако сам человек не всегда задумывается об уникальности своих возможностей. Многие из них также могли бы послужить идеями, которые будут способны решать вопросы новым способом.
Одной из таких способностей, к которой хотелось бы привлечь внимание, - это способность выделять из некоторой зашумленной сцены конкретные голос или звук. Многим наверняка знакома ситуация, когда в шумном помещении мы можем услышать, в каком направлении находится наша цель. Или же способность вести беседу в условиях множества посторонних шумов. Описанные примеры настолько повседневны и привычны для нас, что кажутся совершенно незначительными. Однако, обучив машину совершать подобные действия, можно с ее помощью решать целые классы задач распознавания речи и смежные.
Одной из областей применения может служить и информационная безопасность в одном из ее проявлений, связанным с проведением мероприятий, связанных со сбором данных, так как выделение голосов конкретных дикторов помогает их структурировать. Выделение конкретного говорящего в некоторой зашумленной сцене в отдельный канал может действительно дать много полезной информации, которая в свою очередь может быть использована для специальных нужд.
Описанная задача в англоязычной литературе получила название Cocktail Party Problem (CPP). Одно из первых упоминаний CPP можно найти в работе [1], датированной 1953 годом. В ней говорится об опытах, проводимых с целью понять этот феномен человеческой возможности фильтрации звуков. С тех пор было совершено множество попыток решения этой задачи различными методами, однако, в свете влияния последних лет, алгоритмы, основанные на машинном обучении, пользуются наибольшей популярностью на фоне результатов в других областях. Действительно данные алгоритмы позволяют использовать новые подходы в решении проблем и дают простор для создания собственных.
Целью данной выпускной квалификационной работы является создание и обучение модели нейронной сети, позволяющей выделять голоса из записи множества дикторов.
Задачи работы:
1) разработка архитектуры нейронной сети, позволяющей разделять голоса;
2) найти и предобработать набор данных для обучения модели нейронной сети;
3) обучить модели для выделения голоса из записи с одним диктором и из записи с двумя;
4) провести проверку обученных моделей при помощи специальных метрик.
В ходе выполнения данной работы была реализована архитектура нейронной сети, позволяющая выделять определенный голос из записи с шумом. Показатели эффективности метрик показывают, что все используемые инструменты, предположения относительно применимости некоторых методов действительно имеют место быть в моделях, решающих данную задачу.
Ключевым моментом используемого подхода является совместное использование как аудио информации, так и визуальной. В ходе выполнения работы это было не раз показано. С другой стороны, затрачиваемые при этом ресурсы сильно отталкивают тех, кто пытаются эту задачу решить. Однако, учитывая тот факт, с какой скоростью мы получаем доступ к все более новым и продвинутым возможностям и ресурсам, возможно, в скором времени описанный недостаток перестанет быть таковым.
Очевидным недостатком реализуемой модели является тот факт, что для выделения голосов в записи необходима сеть, обученная на количестве дикторов равном или меньшем присутствующих на записи. Это делает работу с моделью несколько затруднительной, так как увеличение дикторов в обучении влечет увеличение необходимых вычислительных ресурсов.
Помимо этого, было выявлено, как сильно влияет количество данных в выборке на процесс обучения, что можно наблюдать на графиках с валидации в момент увеличения ошибки.
Также в ходе предобработки данных было изучено множество новых библиотек для работы с аудио и видео сигналами, реализованы алгоритмы цифровой обработки сигналов. Были изучены работы, связанные с устройством механизмов разделения внимания человека, влияния внешних факторов на процесс получения информации.
Из задач, сформулированных во введении, были реализованы все, однако разделение голосов из записи множества дикторов не показало ожидаемых результатов: качество полученных сигналов не всегда можно однозначно интерпретировать как человеческую речь. Тормозящими факторами в реализации и обучении стали размер обучающей выборки и ограниченность в вычислительных ресурсах.
Таким образом, про реализованную модель можно сказать, что она вполне способна продемонстрировать неплохие результаты в задаче разделения голосов, а также может быть использована в задаче улучшения речевого сигнала в условиях одного голоса на записи и шума. Однако следует учесть во внимании, что для ее реализации в полной мере необходимы большие вычислительные ресурсы для обработки действительно большого объема данных и обучении сложной и ресурсоемкой сети.
1. E. Colin Cherry. Some experiments on the recognition of speech, with one and with two ears [Текст] / E. Colin Cherry // The Journal of the acoustical society of America 25, 5. - 1953. - С.975-979.
2. Josh H. McDermott. The cocktail party problem [Текст] / Josh H. McDermott // Current Biology,vol. 19, no. 22 - 2009. - С.1024-1027.
3. Elana Zion Golumbic. Visual input enhances selective speech envelope tracking in auditory cortex at a "cocktail party" [Текст] / Elana Zion Golumbic, Gregory B. Cogan, Charles E. Schroeder, and David Poeppel // The Journal of neuro science: the official journal of the Society for Neuroscience 334. - 2013. - С.1417- 1426.
4. Tom M. Mitchell. Machine Learning [Текст] / Tom M. Mitchell. - McGraw-Hill Science/Engineering/Math, 1997. - 432 с.
5. Столов Е.Л. Курс лекций по цифровой обработке сигналов [Текст] / КФУ, ИВМиИТ, КСАИТ. - 2018.
6. A. P. Varga. Hidden Markov model decomposition of speech and noise [Текст] / A. P. Varga, Roger K. Moore // Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference. - 1990. - С.281-284.
7. John R. Hershey. Deep clustering: Discriminative embeddings for segmentation and separation [Текст] / John R. Hershey, Zhuo Chen, Jonathan Le Roux, Shinji Watanabe // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2016. - C.31-35.
8. Ariel Ephrat. Looking to Listen at the Cocktail Party: A Speaker- Independent Audio-Visual Model for Speech Separation [Текст] / Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein // SIGGRAPH. - 2018.
9. Christopher M. Bishop, Pattern Recognition and Machine Learning [Текст] / Christopher M. Bishop. - Springer Science+Business Media, LLC, 2006. - 758 с.
10. Yuhong Li. CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes [Текст] / Yuhong Li, Xiaofan Zhang,
Deming Chen // University of Illinois at Urbana-Champaign Beijing University of Posts and Telecommunications. - 2018.
11. Sepp Hochreiter. Long Short-term Memory [Текст] / Sepp Hochreiter, Jurgen Schmidhuber. - Neural Computation 9(8):1735-80, 1997. - 32 с.
12. DeLiang Wang. Supervised Speech Separation Based on Deep Learning: An Overview [Текст] / DeLiang Wang, Jitong Chen // IEEE/ACM Transactions on Audio, Speech, and Language Processing. - 2018.
13. FFmpeg framework [Электронный ресурс]. -2019. - Режим доступа: https://ffmpeg.org/ (дата посещения: 26.04.2019).
14. Forrester Cole. Synthesizing Normalized Faces from Facial Identity Features [Текст] / Forrester Cole, David Belanger, Dilip Krishnan, Aaron Sarna, Inbar Mosseri, William T. Freeman // 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2017. - C.3703-3712.
15. Emmanuel Vincent. Performance measurement in blind audio source separation [Текст] / Emmanuel Vincent, Remi Gribonval, Cedric Fevotte // IEEE Transactions on Audio, Speech, and Language Processing. - 2006. - C.1462-1469.
16. ITU-T Rec. P.862.2. Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs [Текст]. - Union, Geneva, Switzerland, ITU-T Rec. 2005. - 12 с.