Системы голосовой идентификации диктора (СГИД) быстро развиваются в последнее время. Причиной развития СГИД является их востребованность в таких областях, как биометрический поиск, голосовая верификация водителя и пассажиров, разграничение прав доступа к информации с помощью голосовой биометрии и т. д. [1]. Важным достоинством СГИД по сравнению с другими биометрическими системами идентификации является их дешевизна. Важно также, что современные СГИД по уровню надёжности идентификации не уступают, а бывает и превосходят, к примеру, системы идентификации человека по изображению [2].Эволюция систем распознавания речи привела к созданию интеллектуальных систем, позволяющих не только распознавать, но и автоматически синтезировать человеческую речь.
Несмотря на уникальность голоса человека, ни одна из СГИД, как и любая другая биометрическая система, не может гарантировать 100% надёжность идентификации. Основными источниками ошибок в СГИД являются: окружение (шум, реверберация и т.д.); особенности речи (длительность, тональность, уровень голосового усилия и т.д.); канал связи (искажения микрофона и канала передачи, погрешности кодирования аудио сигнала и т.д.) [2].
В общем случае идентификация личности по голосу требует решения большого числа разнородных задач, основными из которых являются следующие:
- выделение вокализованных участков аудио сигнала путём отбрасывания пауз и участков, содержащих различного рода помехи;
- разделение речи дикторов (задача диаризации);
- выделение характерных признаков голоса диктора.
Применение технологии идентификации и верификации диктора
позволяет:
• осуществить тексто- и языконезависимую идентификацию диктора;
• выделить из общего объёма данных звуковые файлы, содержащие речь интересующего диктора;
• подтвердить принадлежность звуковых данных тому или иному диктору;
• снизить риск пропуска файла с речью диктора из-за перегруженности операторов;
• обработать большое количество речевой информации и подготовить данные для дальнейшей обработки оператором[14].
Были проанализированы существующие подходы и выбран алгоритм классификации пользователей по их голосовым характеристикам. Разработан метод выделения признаков речевого сигнала, позволяющий проводить идентификацию дикторов. Была выполнена программная реализация модуля голосовой идентификации диктора с использованием среды Matlab. Определено повышение качества распознавания речи за счёт выбора оптимального классификатора, обученного на речевом материале, с схожими с диктором голосовыми характеристиками. В результате экспериментальных исследовании разработанного модуля, отмечено повышение дикторонезависимость системы и увеличение надёжности распознавания на 15-20%.
1. Центр речевых технологий [Электронный ресурс] - режим доступа: http://www.speechpro.ru/.
2. Матвеев Ю.Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н.Э. Баумана. Электронное научно-техническое издание. 2012. № 3(3) [Электронный ресурс] - режим доступа: http://vestnik.bmstu.ru/catalog/it/biometric/91.html/
3. ОБЗОР ОСНОВНЫХ МЕТОДОВ РАСПОЗНАВАНИЯ ДИКТОРОВЕ.А. Первушин [Электронный ресурс] - режим доступа: http://cyberleninka.ru/article/n/obzor-osnovnyh-metodov-raspoznavaniya- diktorov.pdf.
4. Martin A., Przybocki М. The NIST 1999 Speaker Recognition Evaluation - An Overview // Digital Signal Processing. 2000. V. 10
5. Коваль С.Л. Комплексная методика идентификации дикторов по голосу и речи // Информатизация и информационная безопасность правоохранительных органов: труды XX международной научной конференции. М.: Академия управления МВД России, 2011. С. 364-370.
6. Platt J.C. Fast Training of Support Vector Machines using Sequential Minimal Optimization // Advances in Kernel Methods I Ed. by B. Scholkopf, C.C. Burges, A.J. Smola. MIT Press, 1999. P. 185-208.
7. Википедия [Электронный ресурс] - режим доступа: ru.wikipedia.org
8. Дьяконов, В. MATLAB: Учебный курс,- СПб.: Питер, 2001. - 560 с.
9. Распознавание речи. Часть 1. Классификация систем распознавания речи [Электронный ресурс] - режим доступа:https://geektimes.ru/post/64572/
10. Идентифпкацпя-диктора-по-голосу-текст [Электронный ресурс] - режим доступа: http://seminar.at.ispras.ru/wp-content/uploads/2012/07/
1 l .Ing-Jr Ding, Chih-Ta Yen, Yen-Ming Hsu. Developments of Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition 11 Mathematical Problems in Engineering. 2013.
12. Daniel Ramage. Hidden Markov Models Fundamentals // CS229 Section Notes. 2007.
13. Система исследования речевых компонентов В.С. Шерхонов
14. [Электронный ресурс] - режим доступа: http://www.stel.ru/services/uslugi- po-napravleniyu-rechevye-tekhnologii/460/