ВВЕДЕНИЕ 4
1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 6
1.1. Распознавание речи 6
1.2. Классификация систем распознавания речи 7
1.3. Методы и алгоритмы распознавания речи 12
1.3.1. Динамическое программирование 12
1.3.2. Скрытые Марковские модели 14
1.3.3. Нейронные сети 16
1.4. Архитектура систем распознавания 17
1.5. Проблемы распознавания речи 19
1.6. Параметры качества речи и методы измерений 22
1.7. Применение систем распознавания речи 25
1.8. Современные системы и ресурсы распознавания речи 26
1.8.1. VoiceNavigator 26
1.8.2. VoiceNavigator Web 28
1.8.3. Speereo Speech Recognition (SSR) 29
1.8.4. Sakrament ASR Engine 30
1.8.5. Google Voice Search 31
1.8.6. Dragon NaturallySpeaking 11 31
1.8.7. ViaVoice 31
1.8.8. Google Speech Recognition API 32
1.8.9. Выводы 33
2. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ КОНТРОЛЯ АУДИО
ДАННЫХ ПО КЛЮЧЕВЫМ СЛОВАМ 35
2.1. Модуль хранения ключевых слов 35
2.2. Модуль записи речи и ее обмена 36
2.3. Модуль анализа речи и проверки на наличие ключевых слов 37
2.4. Вывод 38
ЗАКЛЮЧЕНИЕ 39
СПИСОК ЛИТЕРАТУРЫ 40
ПРИЛОЖЕНИЕ
В настоящее время в системы информационной безопасности активно внедряются различные DLP (Data Leak Prevention) - системы, которые предотвращают утечку информации по различным каналам ее передачи:
• электронная почта;
• IM - мессенджеры;
• веб-ресурсы;
• FTP, P2P;
• туннелирующие протоколы;
• внешние устройства;
• мобильные устройства;
• прочие протоколы (в том числе и распознавание голосового трафика).
В области распознавания аудио потоков данные системы не достаточно развиты. Они могут лишь перехватывать данный аудио поток, в то время как сам анализ голоса невозможен.
Этим и обуславливается актуальность данной выпускной работы. Особый интерес направлен на разработку систем, которые анализируют передающуюся по акустическим каналам информацию для поиска ключевых слов.
Целью работы является программная реализация системы распознавания речи для поиска ключевых слов.
Решаемые задачи:
- изучить методы и алгоритмы распознавания речи, их основные характеристики;
- проанализировать современные системы распознавания речи, их применение;
- реализовать распознавание речи в текст, затем выполнить анализ на совпадения слов;
сравнить быстродействие работы системы реализации распознавания речи и срабатывания системы на ключевые слова.
ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
Распознавание речи
Распознавание речи - процесс преобразования речевого сигнала в цифровую информацию (например, текст).
Первое устройство для распознавания голоса появилось в 1952 году, оно было способно распознавать цифры, произнесенные человеком [1]. В 1962 году на конференции компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.
Коммерческие программы по распознаванию речи появились в начале 90-х годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Следующим шагом технологий распознавания речи можно считать развитие так называемых интерфейсов безмолвного доступа (silent speech interfaces, SSI). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания [1]
В ходе написания выпускной квалификационной работы:
1) были изучены методы и алгоритмы распознавания речи, их основные характеристики, проблемы распознавания и преобразования речи;
2) проанализированы современные системы распознавания речи, их применение;
3) программно реализована система котроля по ключевым словам (C#).
4) сравнили быстродействие работы системы реализации распознавания речи и срабатывания системы на ключевые слова.
Таким образом, все поставленные в задании задачи выполнены, цель - программно реализовать систему (программу) распознавания речи, которая будет срабатывать на ключевые слова - достигнута.
1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) p. 637—642.
2. Benoit Legrand, C.S. Chang, S.H. Ong, SoekYing Neo, Nallasivam Palanisamy, Chromosome classification using dynamic time warping, ScienceDirect Pattern Recognition Letters 29 (2008) p. 215-222.
3. D.Kraft, 1979. Speech perception. J.Phonetics, 7, p. 279-312.
4. Rabiner, L. R., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proc. of IEEE, Feb. 1989.
5. Местецкий Л. М. Математические методы распознавания образов Курс лекций МГУ, ВМиК, кафедра «Математические методы прогнозирования», 2002-2004, 85 стр.
6. Центр речевых технологий [Электронный ресурс]. URL:
http://speechpro.ru. Дата обращения 08.05.2016.
7. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976.
8. Мазуренко И.Л. Компьютерные системы распознавания речи. Интеллектуальные системы, т.3. вып. 1-2 - Москва, 1998 г. Стр. 117-134.
9. ГОСТ Р 51061-97 - 1998. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ. Введ. 1998-01-01. - Москва: Постановление Госстандарта России от 24 июня 1997 г. N 223
10. Чекмарев А. Речевые технологии - проблемы и перспективы. // Компьютерра, №49 с. 26-43.