ВВЕДЕНИЕ
1 АНАЛИЗ ПРИЗНАКОВЫХ ПРОСТРАНСТВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
2 МЕРЫ БЛИЗОСТИ, ПРИМЕНЯЕМЫЕ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
3 МЕТОДИКА ПРОВЕДЕНИЯ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ
4 ОЦЕНКА РЕЗУЛЬТАТОВ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ
5 ЭКОНОМИЧЕСКАЯ ОЦЕНКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ
Под понятием распознавания речи скрывается огромная сфера инженерной и научной деятельности. Распознавание речи является одной из современных наук. Суть процедуры распознавания речи заключается в понимании речи и преобразовании ее текстовой вид. Системы распознавания речи разрабатываются с целью использования новых и современных методов ввода данных, которые позволят избавить пользователя от использования классических методов введения данных, что в свою очередь приведет к упрощению, улучшению, ускорению процесса ввода команд и данных. Важность разработки эффективных систем распознавания речи заключается в возможности упрощения жизни человека. В настоящее время существует множество систем распознавания речи, имеющие различные параметры и характеристики.
Развитие компьютеров и их совершенствование является главным фактором, который вызвал быстрое развитие программ распознавания речи. Программы распознавания речи требуют значительных объемов памяти, и большой вычислительной мощности.
Потребность в большой мощностью, требуемой для систем распознавания речи, обусловлена необходимостью выполнения сложных операций. В общем виде процедура распознавания речи состоит из нескольких этапов. Сначала осуществляется регистрация речи микрофоном. Затем результаты эта речи оцифруется звуковой картой. После оцифровки записанная речь сохраняется в цифровом виде с разрядностью 16 бит и частотой дискретизации 48000 Гц для дальнейшей обработки. После этого осуществляется анализ речевого сигнала с целью выделения высокочастотных (согласных) и низкочастотных (гласных) частей речи. На заключительном этапе осуществляется сравнение полученных фрагментов с фонемами с целью определения наиболее точного эквивалента [9].
До сих пор использование систем распознавания речи ещё сталкивается со многими препятствиями. Программы распознавания речи применяются во многих областях современного мира: умный дом, бытовые технические устройства, навигационная система автомобилей, для задания команд ноутбукам и телефонам, предоставление социальных сервисов для инвалидов, в системах телефонии «интерактивные голосовые меню», автоматический перевод, в отчётах судов, голосовая почта и голосовой поиск в интернете и т.д.
Нет идеальной системы распознавания речи, которая работает с точностью 100%, потому что есть много факторов, уменьшающих точность. Это могут быть технические факторы, и факторы, связанные с пользователем. К основным факторам снижения точности распознавания речи относится:
1. Слабость звука по сравнению с шумом. В ситуациях, когда возникают посторонние шумы помещения, улицы и т.д., возникают помехи и интерференция звуков, что приводит к ошибкам системы распознавания речи.
2. Интерференционный разговор. Речь идет об одновременном разговоре двух и более человек. В этом случае при работе системы возникают ошибки, так как она не может выделить речь только одного человека.
3. Необходимость использования современных компьютеров для выполнения длительных статических процессов [26].
Для того чтобы программы распознавания речи выполняли ожидаемые от них требования, с начала необходимо преодолеть препятствия, которые мешают им работать. Для этого необходимо развивать словари и алгоритмы этих систем, что должно позволить увеличить точность распознавания. Кроме того необходима разработка алгоритмов позволяющих выделять речь из всех видов шумов, помех, остальных звуков, которые оказывают влияние на качество распознавания речи.
С течением времени становилось более очевидным, что использование технологии общения человека с компьютером голосом расширяется. Управление машиной голосом становится возможным в режиме реальном времени, появилась технология защиты систем голосом, появились системы перевода речи в текст. Все это благодаря, технологии распознавания речи.
Много из исследований в настоящее время посвящены процессу распознавания речи. Эти работы ищут более естественные средств общения человека с машиной, среди которых первое место занимает речевой ввод информации в компьютер. Компания google добилась хорошие результаты в этой области, но подробности использованных технологий компанией google еще неизвестны. Распознавание речи встречается с множеством проблем, которые ограничивает быстрое развитие и осложняют процесс и уменьшают производительность этой технологии, и до сих пор, учёные и исследователи еще не нашли точные решения им. Из этих проблем: различие языков, спецификация произношения, шумы, акценты, ударения и т.п.
Голосовое управление машиной человеком основано на технологии распознавания речи. Системы распознавания речи получают колебания воздуха при вводе через микрофон, и сравнивают их с записанными словами в сохраненной в системе базе данных. Чем больше записанные слов в базе, Тем лучше результаты распознавания [14].
Существуют два вида технологий распознавания голоса: распознавание, зависящее от диктора, и распознавания не зависящее от диктора, т.е. система способна распознавать речи не в зависимость от диктора.
Интеллектуальные системы распознавания речи используются в операторах связи. И эти системы позволяют снизить нагрузки на операторов и секретарей, сократить расходы на оплату труда и повысить производительность систем обслуживания [19].
В настоящее время, всё системы распознавания речи основаны на сборе информации, необходимой для осуществления процесса распознавания. Задача распознавания речи зависит от качества, записанной речи. Но даже при распознавании небольших сигналов, еще невозможно осуществлять прямую трансформацию этих сигналов в лингвистические символы, что является желательным результатом.
И поэтому, осуществляется процесс сокращения объёма информацию, путём, выполнения процесс, в котором осуществляется первоначальное трансформирование информации для сокращения, чтобы подвергать ее анализу с помощью компьютера.
Целью данной ВКР является исследованию эффективности применения существующих признаков речи и мер близости в процессе распознавания речи.
Для достижения цели надо решить задачи:
1) Исследовать подходы получения признаков для отрезков речевых сигналов;
2) разработать алгоритмы получения время-частотных признаков отрезков звуковых сигналов и алгоритмов нахождения мер близости;
3) провести вычислительные эксперименты.
Пояснительная записка состоит из введения, пяти глав, заключения, списка литературы, приложения А, и приложения Б. В первой главе рассмотрены анализ признаковых пространств в задачах распознавания речи. Во второй главе составляется меры близости, применяемые в задачах распознавания речи. В третьей главе описывается методика проведения вычислительных экспериментов. В четвёртой главе предлагается оценка результатов вычислительных экспериментов. В пятой главе представлена экономическая часть.
Цель данной работы была достигнута и ожидаемые результаты были получены. Исследовали параметры входных речевых сигналов в частотной области и выполнили процесс нахождения сходства этих параметров мерами близости и получили результаты вычислительных экспериментов.
Были получены следующие результаты:
• Разработали методику оценки для процесса сравнения признаков речевых сигналов;
• Провели сравнение признаков речи (спектр, кепстр и мел-кепстр) по мерам близости: евклидово расстояние, среднеквадратическое отклонение, ковариация, расстояние Махланобиса и корреляция;
• Графики сравнения речевых звуков, на которых отображается гипотеза принятая решающей функцией; порогов ошибок первого и второго рода, и индивидуальных порогов;
• Таблицы вероятности ошибок первого и второго рода при распознавании русских и арабских звуков.
По результатам вычислительных экспериментов можно сделать вывод, что мел-кепстральные коэффициенты речевых сигналов с использованием среднеквадратического отклонения в качестве меры близости даёт самый лучший результат сходства речевых сигналов. И количество точек Фурье при вычислении частотных признаков речевых сигналов слабо влияет на результат. И большее количество частотных интервалов мел-кепстра улучшает результат распознавания.
Самые лучшие результаты получили арабские звуки: «&» «с» «э» «£» «л», и русские звуки: «ф» «у» «э» «ю». А самые худшие результаты получили арабские звуки: «-» «j», «£» «Ф>, «J» «о», и русские звуки: «в» «г» «д» «м» «ы».
1. Ахмад, Х. М. Сравнительное исследование эффективности различных методов кепстрального описания речевых сигналов в задачах распознавания/ Вестник Тамбовского государственного технического университета 13.4 (2007) // [Электронный ресурс]. Режим доступа: https://habrahabr.ru/post/140828// (дата обращения: 17.09.2016).
2. Ахмад, Х. М. Математические модели принятия решений в задачах
распознавания говорящего/ Вестник Тамбовского государственного технического университета 14.1 (2008) // [Электронный ресурс]. Режим доступа: http://cyberleninka.ru/article/n/matematicheskie-modeli-prinyatiya-
resheniy-v-zadachah-raspoznavaniya-govoryaschego / (дата обращения: 19.09.2016).
3. Бочаров И.В. Акатьев Д.Ю. Распознавание речевых сигналов на основе корреляционного метода // [Электронный ресурс]. Режим доступа: http://elibrary.lt/resursai/Uzsienio%20leidiniai/MFTI/2003/131.pdf/ (дата обращения: 10.07.2016).
4. Болотнов, Д. В., and С. А. Запрягаев. РАСПОЗНАВАНИЕ ЗВУКОВЫХ ОБРАЗОВ НА ОСНОВЕ АНАЛИЗА ОТКЛИКА СИСТЕМЫ ОСЦИЛЛЯТОРОВ. (2012) // [Электронный ресурс] - режим доступа: http://www.vestnik.vsu.ru/pdf/analiz/2012/01/2012-01-25.pdf/ (дата обращения: 19.09.2016).
5. Болдышев А.В. Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных. (2013). // [Электронный ресурс] - режим доступа: http://www.dissercat.com/content/razrabotka-i-issledovanie-metodov-i-algoritmov- subpolosnogo-kodirovaniya-rechevykh-soobshche/ (дата обращения: 13.11.2017).
6. Евклидово расстояние: [Электронный ресурс] режим доступа: http://statistica.ru/glossary/general/evklidovo-rasstoyanie/ (дата обращения: 12.02.2017).
7. Галунов В.И. Современные проблемы в области распознавания речи: [Электронный ресурс] режим доступа: http://auditech.ru/page/darkness.html(дата обращения: 12.02.2017).
8. Голубинский А.Н. Расчёт частоты основного тона речевого сигнала на основе полигармонической математической модели // [Электронный ресурс]: - режим доступа: http://cyberleninka.ru/article/n/raschyot-chastoty-osnovnogo-tona- rechevogo-signala-na-osnove-poligarmonicheskoy-matematicheskoy-modeli / (дата обращения: 13.12.2016).
9. Жиляков Е.Г. Фирсова А. А. Оценивание периода основного тона звуков русской речи // [Электронный ресурс] - режим доступа: http://cyberleninka.ru/article/n/otsenivanie-perioda-osnovnogo-tona-zvukov-russkoy- rechi/ (дата обращения: 08.12.2016).
10. Котомин, А. В. "Распознавание речевых команд с использованием
сверточных нейронных сетей." Наукоёмкие информационные технологии SIT- 2012: труды молодежной конф.-Переславль-Залесский. 2012. // [Электронный ресурс] - режим доступа:
http://edu.botik.ru/upload/0cb3cff828c112050d3daebdfeee1ace.pdf/ (дата обращения: 20.09.2016).
11. Корреляционный метод распознавания / / [Электронный ресурс] - режим доступа: http://edu.sernam.ru/book_kiber1.php?id=693/ (дата обращения: 28.02.2017).
12. Ладошко, О. Н., and O. N. Ladoshko. Исследование влияния характеристик телефонного канала связи на надёжность распознавания фонем." (2012). // [электронный ресурс] - режим доступа: Ладошко, О. Н., and O. N. Ladoshko. Исследование влияния характеристик телефонного канала связи на надёжность распознавания фонем." (2012). // [Электронный ресурс] - режим
gocTyna:http://ea.dgtu.donetsk.ua:8080/bitstream/123456789/30201/1/%D0%A1%D 1%82%D0%B0%D1%82%D1%8C%D1%8F%208.pdf/ (дата обращения:
18.12.2016).
13. Методы оценивания частоты основного тона // [Электронный ресурс]: - режим доступа: http://k14.spb.ru/cm/uploads/109/008/ (дата обращения: 15.01.2017).
14. Мел-кепстральные коэффициенты (MFCC) и распознавание речи // [Электронный ресурс] - режим доступа: https://habrahabr.ru/post/140828/ (дата обращения: 26.01.2017).
15. Мера расстояния // [Электронный ресурс] - режим доступа http://www.aiportal.ru/articles/autoclassification/measure-distance.html// (дата обращения: 26.04.2017).
16. Распознавание речи. // [Электронный ресурс] - режим доступа: http://studopedia.ru/3_30206_raspoznavanie-rechi.html/ (дата обращения: 21.01.2017).
17. Распознавание образов. // [Электронный ресурс] - режим доступа: http://www.studfiles.ru/preview/2820578/(дата обращения: 29.02.2017).
18. Редченко, Виталий Александрович, and Владимир Иванович Иордан. "Разработка программного комплекса для автоматического определения языка речевого сигнала." (2016) // [Электронный ресурс] - режим доступа: http://elibrary. asu.ru/xmlui/bitstream/handle/asu/2587/vkr.pdf?sequence=1 / (дата обращения: 11.01.2017).
19. Тассов, К. Л., and Р А. Дятлов. Метод идентификации человека по голосу. // [электронный ресурс] - режим доступа: http://engjournal.ru/articles/1103/1103.pdf/ (дата обращения: 18.09.2016).
20. Обработка речевых сигналов. // [Электронный ресурс] - режим
доступа: -
http://knowledge.allbest.ru/programming/3c0b65635b3ac78b5d53a88421216d37_0.h tml / (дата обращения: 27.01.2017).
21. Первуши Е.А. Обзор основных методов распознавания дикторов //
[Электронный ресурс]:- режим доступа:
http://webcache.googleusercontent.com/search?q=cache:Km6mCxok-
W0J:cyberleninka.ru/article/n/metod-izvlecheniya-strukturnyh-pr(дата обращения: 04.12.2016).
22. Сергиенко, Александр Борисович. Цифровая обработка сигналов. БХВ-Петербург, 2003. // [Электронный ресурс] - режим доступа: -http://www.rphf.spbstu.ru/dsp/lib/Sergijenko_2003.pdf/ (дата обращения: 11.02.2017).
23. Центр речевых технологий: [Электронный ресурс] режим доступа: http://www.speechpro.ru/technologies/recognition#tab1/ (дата обращения: 12.03.2016).
24. Шумская, Анастасия Олеговна. Оценка эффективности метрик
расстояния Евклида и расстояния Махаланобиса в задачах идентификации происхождения текста. Доклады Томского государственного университета систем управления и радиоэлектроники 3 (29) (2013). // [Электронный ресурс] - режим доступа: http://cyberleninka.ru/article/n/otsenka-effektivnosti-metrik-
rasstoyaniya-evklida-i-rasstoyaniya-mahalanobisa-v-zadachah-identifikatsii- proishozhdeniya-teksta / (дата обращения: 23.05.2017).
25. Anjali Bala. Voice command recognition system based on mfcc and dtw // [Электронный ресурс] - режим доступа: https://www.researchgate.net/publication/228659505_voice_command_recognition_s ystem_based_on_mfcc_and_dtw (дата обращения: 29.12.2016).
26. Lindasalwa Muda, Mumtaj Begam and I. Elamvazuthi. Voice recognition algorithms using mel frequency cepstral coefficient (mfcc) and dynamic time warping (dtw) techniques / / [Электронный ресурс] - режим доступа: https://arxiv.org/ftp/arxiv/papers/1003/1003.4083.pdf(дата обращения: 23.11.2016).
27. Speech processing // [Электронный ресурс] - режим доступа: http://www.boosla.com/showArticle.php?Sec=Misc&id=57/ (дата обращения: 21.02.2017).
28. Speech processing Technology // [Электронный ресурс] - режим доступа: http://www.ye1.org/forum/threads/386110/(дата обращения: 09.01.2017).
29. Speech recognition // [Электронный ресурс] - режим доступа: http://www.ye1.org/forum/threads/386110/(дата обращения: 19.01.2017).
30. Speech recognition system // [Электронный ресурс] - режим доступа: http://www.ye1.org/forum/threads/386110/(дата обращения: 07.02.2017).
31. Shivanker Dev Dhingra. Isolated speech recognition using mfcc and dtw // [Электронный ресурс] - режим доступа: http://www.ijareeie.com/upload/2013/august/20P_ISOLATED.pdf(дата обращения: 19.01.2017).
32. Будрейка, Н. Н. "Непараметрические методы исследования в
психологии." Психологическая наука и образование 1 (2007): 40-48. // [Электронный ресурс] - режим доступа:
http://psyjournals.ru/files/6467/psyedu_2007_n1_Budreika.pdf(дата обращения: 31.05.2017).
33. Нулевая гипотеза в статистике // [Электронный ресурс] - режим
доступа: https://businessman.ru/new-nulevaya-gipoteza-v-statistike-primer-
proverka-nulevoj-gipotezy.html (дата обращения: 03.06.2017).