Тип работы:
Предмет:
Язык работы:


ГОЛОСОВОЙ ИНТЕРФЕЙС ДЛЯ ИНТЕРПРЕТИРОВАНИЯ КОМАНД В ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ

Работа №49181

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы44
Год сдачи2018
Стоимость4365 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
82
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1. ОСНОВНЫЕ ПОНЯТИЯ 6
1.1. Схема речи 6
1.2. Распознавание 7
1.3. HMM 8
1.4. Модели, характеризующие структуру речи 9
2. ИНСТРУМЕНТЫ ДЛЯ РАЗРАБОТКИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
РАСПОЗНАВАНИЯ РЕЧИ 11
2.1. HTK 11
2.2. CMU Sphinx 11
2.3. Kaldi 12
2.4. Simon 12
2.5. Julius 12
2.6. Используемые алгоритмы 13
2.7. Сравнительный анализ 14
2.8. Вывод 15
3. СИСТЕМА CMU SPHINX 17
3.1. FrontEnd 18
3.2. Linguist 18
3.3. Decoder 20
4. ИНТЕГРИРОВАНИЕ И НАСТРОЙКА РАБОТЫ CMU SPHINX 21
4.1. Виртуальная биотехнологическая лаборатория 21
4.2. Ресурсы и плагины CMU Sphinx 21
4.3. Написание C# скриптов для использования .dll файлов CMU Sphinx 25
4.4. Интеграция C# скриптов в Unity проект 29
ЗАКЛЮЧЕНИЕ 32
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 33
ПРИЛОЖЕНИЕ


Автоматизированные системы распознавания речи несут за собой пользу, которую невозможно недооценить. Область их использования очень широка: управление приложениями голосом, генерирование текстовых субтитров на основе принимаемого видеоматериала, текстовое сопровождение аудио треков, распознавание ключевых слов в интернет/телефонном разговоре
- и это лишь малая доля практического применения голосового распознавания на данный момент, в действительности же область их применения куда шире и выполнение этих задач вручную, что накладываются на подобные системы
- практически невозможно
Перед о мной была поставлена задача внедрения системы распознавания речи, как одной из механик управления виртуальной биотехнологической лабораторией. Потому как естественное языковое общение является для человека самым удобным и привычным. Основная задача речевого интерфейса понимать человеческую речь и правильно реагировать на нее.
Для того, чтобы система работала эффективно - могла верно понимать человеческую речь, необходимо позаботится о качестве распознавания, на что влияет окружающая обстановка и устройство, на которое ведется запись. К примеру, записи с разного рода конференций или мероприятий почти со стопроцентной вероятностью будут содержать посторонние звуки, где под посторонними звуками подразумеваются:
1. Речь не относящаяся к главному спикеру;
2. Скрипы передвигаемых стульев и столов;
3. Скрипы звукозаписывающего устройства;
4. Дублированная речь спикера, связанная с использованием микрофона.
Если в разговоре будет участвовать не один спикер, а несколько, распознать речь даже единственного из них является сложной задачей.
Стоит не забывать и о человеческих факторах:
1. Наличие акцента;
2. Запинки в речи;
3. Не выговаривание букв;
4. Не постоянный темп речи.
Как правило, аудиодорожка сочетает несколько факторов из двух вышеперечисленных списков.
Бесспорно можно утверждать, что данные факторы влияют на речевое восприятие человеком, следовательно, те же самые факторы могут проявлять отрицательное влияние на распознавание речи автоматизированной системой.
На шум может оказывать большое влияние устройство звукозаписи, где использование разных микрофонов может приводить к кардинально разным результатам, ведь те могут обладать разными характеристиками и целями, так же отрицательное влияние оказывает отсутствие специального сопровождающего для микрофона оборудования: заглушающих решёток, фильтров, - потому что кроме речи в запись идет звук дыхания.
Как уже было сказано ранее, шум оказывает негативный эффект на распознавание речи, вследствие чего для достижения наилучшего качества распознавания необходимо привести уровень шума к минимуму. Стоит упомянуть, что формат аудиозаписи имеет не последнюю роль в определении качества аудиозаписи в целом.
Для обучения и тестирования систем распознавания используют идеальные аудиодорожки, обычно на таких дорожках абсолютно отсутствуют посторонние звуки, а спикер обладает дикторской речью. Конечно же возникает вопрос, как сильно изменится качество распознавания при использовании менее качественных записей.
Предметом исследования в данной дипломной работе являются системы распознавания речи, а так же их эффективность после внедрения в виртуальную биотехнологическую лабораторию. Будут использоваться данные максимально соответствующей действительности при работе с VR- очками, а именно - низкое качество звукозаписывающего устройства, наличие речи не имеющей отношения к словарю распознавания, наличие посторонних звуков.
Целью исследования является внедрение системы распознавания речи в сцену виртуальной реальности на основе анализа проведенного в данной работе, что позволит интерпретировать голосовые команды пользователя в действия программной среды.
Основными задачами в данной работе являются:
1. Сравнить возможные инструменты распознавания;
2. Разработать модуль внедрения инструмента в движок Unity;
3. Исключить механические действия усложняющие взаимодействие с виртуальной лабораторией;
4. Сделать возможными действия нереализуемые при помощи механических устройств;
5. Улучшить общий эффект восприятия взаимодействия с виртуальной средой.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате дипломной работы была изучена теоретическая составляющая речевого распознавания, основные принципы, используемая терминология, алгоритмы, модели представления того или иного языка. Так же были рассмотрены существующие системы распознавания, где после обзора каждого, была выбрана наиболее подходящая по критериям бизнес- задачи - CMU Sphinx.
В процессе выполнения дипломной работы были решены следующие задачи:
• Разработан универсальный модуль внедрения распознавания речи в движок Unity;
• Исключены механические действия усложняющие
взаимодействие с виртуальной биотехнологической лабораторией;
• Улучшен общий эффект восприятия виртуальной среды биотехнологической лаборатории путем внедрения голосового интерфейса;
• Проведен сравнительный анализ существующих инструментов.



1. Context-dependent phonetic hidden Markov models for speaker-independent continuous speech recognition [Текст] / K. F. Lee. - IEEE, 1990. - 599-609c.
2. Context-Dependent Pre-Trained Deep Neural Networks for Large- Vocabulary Speech Recognition [Текст] / George E. Dahl, Dong Yu, Li Deng, Alex Acero. - IEEE, 2011. - 36c.
3. Синтез акустической речи [Электронный ресурс]. - Режим доступа: http://musslap.zcu.cz/en/acoustic-speech-synthesis/
4. Spoken language recognition based on senone posteriors [Текст] / Luciana Ferrer, Yun Lei, Mitchell McLaren, Nicolas Scheffer. - INTERSPEECH, 2014. - 291c.
5. Word recognition using whole word and subword models [Текст] / C. H. Lee, B. H. Juang, F. K. Soong, L. R. Rabiner. - IEEE, 1989. - 683- 684c.
6. The 1996 Hub-4 Sphinx-3 System [Текст] / Placeway, Chen, Eskenazi, Jain, Parikh, Raj, Ravishankar, Rosenfeld, Seymore, Siegler, Stern, Thayer. - Carnegie Mellon University Pittsburgh, Pennsylvania, 1996. - 1c.
7. A Statistical Model-Based Voice Activity Detection [Текст] / Sohn, Kim, Sung. - IEEE, 1999. - 1с.
8. Recurrent neural networks for voice activity detection [Текст] / T. Hughes, K. Mierle. - Google Inc, 2013. - 7378-7392с.
9. From Frequency to Quefrency: A History of the Cepstrum [Текст] / Alan V. Oppenheim, Ronald W. Schafer. - IEEE, 2004. - 95c.
10. Speech Feature Extraction Techniques: A Review [Текст] / Shreya Narang, Ms. Divya Gupta. - A Monthly Journal of Computer Science and Information Technology, 2015. - 106-114c.
11. Robust Feature Extraction Based on Teager-Entropy and Half Power Spectrum Estimation for Speech Recognition [Текст] / Jing Dong, Dongsheng Zhou, Qiang Zhang. - Key Laboratory of Advanced Design and Intelligent Computing, 2015. - 91-93с.
12. A tutorial on hidden Markov models and selected applications in speech recognition [Текст] / L. R. Rabiner. - IEEE, 1989. - 257-258c.
13. Базовые концепции разговорной речи [Электронный ресурс]. - Режим доступа:
http://cmusphinx.sourceforge .net/wiki/tutorialconcepts
14. Документация BLAS [Электронный ресурс]. - Режим доступа: http://www.netlib.org/blas/
15. Документация LAPACK [Электронный ресурс]. - Режим доступа: http://www.netlib.org/lapack/
16. Гусев М.Н. Система распознавания речи: основные модели и алгоритмы [Текст] / М.Н. Гусев, В.М. Дегтярев. - СПб.: Знак, 2013. - 128 с.
17. Документация CMUSphinx [Электронный ресурс]. - Режим доступа: https://cmusphinx.github.io/wiki/
18. Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Текст] / Walker, Lamere, Kwok, Raj, Singh, Gouvea, Wolf, Woelfel. - Sun Microsystems, 2004. - 2c, 7 c.
19. Виртуальные лаборатории как средство обучения биомедицинским технологиям [Текст] / Абрамов В.Д., Кугуракова В.В., Ризванов А. А., Абрамский М.М., Манахов Н.Р., Евстафьев М.Е. - Казанский (Приволжский) федеральный университет, 2016. - 129-148c.
20. Virtual Biotechnological Lab Development [Текст] / Abramov V, Kugurakova V, Rizvanov A. - Springer US, 2017. - 363-365с.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ