Аннотация 2
Введение 5
Глава 1 Анализ технологии распознавания речи 8
1.1 Алгоритм распознавания речи 8
1.2 Классификация рисков использования облачных сервисов для распознавания речи 11
Глава 2 Проектирование системы автономного распознавания речи 14
2.1 Функции системы распознавания речи 14
2.2 Серверная часть системы распознавания речи 16
2.3 Выбор протокола для обмена данными 18
Глава 3 Разработка мобильного приложения для распознавания речи 22
3.1 Проектные решения, применяемые в мобильном приложении 22
3.2 Описание пользовательского интерфейса 25
Заключение 36
Список используемой литературы и используемых источников 38
Технологии распознавания речи используются в таких областях, как речевое управление устройствами, организация голосового ввода текста, голосовой поиск, организация речевого интерфейса при человеко-машинном взаимодействии [2], [5], [7].
Наиболее известными примерами применения технологий распознавания для решения практических задач являются:
• создание телефонных роботов для горячих линий, которые позволяют компании экономить человеческие ресурсы компаний при решении наиболее распространенных запросов клиентов;
• речевое управление элементами системы «Умный дом», например, управление светом, электронными замками, системой отопления и т.д. [4];
• разработка речевых интерфейсов для бытовой техники, например, голосовое задание режима стрики, управление телевизором [9];
• голосовые команды в различных десктопных приложениях, в том числе в компьютерных играх [11];
• речевое управление бортовыми системами автомобиля, в том числе - задание адреса конечной точки маршрута в навигационной системе, управление громкостью звука магнитолы и т.д. [14]
Рост популярности задач, требующих применение технологий распознавания речи, привел к созданию облачных сервисов с программным интерфейсом, предоставляющих выполнение данной услуги. Наиболее известными облачными сервисами являются - Yandex. SpeechKit (сервис от компании Яндекс), Google Cloud Speech API (сервис от компании Google) и Alexa Voice Service (сервис от компании Amazon) [19], [22].
Использование облачных сервисов распознавания речи при разработке программного обеспечения обладает следующими достоинствами [17]:
• высокая точность распознавания речи, которая обусловлена постоянно пополняющейся обучающей выборкой речевых данных;
• простота внедрения функций распознавания речи за счет программных интересов (API) предоставляемых сервисами;
• отсутствие необходимости разбираться в алгоритмах искусственного интеллекта применяемых в распознавании речи.
Однако применение облачных сервисов в программных проектах сопряжено с рядом рисков. Например, один из рисков связан с изменением тарифов по оплате услуг облачного сервиса, так тарифы устанавливаются собственниками сервисов в одностороннем порядке.
Помимо экономических рисков, существуют и политические риски, при которых зарубежные компании откажутся предоставлять услуги на основе географического расположения своих клиентов. В этом случае программное обеспечение, в которое интегрированы услуги облачного сервиса, перестанет функционировать.
Также стоит отметить, что у большинства IT компаний бизнес не ограничен одним сервисом, например помимо сервиса распознавания речи компания Google владеет видеохостингом, системой информационного поиска, социальной сетью и пр. Нарушение российских законов по одному направлению может в итоге привести к блокированию всех или большей части сервисов, в том числе и облачного сервиса распознавания речи.
Как становится ясно, реализация любого из описанных рисков может сделать невозможным использование облачного сервиса распознавания речи, что приведет к неработоспособности связанного с ним программного обеспечения. Поэтому актуальным вопросом является проведение исследований и разработка технологий автономного распознавания речи. Автономность заключается в возможности выполнение задач по анализу голоса без использования сети Интернет.
Таким образом актуальной является цель исследования - разработка программного обеспечения для автономного распознавания речи.
Для достижения поставленной цели в работе решаются следующие задачи:
• проведение анализа существующих технологий распознавания речи и применяемых алгоритмов;
• проектирование системы автономного распознавания речи;
• разработка мобильного приложения, реализующего предложенные подходы автономного распознавания речи.
Объектом исследования является технология распознавания речи. Предмет исследования - автономная реализация системы распознавания речи.
Практическая значимость работы заключается в разработке программного обеспечения, реализующего технологию автономного распознавания речи.
В ходе выполнения бакалаврской работы были получены следующие результаты:
• анализ литературных источников показал, что использование облачных сервисов распознавания речи при разработке программного обеспечения обладает следующими достоинствами: высокая точность распознавания речи, которая обусловлена постоянно пополняющейся обучающей выборкой речевых данных; простота внедрения функций распознавания речи за счет программных интересов (API) предоставляемых сервисами; отсутствие необходимости разбираться в алгоритмах искусственного интеллекта применяемых в распознавании речи;
• анализ рисков использования облачных сервисов показал, что при необходимости обеспечения отказоустойчивости программного обеспечения, необходимо применение автономных систем распознавания речи;
• предложена архитектура системы автономного распознавания речи, которая основана на клиент-серверном взаимодействии: распознавание речи осуществляется посредством сервера, на котором хранится языковая модель, а взаимодействие с пользователем осуществляется с помощью клиенткой части системы, реализованной в виде мобильного приложения;
• проведен сравнительный анализ способов реализации серверной части системы (Yandex.SpeechKit, Google Cloud Speech API, Alexa Voice Service, SnowBoy) в ходе которого установлено, что библиотека SnowBoy соответствует всем необходимым требованиям: работа с русским языком, автономность, поддержка большинства мобильных платформ, открытый программный код;
• проведен сравнительный анализ протоколов для обмена данными (MQTT, XMPP и AMQP), в результате анализа для разрабатываемой системы автономного распознавания речи выбран простой в использовании и основанный на открытых стандартах протокол MQTT;
• На языке Java в среде Android studio было разработано программное обеспечение, реализующее предложенные подходы по автономному распознаванию речи. Тестирование программного обеспечения доказало состоятельность предложенных решений, возможность реализации распознавания речи без использования подключения к сети Интернет.
Таким образом, сформулированная в бакалаврской работе цель достигнута, а также решены все поставленные задачи.
Практическая значимость работы заключается в разработке программного обеспечения, реализующего технологию автономного распознавания речи.
1. Алексеев, И.В. Современные методы распознавания речи для построения голосового интерфейса управления системами специального назначения / Алексеев И.В., Митрохин М.А. // Известия вузов. Поволжский регион. Технические науки. 2019. №2 (50). URL: https://cyberleninka.ru/article/n/sovremennye-metody-raspoznavaniya-rechi-dlya- postroeniya-golosovogo-interfeysa-upravleniya-sistemami-spetsialnogo- naznacheniya (дата обращения: 07.06.2022).
2. Алимурадов, А.К. Алгоритм помехоустойчивой обработки речевых команд для систем голосового управления // Измерение. Мониторинг. Управление. Контроль. 2017. №1 (19). URL: https://cyberleninka.ru/article/n/algoritm-pomehoustoychivoy-obrabotki-rechevyh- komand-dlya-sistem-golosovogo-upravleniya (дата обращения: 07.06.2022).
3. Алимурадов, А.К. Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления / Алимурадов А.К., Чураков П.П., Тычков А.Ю. // Измерение. Мониторинг. Управление. Контроль. 2013. №1. URL: https://cyberleninka.ru/article/n/vybor- optimalnogo-nabora-informativnyh-parametrov-rechevyh-signalov-dlya-sistem- golosovogo-upravleniya (дата обращения: 07.06.2022).
4. Алимурадов, А.К. Исследование оптимального алгоритма обработки речевых сигналов системы голосового управления // Модели, системы, сети в экономике, технике, природе и обществе. 2015. №4 (16). URL: https://cyberleninka.ru/article/nZissledovanie-optimalnogo-algoritma-obrabotki-rechevyh-signalov-sistemy-golosovogo-upravleniya (дата обращения: 07.06.2022).
5. Алимурадов, А.К. Метод повышения эффективности голосового управления на основе комплементарной множественной декомпозиции на эмпирические моды / Тычков А.Ю., Зарецкий А.П., Кулешов А.П., Чураков П.П., Квитка Ю.С. // Труды МФТИ. 2017. №2 (34). URL: https:ZZcyberleninka.ru/articleZn/metod-povysheniya-effektivnosti-golosovogo- upravleniya-na-osnove-komplementarnoy-mnozhestvennoy-dekompozitsii-na- empiricheskie-mody (дата обращения: 07.06.2022).
6. Алимурадов, А.К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / Алимурадов А.К., Чураков П.П. // Измерение. Мониторинг. Управление. Контроль. 2015. №2 (12). URL: https:ZZcyberleninka.ru/articleZn/obzor-i-klassifikatsiya-metodov-obrabotki-rechevyh-signalov-v-sistemah-raspoznavaniya-rechi (дата обращения: 07.06.2022).
7. Алимурадов, А.К. Оптимальный алгоритм обработки речевых команд для системы голосового управления // Модели, системы, сети в экономике, технике, природе и обществе. 2015. №2 (14). URL: https:ZZcyberleninka.ruZarticleZnZoptimalnyy-algoritm-obrabotki-rechevyh-komand- dlya-sistemy-golosovogo-upravleniya (дата обращения: 07.06.2022).
8. Астапов, С.С. Автоматическое распознавание речи в условиях шума музыки на многоканальных записях с удаленного микрофона / Шуранов Е.В., Лаврентьев А.В., Кабаров В.И. // Научно-технический вестник информационных технологий, механики и оптики. 2019. №3. URL: https:ZZcyberleninka.ru/articleZn/avtomaticheskoe-raspoznavanie-rechi-v-usloviyah- shuma-muzyki-na-mnogokanalnyh-zapisyah-s-udalennogo-mikrofona (дата обращения: 07.06.2022).
9. Бердибаева, Г.К., Применение искусственных нейронных сетей для распознавания речевых команд / Бердибаева Г.К., Бодин О.Н., Громков Н.В., Козлов В.В., Ожикенов К.А., Пижонков Я.А. // Измерение. Мониторинг. Управление. Контроль. 2017. №2 (20). URL: https:ZZcyberleninka.ru/articleZn/primenenie-iskusstvennyh-neyronnyh-setey-dlya- raspoznavaniya-rechevyh-komand (дата обращения: 07.06.2022).
10. Дикий, Д.И. Протокол передачи данных MQTT в модели удаленного управления правами доступа для сетей интернета // Научно-технический вестник информационных технологий, механики и оптики. 2019. №1. URL: https:ZZcyberleninka.ru/articleZn/protokol-peredachi-dannyh-mqtt- v-modeli-udalennogo-upravleniya-pravami-dostupa-dlya-setey-interneta (дата обращения: 07.06.2022).
11. Меденников, И.П. Двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей ZZ Научно-технический вестник информационных технологий, механики и оптики. 2016. №2. URL: https://cyberleninka.ru/article/n/dvuhetapnyy-algoritm- initsializatsii-obucheniya-akusticheskih-modeley-na-osnove-glubokih-neyronnyh- setey (дата обращения: 07.06.2022).
12. Муратов, Н.А. Основные методы обработки речевых сообщений // Новые информационные технологии в автоматизированных системах. 2018. №21. URL: https:ZZcyberleninka.ru/articleZn/osnovnye-metody-obrabotki-rechevyh-soobscheniy (дата обращения: 07.06.2022).
13. Селезнёв, С.П. Архитектура промышленных приложений IoT и протоколы amqp, mqtt, jms, rest, CoAP, xmpp, dds // International Journal of Open Information Technologies. 2019. №5. URL: https://cyberleninka.ru/article/n/arhitektura-promyshlennyh-prilozheniy-iot-i- protokoly-amqp-mqtt-jms-rest-coap-xmpp-dds (дата обращения: 07.06.2022).
14. Тампель, И.Б. Автоматическое распознавание речи - основные этапы за 50 лет ZZ Научно-технический вестник информационных технологий, механики и оптики. 2015. №6. URL: https://cyberleninka.ru/article/n/avtomaticheskoe-raspoznavanie-rechi-osnovnye- etapy-za-50-let (дата обращения: 07.06.2022).
15. Шматков, В.Н. Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса Z Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. ZZ Научно-технический вестник информационных технологий, механики и оптики. 2019. №4. URL: https:ZZcyberleninka.ru/articleZn/vzaimodeystvie-s-ustroystvami- interneta-veschey-s-ispolzovaniem-golosovogo-interfeysa (дата обращения: 07.06.2022).
...