Тип работы:
Предмет:
Язык работы:


Разработка системы взаимодействия человек-машина по фрагментам устной русскоязычной речи

Работа №129359

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы102
Год сдачи2019
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
90
Не подходит работа?

Узнай цену на написание


Введение 5
Постановка задачи 8
Обзор литературы 10
Глава 1 Выбор инструментов для реализации задачи 18
1.1 Выбор языка программирования 18
1.2 Выбор аппаратного обеспечения 18
1.3 Выбор источников данных для обучения модели 19
1.4 Выбор средства оптимизации гиперпараметров модели 21
Глава 2 Разработка архитектуры end-to-end модели распознавания
ключевых слов 23
2.1 Формализация условий задачи 23
2.2 Описание архитектуры 24
2.3 Функция потерь 33
2.4 Процесс обучения модели 34
2.5 Выводы 35
Глава 3 Сбор данных для обучения моделей 37
3.1 Обоснование требований к корпусу данных 37
3.2 Формат данных 39
3.3 Использование аудио и автоматически-сгенерированных
субтитров из видеофайлов сервиса YouTube для создания корпуса ключевых слов 41
3.4 Корректировка и выравнивание временных границ ключевых
слов, полученных из автоматически-сгенерированных субтитров 42
3.5 Использование TTS сервиса для синтеза данных 44
3.6 Промежуточные результаты 45
3.7 Аугментация корпуса данных 46
3.8 Результирующие наборы данных 48
3.9 Выводы 50
Глава 4 Обучение моделей 51
4.1 Выбор и оптимизация гиперпараметров моделей и обучения 51
4.2 Описание корпуса данных для обучения 64
4.3 Описание структуры экспериментов 64
4.4 Эксперименты 65
4.5 Сравнение моделей 77
4.6 Выводы 78
Глава 5 Разработка системы взаимодействия человек-машина через голосовые команды 80
5.1 Модули системы 80
5.2 Детали реализации 82
5.3 Выводы 83
Заключение 85
Результаты выполненной работы 85
Способы применения результатов работы 85
Направления дальнейших исследований 86
Список используемых сокращений 87
Список литературы 88
Приложения 94
6.1 Реализация голосового модуля клиента для системы
взаимодействия человек-машина через голосовые команды 94
6.2 Реализация серверного модуля распознавания ключевых слов для системы взаимодействия человек-машина через голосовые команды . 99
6.3 Реализация модуля-интерпретатора команд для системы
взаимодействия человек-машина через голосовые команды 102


С возрастающей потребностью в диалоговых интерфейсах для мобильных и VR-девайсов, IoT, теле- и радио- вещания, активное развитие происходит в области понимания устной речи [27; 45; 50]. Высокопроизводительные системы преобразования речи в текст и текста в речь представляют два наиболее важных аспекта таких интерфейсов, поскольку большинство вычислительных алгоритмов разработаны для текстового ввода и вывода [10; 28]. Не менее важной составляющей
разговорных интерфейсов является определение ключевых слов (Keyword Spotting, KWS) - обнаружение заданных ключевых слов в непрерывном потоке аудио для управления последующим переходом между вычислительными состояниями связанной системы [17].
Долгое время для построения систем обработки и распознавания речи успешно применялись последовательные алгоритмы статистического моделирования: скрытые марковские модели (HMM) [31; 52] и условные случайные поля (CRF) [13; 14]. Подобные алгоритмы, не смотря на их
широкую распространенность, имели свои недостатки: большая размерность пространства признаков, требование явных предположений о независимости наблюдений и необходимость специфических знаний о задаче для проектирования включаемых состояний для HMM; зависимость выбора факторов-признаков от специфики конкретных данных для CRF [15]. Перечисленные особенности подразумевали под собой активное вмешательство человека в процесс создания модели.
С развитием вычислительных мощностей, графических ускорителей и технологий параллельных вычислений [22] широкое распространение
получили глубинные нейронные сети (DNN), проявившие себя в задачах классификации изображений [21; 29] и распознавания речи [43; 53]. Отличительной особенностью DNN в контексте сравнения с нейронными сетями является наличие более чем трех слоев (т. е. более одного скрытого 5
слоя), что значительно увеличивает количество параметров модели и является причиной высоких вычислительных затрат. Развитие ускорительных технологий позволило осуществлять вычисление взвешенных сумм, необходимое DNN для обучения и предсказания, за обозримое время.
На смену HMM пришли гибридные системы, использующие DNN для предварительной обработки и классификации признаков, сокращая тем самым размерность задачи для HMM [19]. Позже были разработаны гибридные DNN- CRF системы, использующие в качестве признаков для вероятностной модели вектора, полученные с помощью DNN, превосходящие по качеству DNN- HMM в области обработки речи [34]. В отличие от своих предшественников, разработанные системы позволили применить «end-to-end» обучение, ограничивающее вмешательство человека в процесс настройки параметров модели, но требующее взамен большое количество данных для обучения и проектирование архитектуры модели.
Системы распознавания речи, базирующиеся на технологиях DNN, быстро завоевали лидирующее место в организации взаимодействия человека и электронных девайсов, например, Amazon Echo, Google Home. Тем не менее, непрерывно работающая система распознавания речи не является энергоэффективной и может вызывать перегрузки сети, передавая непрерывный поток аудио в облачный сервис. Кроме того, облачные решения добавляют задержку на отклик приложения, что негативно сказывается на пользователях. Чтобы избежать подобных недостатков, для активации полноценной системы распознавания речи девайсу нужно выделить определенные ключевые слова, например, “Алекса”, “Ok Google” - данная задача относится к области KWS. Наиболее очевидным и часто используемым способом реализации таких систем является постоянная поддержка KWS модуля в работающем режиме, для чего идеально подходят микроконтроллеры - недорогие и энергоэффективные процессоры. Однако развертывание KWS, базирующихся на DNN, на микроконтроллерах сталкивается с двумя основными проблемами: ограниченный объем памяти (обычные микроконтроллеры имеют несколько сотен KB доступной памяти, которая должна вместить в себя нейронную сеть вместе со входом, выходом и параметрами) и ограниченные вычислительные ресурсы (поскольку KWS система постоянно поддерживается в рабочем состоянии, объем вычислительных операций, выполняемых за один цикл предсказания, должен укладываться в рамки реального времени).
Высокие требования к точности, скорости срабатывания и надежности систем KWS с одной стороны, и ограниченные вычислительные и энергетические ресурсы - с другой, поддерживают актуальной задачу разработки бережливой архитектуры DNN. Несмотря на активные исследования и коммерческую адаптацию вышеописанных методов, в настоящий момент существует дефицит систем с отрытым исходным кодом, удовлетворяющих обоим ограничениям. Особенно мало систем определения ключевых слов с поддержкой русского языка.
В данной работе изложен процесс разработки системы определения ключевых слов в русскоязычной речи с использованием технологий глубинного обучения, а также применение этой системы для организации взаимодействия человек-машина. Описан процесс построения архитектуры нескольких моделей глубинных нейронных сетей. Приведен разработанный метод для автоматического сбора и создания корпуса обучающих данных. Описаны процесс оптимизации гиперпараметров моделей с использованием инструмента с открытым исходным кодом Microsoft NNI и процесс обучения моделей на собранном корпусе данных. Проведена сравнительная характеристика обученных моделей. Описан принцип работы системы распознавания ключевых слов, основанной на применении лучшей из обученных моделей.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Результаты выполненной работы
1. Изучены важнейшие публикации и исследования в области обработки речи и, в частности, распознавания ключевых слов с использованием моделей глубинного обучения.
2. На основе сравнительного анализа изученной литературы выявлены наиболее перспективные методы построения глубинных моделей, с опорой на которые разработаны 3 модели сверточных нейронных сетей для распознавания ключевых слов: CNN, DS-CNN и M-CNN.
3. Исследовано несколько способов автоматического сбора данных для составления обучающего корпуса данных ключевых слов.
4. Собраны два набора данных, содержащие русскоязычные аудио семплы 34
ключевых слов из 6 различных классов: «yt tts clean» и
«yt_tts_augmented», содержащие 11801 и 47204 примеров соответственно и пригодные для обучения глубинных моделей при решении задачи распознавания ключевых слов.
5. Проведены эксперименты по оптимизации гиперпараметров разработанных моделей и обучения; получены наборы гиперпараметров, обеспечивающие лучшую точность распознавания.
6. Проведены эксперименты по обучению моделей с использованием собранных наборов данных; достигнуты наибольшие уровни точности 62.81% для классов и 50.37% для подклассов ключевых слов на наборе «yt_tts_clean», 87.61% для классов и 89.24% для подклассов на наборе «yt_tts_augmented».
7. На основе модели M-CNN разработана система взаимодействия человек- машина с использованием устных русскоязычных команд.
Способы применения результатов работы
Разработанный метод автоматического сбора русскоязычных аудио данных может быть применен для создания корпуса обучающих данных для 85
других языков, поскольку не включает в себя использование информации, специфичной для конкретного языка. Разработанные архитектуры моделей и описанный метод оптимизации гиперпараметров также могут быть использованы при создании модели для распознавания ключевых слов для других языков, поскольку существует литература, описывающая успешные способы применения моделей со схожей архитектурой для распознавания, например, англоязычных ключевых слов [27].
Обученные модели распознавания русскоязычных ключевых слов могут быть использованы при разработке встроенных голосовых помощников, поскольку одна из разработанных моделей (DS-CNN) обладает достаточной для данной задачи легковесностью и малым количеством параметров. Также разработанные модели могут использоваться в качестве модулей систем управления группами роботов, что становится возможным благодаря наличию класса «Имя» в обучающих наборах данных и выходных слоях моделей.
Направления дальнейших исследований
1. Исследование более эффективных и точных способов автоматического сбора обучающих данных для систем распознавания ключевых слов; расширение набора классов и подклассов используемых ключевых слов.
2. Изучение и применение способов сокращения числа параметров и количества операций для разработанных моделей с целью увеличения производительности и уменьшения время отклика системы для дальнейшего встраивания ее в девайсы с ограниченными аппаратными ресурсами.
3. Разработка модели распознавания ключевых слов с использованием рекуррентных слоев с LSTM ячейками; сравнение результатов точности распознавания моделей.
4. Разработка системы управления несколькими роботами на основе обученной модели, показывающей лучшую точность распознавания.



1. A Simple Way to Initialize Recurrent Networks of Rectified Linear Units / Quoc V. Le [и др.] // arXiv preprint arXiv:1504.00941 - 2015
2. Acoustic similarity scores for keyword spotting / Veiga A. [и др.] //
Computational Processing of the Portuguese Language. - 2014
3. Activation Functions: Comparison of Trends in Practice and Research for Deep Learning / Chigozie Nwankpa [и др.] // arXiv preprint arXiv:1811.03378 - 2018
4. Adam: A Method for Stochastic Optimization / Diederik P. Kingma [и др.] // arXiv preprint arXiv: 1412.6980 - 2014
5. Algorithms for Hyper-Parameter Optimization / James Bergstra [и др.] // Advances in Neural Information Processing Systems Conference - 2011
6. AVA-Speech: A Densely Labeled Dataset of Speech Activity in Movies /
Sourish Chaudhuri [и др.] // Google AI research - 2018 - URL:
https://ai.google/research/pubs/pub47336
7. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift / Sergey Ioffe [и др.] // arXiv preprint arXiv: 1502.03167 - 2015
8. Bidirectional Recurrent Neural Networks / Mike Schuster [и др.] // IEEE Transactions on Signal Processing - IEEE. 1997 - С. 2673-2681
9. Building Corpora of Transcribed Speech from Open Access Sources / O. O. Iakushkin [и др.] // Proceedings of the 8th International Conference Distributed Computing and Grid-technologies in Science and Education - CEUR. 2018 - URL: http://ceur-ws.org/Vol-2267/475-479-paper-91 .pdf
10. Comparing Speech Recognition Systems (Microsoft API, Google API And CMU Sphinx) / Gamal Bohouta [и др.] // Int. Journal of Engineering Research and Application - 2017 - С. 20-24
11. Comparison of Keyword Spotting Approaches for Informal Continuous Speech / Igor Szoke [и др.] //Proceedings of the 9th European Conference on Speech Communication and Technology. - 2005 - С. 633-636.
12. Compressing Deep Neural Networks using a Rank-Constrained Topology / Preetum Nakkiran [и др.] // Proceedings of 16th Annual Conference of the International Speech Communication Association, INTERSPEECH - ISCA. 2015 - С. 1473-1477
13. Conditional Random Fields in Speech, Audio, and Language Processing / Eric Fosler-Lussier [и др.] // Proceedings of the IEEE. - IEEE. 2013 - С. 1054-1075.
14. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data / John D. Lafferty [и др.] // Proceedings of the Eighteenth International Conference on Machine Learning - ICML. 2002 - С. 282-289
15. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks / A. Graves [и др.] // Proceedings of the 23rd international conference on Machine learning. - ACM. 2006 - С. 369-376.
16. Convolutional Neural Networks for Small-footprint Keyword Spotting / Tara N. Sainath [и др.] // 16th Annual Conference of the International Speech Communication Association, INTERSPEECH. - 2015
17. Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting / Sercan O. Arik [и др.] // 18th Annual Conference of the International Speech Communication Association, INTERSPEECH. - 2017
... Всего источников –57.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ