Тип работы:
Предмет:
Язык работы:


Разработка системы автоматического распознавания слитной речи

Работа №80190

Тип работы

Дипломные работы, ВКР

Предмет

автоматика и управление

Объем работы81
Год сдачи2018
Стоимость4275 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
259
Не подходит работа?

Узнай цену на написание


РЕФЕРАТ 2
ВВЕДЕНИЕ 5
1. Обзор и анализ предметной области 8
1.1. Общие сведения 8
1.2. Классификация систем распознавания речи 10
1.3. Структура системы распознавания речи 11
1.4. Обработка исходного сигнал и выделение признаков 14
1.5. Акустическая модель системы распознавания речи 24
1.5.1. Эвристический подход 24
1.5.2. Скрытые марковские модели 25
1.5.3. Непрерывные скрытые марковские модели 35
1.5.4. Контекстная зависимость в скрытых марковских моделях 39
1.5.5. Нейронные сети 42
1.5.6. Гибридная архитектура 53
1.6. Словарь системы распознавания речи 54
1.7. Языковая модель системы распознавания речи. N-граммная языковая модель 55
1.8. Декодер 57
1.8.1. Декодирование с помощью взвешенных конечных
преобразователей 57
2. Выбор технологии системы распознавания речи 61
3. Построение системы распознавания речи 62
3.1. Обзор программных компонент для построения целевой системы .... 62
3.2. Архитектура разработанной системы 67
3.2.1. Обработка исходного сигнала и выделение признаков 67
3.2.2. Словарь системы распознавания 68
3.2.3. Языковое моделирование 68
3.2.4. Акустическое моделирование 69
3.2.5. Декодер 70
3.3. Особенности реализации и обучающая выборка 71
4. Результаты применения системы распознавания речи 73
ЗАКЛЮЧЕНИЕ 76
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 77
ПРИЛОЖЕНИЕ А 81


Человеческий речевой диалог - самая интуитивная форма общения между людьми. В течение продолжительного времени, мировое научное сообщество стремилось привнести эту форму и в общении человека с компьютером.
Первые попытки исследований в области распознавания речи относятся к 40-50 годам XX века. Связаны они с появлением спектральных анализаторов - электрических устройств, способных анализировать спектральные характеристики сигнала. В СССР было создано первое техническое устройство, позволявшее распознавать гласные русского языка на основе спектрального анализа [1]. Эти исследования выступили основой для дальнейших исследований в области распознавания речи.
Следующим этапом развития систем распознавания речи стало создание систем распознавания команд. Такие системы использовали в основном стратегию распознавания слова как единого слухового образа.
Системы распознавания слитной речи, которые получили наиболее широкое распространение, стали бурно развиваться в начале 2000-х годов. С точки зрения общения с компьютером, технология распознавания речи применяется в следующих областях:
• автомобильная промышленность - голосовое управление штатными
бортовыми системами (навигационным оборудованием, мультимедийной системой, бортовым компьютером и т.д.);
• системы «умный дом» - управление работой бытовых приборов (системы освещения, кухонными приборами и т.д.);
• персональные компьютеры и мобильные устройства - персональные ассистенты, выполняющие вспомогательные функции приложений и операционной системы (ввод текстовых сообщений, выполнение команд и т.д.).
Однако, кроме непосредственного использования систем распознавания речи для реализации взаимодействия «человек-компьютер», такие системы нашли применение в речевом анализе. Под речевым анализом понимается решение таких задач, как тематическое моделирование, выявление ключевых слов, кластеризация на основе ключевых признаков.
Не смотря на развитие цифровых технологий, в коммерческих организациях до сих пор, большую долю из каналов коммуникаций занимает общение по телефону. В таблице 1 приведена статистика обращения в контактные центры, представленная компанией «LiveTex» [2] в 2016 году.
При этом для крупных контактных центров, центров поддержки клиентов остро встает вопрос автоматизированной оценки качества работы оператора, выявление проблемных мест деятельности организации, на основе статистике задаваемых вопросов.
Большая часть систем распознавания речи, существующих на рынке, либо не способны распознавать русскую речь, либо делают это с ненадлежащим для конкретной задачи качеством. Связанно это, в основном, со скудностью теоретической базы распознавания русской слитной речи, малого количества исследований на эту тему.
В связи с этим данная работа преследует следующую цель - разработать систему автоматического распознавания слитной русской речи. Для данной цели были сформулированы следующие задачи:
1. провести обзор и анализ предметной области;
2. выбрать и обосновать архитектуру программного комплекса системы распознавания;
3. разработать программную реализацию системы распознавания речи;
4. провести тестирование разработанного комплекса;
5. продемонстрировать применимость текстов, полученных с помощью
разработанной системы распознавания в задачах речевого анализа.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Целью данной выпускной квалификационной работы являлась разработка системы распознавания слитной русской речи. Данная задача была выполнена в полном объеме.
Проведен обзор и анализ предметной области. Описаны теоретические основы компонент систем распознавания речи.
Проведен анализ архитектур систем распознавания речи. Обоснован выбор архитектуры на основе скрытых марковских моделей. Проведено исследование использования технологии нейронных сетей для решения задачи акустического моделирования.
Разработана программная реализация системы распознавания речи. Оценено качество работы системы. Разработана система декодирования аудиофайлов, которая применена в ООО «Центр недвижимости от Сбербанка» в промышленной среде.
Продемонстрирована применимость текстов, получаемых с помощью разработанной системы распознавания речи для дальнейшего текстового и языкового анализа, на примере решения задачи автоматизированной модерации и тематического моделирования звонков.
На данный момент система распознавания речи продолжает работать в промышленной среде компании ООО «Центр недвижимости от Сбербанка», обеспечивая распознавания звонков для нужд иных сервисов компании.



1. Мясникова Е.Н. Объективное распознавание звуков речи. Библиотека по автоматике, выпуск 242. - Л.: «Энергия», 1967. - 150 с.
2. Аналитический отчет. Омниканальные контакт-центр [Электронный ресурс] - Режим доступаhttps://livetex.ru/Documents/researches/livetex-omnichannel.pdf (дата обращения 10.02.2018).
3. Винцюк Т.К., Анализ, распознавание и интерпретация речевых сигналов, - Киев: Наукова думка, 1987. - 264 стр.
4. Венцов А.В., Касевич В.Б. Проблемы восприятия речи. - М.: Едиториал УРСС, 2003. - 240 с.
5. Федосин С.А., Еремин А. Ю. Классификация систем распознавания речи - г.Саранск, ГОУВПО «Мордовский государственный университет им. Н. П. Огарева», 2003. - 4 с.
6. Теорема Байеса [Электронный ресурс]- Режим доступа https://ru.wikipedia.org/wiki/Теорема_Байеса (дата обращения 10.06.2017).
7. Rabiner L., Juang B.-H. Fundamentals of speech recognition - Prentice Hall. - 1993, 507 p.
8. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М: Мир, 1978, 834 с.
9. Л. Рабинер, Р. Шафер, Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - 496 с.
10. Anusuya M.A., Katti S.K., Front end analysis of speech recognition: a review // International Journal of Speech Technology, Vol. 14, 2011, p. 99-145.
11. Т.В. Шарий, О проблеме параметризации речевого сигнала в современных системах распознавания речи // Вюник Донецького Нацюнального Университету, 2008, вып. 2, стр. 536-541.
12. Гоноровский И. С. Радиотехнические цепи и сигналы: Учебник для вузов. - 4-е изд., перераб. и доп. — М.: Радио и связь, 1986. — 512 с.
13. Jacob Benesty, M. Mohan Sondhi, Yiteng Huang, Springer handbook of speech processing. - Springer, 2008, 1134 p.
14. Барабаш Ю.Л., Зиновьев Б.В. Вопросы статистической теории распознавания. - М.: Сов.радио, 1967. - 400 с.
15. Mark Gales, Steve Young, The application of hidden Markov models in speech recognition. Trends Signal Process. 1, 3 (January 2007), 2007, 110 p.
16.Stephen Tu, Derivation of Baum-Welch Algorithm for Hidden Markov Models [Электронный ресурс] - Режим доступа
http://people.eecs.berkeley.edu/~stephentu/writeups/hmm-baum-welch-derivation.pdf (дата обращения 25.08.2017).
17. Hastie, Trevor. 8.5 The EM algorithm // The Elements of Statistical Learning / Trevor Hastie, Tibshirani, Friedman. — New York : Springer, 2001. — P. 236-243.
18. McLachlan, G.J.; Peel, D. Finite Mixture Models - John Wiley, 2000. — 439 p.
19. Xuedong Huang, Alex Acero, Hsiao-Wuen Hon. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development (1st ed.). -New Jersey, Prentice Hall PTR, Upper Saddle River, 2001 - 960 p.
20. MachineLeammg.ru. Модель МакКаллока-Питтса [Электронный ресурс].
Режим доступа: http://www.machineleaming.ru/wiki/index.php?title=Мо..
(дата обращения - 15.10.2017).
21. Yoshua Bengio. Learning long-term dependencies with gradient descent is
difficult [Электронный ресурс] - Режим доступа
http://ai.dinfo.unifi.it/paolo//ps/tnn-94-gradient.pdf (дата обращения -
15.11.2017).
22. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data
with Recurrent Neural Networks. [Электронный ресурс]. Режим доступа https://www.cs.toronto.edu/~graves/icml_2006.pdf (дата обращения
(12.11.2017).
23. Kukich K. Techniques for automatically correcting words in text //ACM Computing Surveys (CSUR). - 1992. - Т. 24. - №. 4. - p. 377-439.
24. Robert C. Moore Chris Quirk, Improved Smoothing for N-gram Language Models Based on Ordinary Counts [Электронный ресурс] - Режим доступа http://www.aclweb.org/anthology/P09-2088 (дата обращения 02.09.2017).
25. N-rpaMMHaa модель прогнозирования слов [Электронный ресурс] - Режим доступаhttps://r-datascience.ru/n-gram_word_prediction/ (дата обращения 10.09.2017).
26. М.А. Басараб, А.Б. Домрачева, В.М. Купляков Алгоритмы решения задачи быстрого поиска пути на географических картах [Электронный ресурс] - Режим доступаhttp://engjournal.ru/articles/1054/1054.pdf (дата обращения 20.10.2017).
27. Mehryar Mohri, Fernando Pereira, Fernando Pereira. Speech recognition with weighted finite-state transducers [Электронный ресурс] - Режим доступа https://cs.nyu.edu/~mohri/pub/hbka.pdf (дата обращения 01.12.2017).
28.Steve Renals, End-to-end systems: Deep Speech and CTC [Электронный ресурс] - Режим доступаhttps://www.inf.ed.ac.uk/teaching/courses/asr/2017-18/asr13-ctc.pdf (дата обращения 20.01.2018).
29.Kaldi. Home page [Электронный ресурс] - Режим доступаhttp://kaldi- asr.org/(дата обращения - 14.06.2017).
30.Steve Renals, Sequence Discriminative Training [Электронный ресурс] - Режим доступаhttp://www.inf.ed.ac.uk/teaching/courses/asr/2017-18/asr12-seq.pdf (дата обращения - 15.02.2018).
31. Building a phonetic dictionary [Электронный ресурс] - Режим доступа https://cmusphinx.github.io/wiki/tutorialdict/ (дата обращения 20.09.2017).
32. The SRI Language Modeling Toolkit [Электронный ресурс] - Режим доступа http://www.speech.sri.com/projects/srilm/ (дата обращения 20.07.2017).
33. ARPA Language models [Электронный ресурс] - Режим доступа
https://cmusphinx.github.io/wiki/arpaformat/ (дата обращения 30.08.2017).
34. SubStation Alpha [Электронный ресурс] - Режим доступа https://en.wikipedia.org/wiki/SubStation_Alpha (дата обращения 15.09.2017).
35. Word Error Rate Calculation [Электронный ресурс] - Режим доступа https://martin-thoma.com/word-error-rate-calculation/ (дата обращения 28.09.2017).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ