Тип работы:
Предмет:
Язык работы:


АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ

Работа №41678

Тип работы

Магистерская диссертация

Предмет

математика

Объем работы57
Год сдачи2019
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
591
Не подходит работа?

Узнай цену на написание


Введение 3
1. Распознавание речи 5
Мелчастотные кепстральные коэффициенты (Mel-Frequency Cepstral Coefficients, MFCC) 10
Перцепционные коэффициенты линейного предсказания (Perceptual Linear Prediction, PLP) 14
2. Распознавание изображения 17
Бинаризация изображений: алгоритм Брэдли [3] 19
Метод Виолы-Джонса 23
3. Разработка программного продукта 28
Заключение 39
Библиография 40
Приложения

Распознавание человеческой речи является хорошим примером задачи, с которой человеческий мозг легко справляется, а цифровой компьютер может оказаться бессильным. Стиль речи, в котором отсутствует предварительно подготовленный текст, а также заранее не указано количество участвующих в ней называется разговорная речь. Различная дикция говорящих, неодинаковый темп речи, манера произношения, наличия акцента, а эмоциональность речи, а также другие неточности в разговорной речи вызывают сложность в распознавания разговорного языка.
Стиль речи, в котором отсутствует предварительно подготовленный текст, а также заранее не указано количество участвующих в ней называется разговорная речь. Различная дикция говорящих, неодинаковый темп речи, манера произношения наличия акцента, а также эмоциональность речи вызывают сложность в распознавания разговорного языка.
Технология распознавания речи получила большое развитие в последние годы и активно внедряется в современную жизнь. Обработка речи применяется в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Но несмотря на широкое использование данной технологии у нее остаются задачи, которые еще необходимо решить. Для последующего развития систем автоматического распознавания речи необходимо решить следующие проблемы:
1) зашумленность речевого сигнала;
2) различные акценты и произношения;
3) необходимость больших объемов словарей.
IT компании, такие как Google, Microsoft, Yandex далеко продвинулись в сфере распознавания речи. Кроме использования результатов исследований в своих продуктах, они предоставляют доступ к своим сервисам различным сторонним разработчикам.
В данной работе рассматривается решение задачи одновременного распознавания речи и личности спикера.
Актуальность данной магистерской работы состоит в том, что данное приложение позволяет произвести запись выступления спикера и в дальнейшем, с помощью распознавания голоса, перевести аудио файл в текст. Также с помощью компьютерного зрения, приложение определяет личность спикера из ранее предоставленной базы.
Уже существуют приложения способные распознавать речь, но они имеют недостатки. Например, «Dragon Professional» - программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на Android и iOS).
«Voco» - только продвинутые и дорогие варианты данной программы имеют возможность, распознавать речь из имеющихся у пользователя аудиозаписей.
Целью данной магистерской работы является создание программы, способной решить задачу одновременного распознавания речи и личности спикера, а также распознать речь в готовом аудиофайле. Работа поделена на несколько глав.
Первая глава содержит теоретические сведения о распознавании речи, а также разбор двух методов обработки звука.
Вторая глава представляет собой разбор этапов распознавания изображения.
В третьей главе описывается разработанное приложение.
В блоке «Приложение» приведен код разработанной программы.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной магистерской работе представлены результаты исследования методов распознавания речи и распознавания изображения. На основе исследований создан программный продукт. Во время написания программы были изучены библиотеки Speech Recognition, FaceRecognition, изучена работа сервиса Google Cloud Speech, а также изучена библиотека Tkitner для разработки графического интерфейса программы.
Разработанная программа на языке Python, реализует следующие функции:
1. Распознавание аудио и видео в режиме онлайн (без разделения говорящих);
2. Распознавание по видео;
3. Распознавание аудио (без разделения говорящих);
4. Распознавание аудио (с разделением говорящих);
5. Распознавание аудио с готового аудиофайла в формате WAV (без разделения говорящих);
6. Распознавание аудио с готового аудиофайла в формате WAV (с разделением говорящих).
Таким образом, поставленные перед магистерской работой цели были достигнуты, все задачи были выполнены.



[1] Логинов А. И. Системы технического зрения. М.: МИРЭА, 1991. 80 с.
[2] Системы технического зрения (принципиальные основы, аппаратное и математическое обеспечение) / Под ред. А. Н. Писаревского. Л.: Машиностроение, 1988. 424 с.
[3] Derek Bradley, Gerhard Roth Adaptive Thresholding using the Integral Image. Journal of Graphics, GPU, and Game Tools - 2007. - no. 2.- P. 13-21.
[4] K. G. Derpanis, "Integral image-basedrepresentation," in Department of Computer Science and Engineering York University Paper, - 2007. - no.1. - P. 1-6
[5] Hermansky, H. Perceptual linear predictive (PLP) analysis of speech [Text] / H. Hermansky // the Journal of the Acoustical Society of America. — 1990. — Vol. 87, no. 4. — P. 1738—1752.
[6] Zheng F., Zhang G., Song Z.. Comparison Of Different Implementations Of MFCC. J. Computer Science & Technology - 2001. - no.6. - P. 582-589.
[7] Воробьева С. А. Методы распознавания речи // Молодой ученый. — 2016. — №26. — С. 136-141. — URL https://moluch.ru/archive/130/36213/ (дата обращения: 18.04.2019).
[8] Кибкало А.А. Разработка системы распознавания русской' речи // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. - 2003. - Вып. 3. - С. 8-20.
[9] Михайлов В.Г., Златоустов Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 167 с.
[11] Наумов Н. Метод Виолы-Джонса (Viola-Jones) как основа для распознавания лиц [Электронный ресурс] // Хабр: [сайт]. [2011]. URL: https://habrahabr.ru/post/133826/ (дата обращения: 03.11.2018).
[12] Константинов Д. Алгоритм AdaBoost [Электронный ресурс] //
MachineLearning.ru [сайт]. [2010].: URL:
http://machinelearning.ru/wiki/index.php?title=AdaBoost (дата обращения:
03.11.2018) .
[13] Santosh K.Gaikwad, Bharti W.Gawali, Pravin Yannawar A Review on Speech Recognition Technique // International Journal of Computer Applications. - 2010. - №3. - P. 16-24
[14] Алюнов Д.Ю., Сергеев Е.С., Пигачев П.В., Мытников А.Н. Реализация алгоритма обработки и распознавания речи // Современные наукоемкие технологии. - 2016 - № 3-2. - С. 225-230.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ