📄Работа №41678

Тема: АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ

📝

Тип работы Магистерская диссертация

📚

Предмет математика

📄

Объем: 57 листов

📅

Год: 2019

👁️

4900 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
1. Распознавание речи 5
Мелчастотные кепстральные коэффициенты (Mel-Frequency Cepstral Coefficients, MFCC) 10
Перцепционные коэффициенты линейного предсказания (Perceptual Linear Prediction, PLP) 14
2. Распознавание изображения 17
Бинаризация изображений: алгоритм Брэдли [3] 19
Метод Виолы-Джонса 23
3. Разработка программного продукта 28
Заключение 39
Библиография 40
Приложения

📖 Введение

Распознавание человеческой речи является хорошим примером задачи, с которой человеческий мозг легко справляется, а цифровой компьютер может оказаться бессильным. Стиль речи, в котором отсутствует предварительно подготовленный текст, а также заранее не указано количество участвующих в ней называется разговорная речь. Различная дикция говорящих, неодинаковый темп речи, манера произношения, наличия акцента, а эмоциональность речи, а также другие неточности в разговорной речи вызывают сложность в распознавания разговорного языка.
Стиль речи, в котором отсутствует предварительно подготовленный текст, а также заранее не указано количество участвующих в ней называется разговорная речь. Различная дикция говорящих, неодинаковый темп речи, манера произношения наличия акцента, а также эмоциональность речи вызывают сложность в распознавания разговорного языка.
Технология распознавания речи получила большое развитие в последние годы и активно внедряется в современную жизнь. Обработка речи применяется в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Но несмотря на широкое использование данной технологии у нее остаются задачи, которые еще необходимо решить. Для последующего развития систем автоматического распознавания речи необходимо решить следующие проблемы:
1) зашумленность речевого сигнала;
2) различные акценты и произношения;
3) необходимость больших объемов словарей.
IT компании, такие как Google, Microsoft, Yandex далеко продвинулись в сфере распознавания речи. Кроме использования результатов исследований в своих продуктах, они предоставляют доступ к своим сервисам различным сторонним разработчикам.
В данной работе рассматривается решение задачи одновременного распознавания речи и личности спикера.
Актуальность данной магистерской работы состоит в том, что данное приложение позволяет произвести запись выступления спикера и в дальнейшем, с помощью распознавания голоса, перевести аудио файл в текст. Также с помощью компьютерного зрения, приложение определяет личность спикера из ранее предоставленной базы.
Уже существуют приложения способные распознавать речь, но они имеют недостатки. Например, «Dragon Professional» - программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на Android и iOS).
«Voco» - только продвинутые и дорогие варианты данной программы имеют возможность, распознавать речь из имеющихся у пользователя аудиозаписей.
Целью данной магистерской работы является создание программы, способной решить задачу одновременного распознавания речи и личности спикера, а также распознать речь в готовом аудиофайле. Работа поделена на несколько глав.
Первая глава содержит теоретические сведения о распознавании речи, а также разбор двух методов обработки звука.
Вторая глава представляет собой разбор этапов распознавания изображения.
В третьей главе описывается разработанное приложение.
В блоке «Приложение» приведен код разработанной программы.

✅ Заключение

В данной магистерской работе представлены результаты исследования методов распознавания речи и распознавания изображения. На основе исследований создан программный продукт. Во время написания программы были изучены библиотеки Speech Recognition, FaceRecognition, изучена работа сервиса Google Cloud Speech, а также изучена библиотека Tkitner для разработки графического интерфейса программы.
Разработанная программа на языке Python, реализует следующие функции:
1. Распознавание аудио и видео в режиме онлайн (без разделения говорящих);
2. Распознавание по видео;
3. Распознавание аудио (без разделения говорящих);
4. Распознавание аудио (с разделением говорящих);
5. Распознавание аудио с готового аудиофайла в формате WAV (без разделения говорящих);
6. Распознавание аудио с готового аудиофайла в формате WAV (с разделением говорящих).
Таким образом, поставленные перед магистерской работой цели были достигнуты, все задачи были выполнены.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Логинов А. И. Системы технического зрения. М.: МИРЭА, 1991. 80 с.
[2] Системы технического зрения (принципиальные основы, аппаратное и математическое обеспечение) / Под ред. А. Н. Писаревского. Л.: Машиностроение, 1988. 424 с.
[3] Derek Bradley, Gerhard Roth Adaptive Thresholding using the Integral Image. Journal of Graphics, GPU, and Game Tools - 2007. - no. 2.- P. 13-21.
[4] K. G. Derpanis, "Integral image-basedrepresentation," in Department of Computer Science and Engineering York University Paper, - 2007. - no.1. - P. 1-6
[5] Hermansky, H. Perceptual linear predictive (PLP) analysis of speech [Text] / H. Hermansky // the Journal of the Acoustical Society of America. — 1990. — Vol. 87, no. 4. — P. 1738—1752.
[6] Zheng F., Zhang G., Song Z.. Comparison Of Different Implementations Of MFCC. J. Computer Science & Technology - 2001. - no.6. - P. 582-589.
[7] Воробьева С. А. Методы распознавания речи // Молодой ученый. — 2016. — №26. — С. 136-141. — URL https://moluch.ru/archive/130/36213/ (дата обращения: 18.04.2019).
[8] Кибкало А.А. Разработка системы распознавания русской' речи // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. - 2003. - Вып. 3. - С. 8-20.
[9] Михайлов В.Г., Златоустов Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 167 с.
[11] Наумов Н. Метод Виолы-Джонса (Viola-Jones) как основа для распознавания лиц [Электронный ресурс] // Хабр: [сайт]. [2011]. URL: https://habrahabr.ru/post/133826/ (дата обращения: 03.11.2018).
[12] Константинов Д. Алгоритм AdaBoost [Электронный ресурс] //
MachineLearning.ru [сайт]. [2010].: URL:
http://machinelearning.ru/wiki/index.php?title=AdaBoost (дата обращения:
03.11.2018) .
[13] Santosh K.Gaikwad, Bharti W.Gawali, Pravin Yannawar A Review on Speech Recognition Technique // International Journal of Computer Applications. - 2010. - №3. - P. 16-24
[14] Алюнов Д.Ю., Сергеев Е.С., Пигачев П.В., Мытников А.Н. Реализация алгоритма обработки и распознавания речи // Современные наукоемкие технологии. - 2016 - № 3-2. - С. 225-230.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208935)

Статьи

»» Все статьи

Вход в личный кабинет