Тема: АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Распознавание речи 5
Мелчастотные кепстральные коэффициенты (Mel-Frequency Cepstral Coefficients, MFCC) 10
Перцепционные коэффициенты линейного предсказания (Perceptual Linear Prediction, PLP) 14
2. Распознавание изображения 17
Бинаризация изображений: алгоритм Брэдли [3] 19
Метод Виолы-Джонса 23
3. Разработка программного продукта 28
Заключение 39
Библиография 40
Приложения
📖 Введение
Стиль речи, в котором отсутствует предварительно подготовленный текст, а также заранее не указано количество участвующих в ней называется разговорная речь. Различная дикция говорящих, неодинаковый темп речи, манера произношения наличия акцента, а также эмоциональность речи вызывают сложность в распознавания разговорного языка.
Технология распознавания речи получила большое развитие в последние годы и активно внедряется в современную жизнь. Обработка речи применяется в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Но несмотря на широкое использование данной технологии у нее остаются задачи, которые еще необходимо решить. Для последующего развития систем автоматического распознавания речи необходимо решить следующие проблемы:
1) зашумленность речевого сигнала;
2) различные акценты и произношения;
3) необходимость больших объемов словарей.
IT компании, такие как Google, Microsoft, Yandex далеко продвинулись в сфере распознавания речи. Кроме использования результатов исследований в своих продуктах, они предоставляют доступ к своим сервисам различным сторонним разработчикам.
В данной работе рассматривается решение задачи одновременного распознавания речи и личности спикера.
Актуальность данной магистерской работы состоит в том, что данное приложение позволяет произвести запись выступления спикера и в дальнейшем, с помощью распознавания голоса, перевести аудио файл в текст. Также с помощью компьютерного зрения, приложение определяет личность спикера из ранее предоставленной базы.
Уже существуют приложения способные распознавать речь, но они имеют недостатки. Например, «Dragon Professional» - программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на Android и iOS).
«Voco» - только продвинутые и дорогие варианты данной программы имеют возможность, распознавать речь из имеющихся у пользователя аудиозаписей.
Целью данной магистерской работы является создание программы, способной решить задачу одновременного распознавания речи и личности спикера, а также распознать речь в готовом аудиофайле. Работа поделена на несколько глав.
Первая глава содержит теоретические сведения о распознавании речи, а также разбор двух методов обработки звука.
Вторая глава представляет собой разбор этапов распознавания изображения.
В третьей главе описывается разработанное приложение.
В блоке «Приложение» приведен код разработанной программы.
✅ Заключение
Разработанная программа на языке Python, реализует следующие функции:
1. Распознавание аудио и видео в режиме онлайн (без разделения говорящих);
2. Распознавание по видео;
3. Распознавание аудио (без разделения говорящих);
4. Распознавание аудио (с разделением говорящих);
5. Распознавание аудио с готового аудиофайла в формате WAV (без разделения говорящих);
6. Распознавание аудио с готового аудиофайла в формате WAV (с разделением говорящих).
Таким образом, поставленные перед магистерской работой цели были достигнуты, все задачи были выполнены.



