Введение 4
Постановка задачи 5
1. Обзор существующих методов 6
1.1. Подходы к построению акустической и языковой моделей ... 8
1.1.1. Скрытые марковские модели 8
1.1.2. Нейронные сети 10
1.2. Обзор методов выделения признаков 15
1.2.1. Дескрипторы, основанные на выделении контуров .... 15
1.2.2. Дескрипторы, основанные на анализе значений пикселей 17
1.3. Эталонные выборки 18
2. Предложенный метод 20
2.1. Общее описание метода 20
2.2. Описание выбранной эталонной выборки 20
2.3. Выделение признаков 21
2.4. Доразметка обучающей выборки 24
2.5. Построение акустической модели 26
2.6. Модель, распознающая произнесенное слово на каждом кадре . 29
2.7. Модель, распознающая короткие последовательности слов ... 31
3. Используемые технологии 34
4. Заключение 35
4.1. Результаты 35
4.2. Сравнение с другими работами 35
Список литературы
В большинстве случаев под распознаванием речи подразумевают преобразование аудио-последовательности записи голоса человека в текстовые данные. Однако, в некоторых случаях использование не только звуковой, но и
видео-информации позволяет улучшить качество распознавания или даже заменить аудио-модели.
Системы основанные на визуальных признаках могут использоваться для
аутентификации [9], реализации интерфейсов ввода информации или управления. Последнее особенно актуально в связи с широким распространением мобильных устройств, использование которых часто происходит в зашумленных
условиях, сильно понижающих качество распознавания аудио-сигнала. Также
данный подход может использоваться в случаях, когда человек по каким-то
причинам не имеет возможности говорить вслух.
Однако распознавание речи, основанное на визуальной информации в общем случае сложнее анализа аудио-сигнала. Человеческая речь содержит порядка 50 фонем (минимальная различимая единица аудио-потока) в то время как по губам возможно различить порядка 10-15 визем (групп визуально
неразличимых фонем). Таким образом, последовательность визем часто может не соответствовать конкретному слову и точность чтения по губам сильно зависит от контекста. Кроме того, даже среди людей говорящих на одном
диалекте соответствие между движениями губ и произнесенными виземами
может очень сильно различаться, что делает почти невозможным построение общей видео-модели распознавания без априорной информации о ”стиле”
движения губ человека.
В данной работе рассматривается проблема распознавания слитной речи
на основе визуальной информации (фактически - чтение по губам) с маленьким словарем и небольшим количеством произнесенных слов на рассматриваемом отрезке видеоряда.
В рамках данной дипломной работы были поставлены и решены следующие задачи:
• Проведен обзор существующих методов в распознавании речи
• Выделены и проанализированы основные этапы работы алгоритмов распознавания речи
• Предложен метод преобразования речи в последовательность слов, основанный только на визуальной информации
• Проведен ряд экспериментов, сравнивающих варианты предложенного
метода между собой и показывающих применимость предложенного подхода.