Аннотация 2
Введение 5
1. Постановка задачи 6
2. База данных 7
2.1. Вектор признаков 7
2.2. Вектор меток 13
3. Определение искусственной нейронной сети 14
4. Нейронная сеть 18
5. Оптимизация 24
6. Метрики точности классификации 29
7. Результаты работы алгоритма 31
Заключение 33
Список использованных источников и литературы 34
Приложение А Результаты работы первой модели без слоев исключения 35
Приложение Б Результаты работы первой модели со слоями исключения 37
Приложение В Результаты работы итоговой модели с оптимизатором SGD 39
Приложение Г Результаты работы итоговой модели с оптимизатором Adam 40
Приложение Д Результаты работы итоговой модели с оптимизатором Adadelta 41
Машинное обучение уже применяется практически во всех сферах деятельности человека (робототехника, маркетинг, безопасность, медицина т.д.). Сегодня человек работает бок о бок с компьютером, который делает жизнь первого, намного комфортнее и безопаснее.
Чтение по губам— понимание речи через наблюдение за артикуляцией говорящего. Это - полезный навык, а для людей с нарушением слуха необходимый. Полезный навык в решении проблем, когда окружающий шум или расстояние не дает расслышать речь собеседника. А тратить время на обучение человек не хочет или не может. Например лекции в аудиториях рассчитанных на большое количество студентов, в публичных местах, экскурсии и т.д. Для людей с нарушением слуха - необходимы медицинские слуховые аппараты. Для видео хостингов чтение по губам вкупе с распознаванием речи по аудиозаписи, поможет лучше определять произносимые человеком слова при плохой записи звука. Также стоит отметить, что человек, как бы хорошо обучен не был, будет уступать в точности и скорости машине.
В ходе работы были рассмотрены и реализованы наиболее популярные методы извлечения признаков из изображений и составлены нейронные сети работающие с допустимой ошибкой. Создана и размечена собственная малая база видеозаписей, достаточная для разработки всех компонентов алгоритмов, но не для полноценного обучения. Подготовлены данные для обучения и тестирования модели, с помощью функции разделения видеозаписи на кадры. Определены наиболее эффективные методы оптимизации процесса обучения. В результате удалось достичь 100% точности у модели по определению букв и достаточно минимальной ошибки у модели определения очертаний губ. Изучен способ борьбы с переобучением (слои исключения) и опробован на одной из моделей. Проведен качественный и сравнительный анализ полученных результатов. Ссылка на код приведен в списке использованной литературы [5].
В этой работе для написании нейронной модели и её обучения мне понадобились такие дисциплины как теория вероятностей и математическая статистика, математический анализ и дифференциальные уравнения, а также изучена дополнительная литература.