Введение 4
Постановка задачи 5
1. Обзор существующих методов 6
1.1. Подходы к построению акустической и языковой моделей ... 8
1.1.1. Скрытые марковские модели 8
1.1.2. Нейронные сети 10
1.2. Обзор методов выделения признаков 15
1.2.1. Дескрипторы, основанные на выделении контуров .... 15
1.2.2. Дескрипторы, основанные на анализе значений пикселей 17
1.3. Эталонные выборки 18
2. Предложенный метод 20
2.1. Общее описание метода 20
2.2. Описание выбранной эталонной выборки 20
2.3. Выделение признаков 21
2.4. Доразметка обучающей выборки 24
2.5. Построение акустической модели 26
2.6. Модель, распознающая произнесенное слово на каждом кадре . 29
2.7. Модель, распознающая короткие последовательности слов ... 31
3. Используемые технологии 34
4. Заключение 35
4.1. Результаты 35
4.2. Сравнение с другими работами 35
Список литературы
В большинстве случаев под распознаванием речи подразумевают преобразование аудио-последовательности записи голоса человека в текстовые данные. Однако, в некоторых случаях использование не только звуковой, но и
видео-информации позволяет улучшить качество распознавания или даже заменить аудио-модели.
Системы основанные на визуальных признаках могут использоваться для
аутентификации [9], реализации интерфейсов ввода информации или управления. Последнее особенно актуально в связи с широким распространением мобильных устройств, использование которых часто происходит в зашумленных
условиях, сильно понижающих качество распознавания аудио-сигнала. Также
данный подход может использоваться в случаях, когда человек по каким-то
причинам не имеет возможности говорить вслух.
Однако распознавание речи, основанное на визуальной информации в общем случае сложнее анализа аудио-сигнала. Человеческая речь содержит порядка 50 фонем (минимальная различимая единица аудио-потока) в то время как по губам возможно различить порядка 10-15 визем (групп визуально
неразличимых фонем). Таким образом, последовательность визем часто может не соответствовать конкретному слову и точность чтения по губам сильно зависит от контекста. Кроме того, даже среди людей говорящих на одном
диалекте соответствие между движениями губ и произнесенными виземами
может очень сильно различаться, что делает почти невозможным построение общей видео-модели распознавания без априорной информации о ”стиле”
движения губ человека.
В данной работе рассматривается проблема распознавания слитной речи
на основе визуальной информации (фактически - чтение по губам) с маленьким словарем и небольшим количеством произнесенных слов на рассматриваемом отрезке видеоряда.
В рамках данной дипломной работы были поставлены и решены следующие задачи:
• Проведен обзор существующих методов в распознавании речи
• Выделены и проанализированы основные этапы работы алгоритмов распознавания речи
• Предложен метод преобразования речи в последовательность слов, основанный только на визуальной информации
• Проведен ряд экспериментов, сравнивающих варианты предложенного
метода между собой и показывающих применимость предложенного подхода.
[1] Benedikt Lanthao. Facial Motion: a novel biometric?— 2010.
[2] CUAVE: A new audio-visual database for multimodal human-computer interface research / E. K. Patterson, S. Gurbuz, Z. Tufekci, J. N. Gowdy // In Proc. ICASSP. — 2002. — P. 2017-2020.
[3] Christoph Bregler Yochai Konig. “EIGENLIPS” FOR ROBUST SPEECH RECOGNITION. - 1994.
[4] Cookea Martin, Jon Barker Stuart Cunningham Xu Shao. An audio¬visual corpus for speech perception and automatic speech recognition. —
2006. — URL: http://laslab.org/upload/an_audio-visual_corpus_for_ speech_perception_and_automatic_speech_recognition.pdf.
[5] Cootes T. F., Edwards G., Taylor C.J. Comparing Active Shape Models with Active Appearance Models. — 1999. — P. 173-182.
[6] Dropout: A Simple Way to Prevent Neural Networks from Overfitting / Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky et al. // Journal of Machine Learning Research.— 2014.— Vol. 15.— P. 1929-1958.— URL: http://jmlr.org/papers/v15/srivastava14a.html.
[7] Exploring the Limits of Language Modeling / Rafal Jozefowicz, Oriol Vinyals, Mike Schuster et al. // CoRR. — 2016. — Vol. abs/1602.02410. — URL: http: //arxiv.org/abs/1602.02410.
[8] Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition / Hasim Sak, Andrew W. Senior, Kanishka Rao, Franqoise Beaufays // CoRR. — 2015. — Vol. abs/1507.06947. — URL: http: //arxiv.org/abs/1507.06947.
[9] Hassanat Ahmad Basheer. Visual Passwords Using Automatic Lip Reading. —
2014. — Vol. abs/1409.0924. — URL: http://arxiv.org/abs/1409.0924.
[10] Index of AVLetters [HTML].— URL: http://www2.cmp.uea.ac.uk/~bjt/ avletters/.
[11] Index of LiLiR [HTML]. — URL: http://www.ee.surrey.ac.uk/Projects/ LILiR/datasets.html.
[12] Ioffe Sergey, Szegedy Christian. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // CoRR. — 2015. — Vol. abs/1502.03167.— URL: http://arxiv.org/abs/1502.03167.
[13] Jackson Donald A. Stopping rules in principal component analysis: a comparison of heuristical and statistical approaches. — 1993.
[14] Jacobs David. Correlation and Convolution // Class Notes for CMSC 426. — 2016.— URL: http://www.cs.umd.edu/~djacobs/CMSC426/Convolution. pdf.
[15] Jendoubi Siwar, Yaghlane Boutheina Ben, Martin Arnaud. Belief Hidden
Markov Model for speech recognition // CoRR. — 2015. — Vol.
abs/1501.05530. — URL: http://arxiv.org/abs/1501.05530.
[16] John Garofolo Lori Lamel William Fisher Jonathan Fiscus David Pallett Nancy Dahlgren Victor Zue. TIMIT Acoustic-Phonetic Continuous Speech Corpus. — URL: https://catalog.ldc.upenn.edu/LDC93S1.
[17] Kazemi Vahid, Sullivan Josephine. One Millisecond Face Alignment with an Ensemble of Regression Trees // CVPR. — 2014.
[18] Le Thai Hoang, Vo Truong Nhat. Face Alignment Using Active Shape Model And Support Vector Machine // CoRR.— 2012.— Vol. abs/1209.6151. — URL: http://arxiv.org/abs/1209.6151.
[19] Mark Gales Steve Young. The Application of Hidden Markov Models in Speech Recognition.— 2008.— URL: http://mi.eng.cam.ac.uk/~mjfg/ mjfg_NOW.pdf.
[20] Mehryar Mohri Fernando Pereira Michael Riley. Weighted Finite-State Transducers in Speech Recognition.— 2001.— URL: http://www.cs.nyu. edu/~mohri/pub/csl01.pdf.
[21] Ossama Abdel-Hamid Abdel-rahman Mohamed Hui Jiang Gerald Penn. Applying convolutional neural networks concepts to hybrid nn-hmm model for speech recognition.
[22] Palecek Karel. Extraction of Features for Lip-reading Using Autoencoders. —
2005.
[23] Sak Hasim, Senior Andrew W., Beaufays Franqoise. A Novel Motion Based Lip Feature Extraction for Lip-reading. — 2008. — URL: http://www.comp.hkbu. edu.hk/~ymc/papers/conference/cis08_publication_version.pdf.
[24] Sak Hasim, Senior Andrew W., Beaufays Franqoise. Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition // CoRR. — 2014. — Vol. abs/1402.1128. — URL: http://arxiv. org/abs/1402.1128.
[25] Sridharan Ramesh. HMMs and the forward-backward algorithm. — 2010. — URL: http://people.csail.mit.edu/rameshvs/content/hmms.pdf.
[26] Sutskever Ilya, Vinyals Oriol, Le Quoc V. Sequence to Sequence Learning with Neural Networks // CoRR.- 2014.- Vol. abs/1409.3215. - URL: http: //arxiv.org/abs/1409.3215.
[27] Timothy F. Cootes Gareth J. Edwards Christopher J. Taylor. Active Appearance Models. — 2008. — URL: http://www.comp.hkbu.edu.hk/~ymc/ papers/conference/cis08_publication_version.pdf.
[28] Timothy F. Cootes Gareth J. Edwards Christopher J. Taylor. Improving
Visual Features for Lip-reading.— 20111.— URL: https://pdfs.
semanticscholar.org/6778/68449c6b05a3df45d25a18f9782550b69661. pdf.
[29] Toth Laszlo. Convolutional Deep Maxout Networks for Phone Recognition.— URL: https://pdfs.semanticscholar.org/0a24/ 5098455a6663f922a83d318f7b61d357ab1f.pdf.
[30] Virginia Estellers Jean-Philippe Thiran. Multi-pose lipreading and Audio¬Visual Speech Recognition.— 2012.— URL: http://vision.ucla.edu/ ~virginia/publications/Estelle2012EURASIP.pdf.
[31] Wand Michael, Koutnik Jan, Schmidhuber Jurgen. Lipreading with Long Short-Term Memory // CoRR. 2016.- Vol. abs/1601.08188. - URL: http://arxiv.org/abs/1601.08188.
[32] Wang S. L., Lau W. H., Leung S. H. Automatic Lip Contour Extraction from Color Images // Pattern Recogn.— 2004. —.— Vol. 37, no. 12.— P. 2375-2387.— URL: http://dx.doi.org/10.1016/j.patcog.2004.04. 016.
[33] Xiong Xuehan, la Torre Fernando De. Supervised Descent Method and its Applications to Face Alignment. — 2012.
[34] Yuxuan Lan Richard Harvey, Theobald Barry-John. Insights into machine lip reading.— 2012.— URL: https://pdfs.semanticscholar.org/c573/ c71213b46a2b966546c7b7848b5bbe0536ec.pdf.