Тип работы:
Предмет:
Язык работы:


Анализ эффективности системы CMUSphinx

Работа №131727

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы20
Год сдачи2016
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
13
Не подходит работа?

Узнай цену на написание


Введение 4
1. Основные понятия 5
1.1. Структура речи 5
1.2. Распознавание 6
1.3. Модели, соответствующие структуре речи 6
1.4. Используемая метрика 7
2. Обзор существующих систем 8
2.1. HTK 8
2.2. CMUSphinx 8
2.3. Kaldi 8
2.4. Julius 9
3. Система CMUSphinx 10
3.1. FrontEnd 10
3.2. Linguist 11
3.3. Decoder 12
4. Эксперименты 13
4.1. Экспериментальные данные 13
4.1.1. EUSTACE 13
4.1.2. Santa Barbara Corpus of Spoken American English 13
4.2. Эксперименты 13
5. Результаты 15
6. Заключение 17
Список литературы 18

Автоматическое распознавание речи представляет собой актуальную задачу, связанную с множеством различных приложений, таких как, например, голосовое управление, автоматическая генерация субтитров к видеоматериалам, перевод аудиозаписи
в текст и т.п. При этом качество аудиозаписи может сильно разниться в зависимотсти
от формата. Записи спонтанной речи часто сопровождаются шумом от окружающей
обстановки и звукозаписывающей аппаратуры. Например, записи с различного рода
конференций содержат не только речь докладчика, но и звуки разговоров на фоне,
звуки передвигаемой мебели, иногда помехи микрофона и т.п. Кроме того говорящий
может запинаться, менять темп речи. Так как эти факторы влияют на восприятие
речи человеком, естественно, что они же будут влиять и на автоматическое распознавание.
В данной работе под качеством аудиозаписи подразумеваются:
• наличие/отсутствие шума на аудиодорожке и его уровень,
• речевые особенности говорящих.
Шум может быть связан с аппаратурой, используемой при записи. У микрофонов
есть собственный уровень шума, кроме него качество записи звука уменьшается при
отсутствии защиты микрофона: поп-фильтров, звукозаглушающих решёток,– так как
кроме речи записывается звук дыхания. Шумы могут исходить от окружающей обстановки. Например, если одновременно говорят несколько человек, понять речь хотя
бы одного довольно сложно. Также распознавание речи затрудняют речевые дефекты
(сигматизмы, ротацизм), акцент говорящего. Наиболее распространёнными оказываются записи, сочетающие несколько из вышеперечисленных факторов.
Системы распознавания речи нередко обучают и тестируют на данных с минимальным уровнем шума, как, например, HUB-4 [1,6] или TIMIT [2,3], и дикторским
произношением (HUB-4 или AN4 [5]). При этом естественно возникает вопрос: каково
качество распознавания данных более низкого качества у таких систем? В данной
работе будет исследоваться система распознавания речи CMUSphinx [4,5], развивающаяся уже несколько десятилетий. Необходимо исследовать, насколько эффективно
данная система будет работать с данными, более приближенными к реальной жизни: зашумлённые записи, спонтанная речь. Под эффективностью будет пониматься
точность распознавания речи (WER - Word Error Rate)


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В перспективе имеется приложение использовать тексты, полученные в результате
распознавания речи какой-либо системой, для автоматической обработки (например,
для поиска). Для этого система распознавания речи должна обладать достаточно
высокой точностью. В данной работе была рассмотрена система CMUSphinx, обладающая высокими показателями точности на данных высокого качества (как показано
в [5]). Показатели WER для слабозашумлённых данных (корпус EUSTACE) оказались близки к 30%, что является препятствием для эффективной автоматической
обработки текста. Результаты WER для зашумлённых и сильнозашумлённых данных с разнообразными речевыми особенностями говорящих (Santa Barbara Corpus of
Spoken American English) – почти 50% – являются неприемлемо высокими и делают автоматическую обработку полученных текстов бессмысленными. Таким образом,
необходимо производить дополнительную обработку аудиосигнала для уменьшения
уровня шума. При этом во всех аудиозаписях оказались улучшены результаты WER
при адаптации акустической модели, что свидетельствует о состоятельности методов
адаптаций применительно к данным различного качества.


[1] John S. Garofolo, Jonathan G. Fiscus, William M. Fisher. Design and preparation of the 1996 HUB-4 broadcast news benchmark test corpora. 1997
[2] Garofolo J. S., Lamel L. F., Fisher W. M., Fiscus J. G., Pallett D. S. DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1. 1993
[3] P. J. Moreno, R. M. Stern. Sources of degradation of speech recognition in the telephone network. 1994
[4] CMU Sphinx Project by Carnegie Mellon University. http://cmusphinx.sourceforge.net/
[5] Walker, Lamere, Kwok, Raj, Singh, Gouvea, Wolf, Woelfel. Sphinx-4: A Flexible Open Source Framework for Speech Recognition. 2004
[6] Placeway, Chen, Eskenazi, Jain, Parikh, Raj, Ravishankar, Rosenfeld, Seymore, Siegler, Stern, Thayer. The 1996 Hub-4 Sphinx-3 System
[7] K. -F. Lee. Context-dependent phonetic hidden Markov models for speaker¬independent continuous speech recognition. 1990
[8] George E. Dahl, Dong Yu, Li Deng, Alex Acero. Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition. 2011
[9] Luciana Ferrer, Yun Lei, Mitchell McLaren, Nicolas Scheffer. Spoken language recognition based on senone posteriors. 2014
[10] C. -H. Lee, B. -H. Juang, F. K. Soong, L. R. Rabiner. Word recognition using whole word and subword models. 1989
[11] Sohn, Kim, Sung. A Statistical Model-Based Voice Activity Detection. 1999
[12] T. Hughes, K. Mierle. Recurrent neural networks for voice activity detection. 2013
[13] Alan V. Oppenheim, Ronald W. Schafer. From Frequency to Quefrency: A History of the Cepstrum. 2004
[14] Shreya Narang, Ms. Divya Gupta. Speech Feature Extraction Techniques: A Review. 2015
[15] Jing Dong, Dongsheng Zhou, Qiang Zhang. Robust Feature Extraction Based on Teager-Entropy and Half Power Spectrum Estimation for Speech Recognition. 2015
[16] HTK Speech Recognition Toolkit. http://htk.eng.cam.ac.uk/
[17] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kersha, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Anton Ragni, Valtcho Valtchev, Phil Woodland, Chao Zhang. The HTK Book (for HTK Version 3.5, documentation alpha version). 2015
[18] Kaldi ASR. http://kaldi-asr.org/
[19] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, Jan Silovsky, Georg Stemmer, Karel Vesely. The Kaldi Speech Recognition Toolkit. 2011
[20] Open-Source Large Vocabulary CSR Engine Julius. http://julius.osdn.jp/en_index.php
[21] Akinobu Lee, Tatsuya Kawahara. Recent Development of Open-Source Speech Recognition Engine Julius. 2009
[22] Edinburgh University Speech Timing Archive and Corpus of English. http://www.cstr.ed.ac.uk/projects/eustace/index.html
[23] Santa Barbara Corpus of Spoken American English. http://www.linguistics.ucsb.edu/research/santa-barbara-corpus
[24] Du Bois, John W., Wallace L. Chafe, Charles Meyer, Sandra A. Thompson, Robert Englebretson, and Nii Martey. 2000-2005. Santa Barbara corpus of spoken American English, Parts 1-4. Philadelphia: Linguistic Data Consortium.
[25] L. R. Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. 1989
[26] http://musslap.zcu.cz/en/acoustic-speech-synthesis/
[27] C. J. Leggetter, P. C. Woodland. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. 1995
[28] Ye-Yi Wang, Alex Acero, Ciprian Chelba. Is word error rate a good indicator for spoken language understanding accuracy. 2003
[29] S. J. Young, N. H. Russell, J. H. S. Russell. Token passing: A simple conceptual model for connected speech recognition systems. 1989
[30] C. J. Leggetter, P. C. Woodland. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. 1995
[31] Michiel Bacchiani, Michael Riley, Brian Roark, Richard Sproat. MAP adaptation of stochastic grammars. 2006
[32] Liang Lu, Arnab Ghoshal, Steve Renals. Maximum a posteriori adaptation of subspace gaussian mixture models for cross-lingual speech recognition. 2006
[33] Ziad Al Bawab. An Analysis-by-Synthesis Approach to Vocal Tract Modeling for Robust Speech Recognition. 2009
[34] Xiang Li. Combination and Generation of Parallel Feature Streams for Improved Speech Recognition. 2005
[35] Jon P. Nedel. Duration Normalization for Robust Recognition of Spontaneous Speech via Missing Feature Methods. 2004
[36] Michael L. Seltzer. Microphone Array Processing for Robust Speech Recognition. 2003
[37] Balakrishnan Narayanaswamy. Improved Text-Independent Speaker Recognition using Gaussian Mixture Probabilities. 2005
[38] C. Allauzen, M. Riley, J. Schalkwyk, W. Skut, and M. Mohri. OpenFst: a general and efficient weighted finite-state transducer library. 2007
[39] S. Matsunaga, H. Sakamoto. Two-pass strategy for continuous speech recognition with detection and transcription of unknown words. 1996
[40] http://musslap.zcu.cz/en/acoustic-speech-synthesis/


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ