Тип работы:
Предмет:
Язык работы:


ИССЛЕДОВАНИЕ ПРОСТРАНСТВ ПРИЗНАКОВ И МЕР БЛИЗОСТИ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

Работа №76261

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы93
Год сдачи2018
Стоимость4280 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
258
Не подходит работа?

Узнай цену на написание


Введение
1.1 Современное состояние направления распознавания речевых сигналов 7
1.2 Особенности речеобразования и восприятия речи человеком 13
1.2.1 Речевой аппарат 13
1.2.2 Восприятие речевого сигнала человеком 16
1.3 Методы цифровой обработки сигналов в задачах распознавания
речевых сигналов 23
1.3.1 Спектральный анализ в базисе Фурье 24
1.3.2 Оконный анализ в базисе Фурье 25
1.3.3 Вейвлет анализ 28
1.3.4 Кепстральный анализ 32
1.4 Субполосный подход к обработке речевых сигналов 35
ГЛАВА 2 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ 37
2.1 Акустико-фонетический подход к распознаванию речевых сигналов .. 37
2.2 Вычислительные аспекты субполосного анализа речевых сигналов в
задачах идентификации 41
2.3 Исследование пространств признаков в задачах распознавания речевых
сигналов 47
2.3.1 Декомпозиция сигнала банком фильтров 47
2.3.2 Распределение мгновенных энергий отрезка РС 49
2.3.3 Распределение долей энергии отрезка РС 51
2.3.4 Распределение информационных интервалов отрезка РС 53
2.3.5 Частота переходов через ноль 55
2.3.6 Ширина частотной области, занимаемая сигналом 59
2.3.7 Мел-кепстральные коэффициенты речевого сигнала 63
2.4 Меры близости в задачах распознавания речевых сигналов 66
2.4.1 Евклидово расстояние 66
2.4.2 Среднеквадратическое отклонение 67
2.4.3 Расстояние Махаланобиса 67
2.4.4 Корреляция последовательностей 68
2.4.5 Динамическая трансформация временной шкалы 69
ГЛАВА 3 ИССЛЕДОВАНИЕ ПРИГОДНОСТИ ПРЕДСТАВЛЕНИЙ
РЕЧЕВЫХ СИГНАЛОВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ 72
3.1 Методика оценки методов распознавания речевых сигналов 72
3.2 Исследование подходов к распознаванию речевых сигналов 78
ЗАКЛЮЧЕНИЕ 87
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 89

По мере развития компьютерных систем, в современном мире, становится все более очевидным, что использование этих систем в повседневной деятельности человека будет расширяться. Немаловажным фактором, для развития компьютерных систем является возможность использования человеческой речи как интерфейса для работы с компьютером: управление персональным компьютером голосом в реальном времени, а также ввод и вывод информации в виде устной речи.
В настоящий момент, повсеместно, ведутся работы по созданию систем обработки устной речи, среди которых особенное место занимает распознавание речи. Система распознавания речи получает информацию об акустических колебаниях воздуха через микрофон, сравнивает полученные данные с имеющимися в системе и, в случае совпадения идентифицирует участок сигнала. Для учета вариативности и обучения моделей фонем и слов требуются большие объемы текста и речевого материала, подготовка которых требует огромных трудозатрат. Современные системы распознавания обучения на ограниченных речевых корпусах обладают рядом недостатков.
Сегодня существуют два основных вида технологий распознавания речи. Один из них — это распознавание речи, зависящей от диктора, т. е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй — это распознавание речи, не зависящее от диктора, т. е. система способна распознать любую речь, независимо от того, кто говорит. Системы распознавания изолированных слов работают с дискретными словами — в этом случае требуется пауза между словами.
Существующие системы распознавания созданы для работы с английским, немецким, испанским и другими популярными языками и малоприменимы в работе с русской речью. Это связано с тем, что русский язык принципиально отличается от других языков не только фонетически, но и свободным порядком слов в предложении, что значительно усложняет математическое языковой модели. Важной задачей при разработке систем распознавания речи, является выделение таких признаков, которые бы обладали 1) свойством инвариантности на отрезках, полученных при произнесении одних и тех же звуков русской речи, 2) и вариативности на отрезках, содержащих разные звуки. Кроме того, требуются подходы к сравнению данных признаков - т.е. определение адекватных мер близости.
В основе многих из разработанных подходов [25,26,49,50] используются частотные представления, так как порождаемые звуками речи отрезки РС обладают свойством концентрации энергии в достаточно узких полосах частотной оси. В связи с этим можно упомянуть рассматриваемое в литературных источниках разбиение частотной полосы на так называемые критические полосы слуха, которые опосредованно отражаются на частотных свойствах РС.
Необходимо отметить, что предлагаемые в настоящее время методы распознавания РС на основе анализа их частотных свойств, в качестве признакового пространства, либо не отражают свойства концентрации энергии, либо недостаточно точно отображают характер изменения энергии в речевом сигнале.
Целью работы является определение важных, с точки зрения решения задачи распознавания речи - признаков речевых сигналов и мер их близости.
1. Для достижения цели необходимо решить следующие задачи:
2. Проанализировать особенности обработки речевых сигналов в задачах распознавания речи;
3. Изучить существующие методы представления речевых сигналов в задачах распознавания и провести их сравнительный анализ;
4. Изучить меры близости, применяемые для сравнения признаков речевых сигналов в системах распознавания речи;
5. Определить важные характеристики речевого сигнала.
для задачи распознавания речи


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе выполнения выпускной квалификационной работы было выявлено, что наиболее подходящими для задач распознавания признаками являются такие признаки, которые отражают свойства концентрации энергии и учитывают особенности восприятия слуха человека для получения адекватного природе речевого воздействия частотного разбиения. Данными признаками являются: мел-кепстральные коэффициенты и распределение информационных интервалов речевого сигнала.
Проведен анализ особенностей обработки речевых сигналов в задачах распознавания речи: приведены концептуальные схемы распознавания, даны сведения о восприятии и воспроизведении звука человеком. Изучены существующие методы представления речевых сигналов в задачах распознавания: частотные (например, частотное распределение) и временные (например, частота перехода сигнала через ноль) представления, проведен их сравнительный анализ. Для получения некоторых признаков (декомпозиция сигнала по банку фильтров, распределение мгновенных энергий, распределение долей энергии, распределение информационных интервалов) использовался субполосный подход, который позволяет точно выделять распределение долей энергий по частотным интервалам с минимальным просачиванием.
Изучены меры близости, применяемые для сравнения признаков: евклидово расстояние, среднеквадратическое отклонение, расстояние Махаланобиса, корреляция, динамическая трансформация временной шкалы. Наиболее подходящими для задач распознавания речевых сигналов являются:
динамическая трансформация временной шкалы; среднеквадратическое отклонение; евклидово расстояние.
Проведен сравнительный анализ применения различных мер близости и векторов признаков который показал, что наиболее пригодными, для задач



1. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов [Текст]/ А.В. Аграновский, Д.А. Леднов - М.: Радио и связь, 2004. - 164 с.
2. Алдошина, И.А. Слуховые модели восприятия линейных и нелинейных искажений в музыке и речи. Часть1 [Текст] / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». - 2006. - №3. - С.38-44.
3. Ананьев, Б. Г. Теория ощущений. — Л., 1961. — С. 579. — 928 с.
4. Вапник, В. Н. Теория распознавания образов [Текст] / Вапник В. Н., Червоненкис А. Я. / М.: Наука, 1974
5. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых сигналов [Текст]/ Винцюк Т.К. - Киев: Наук.думка, 1987. - 264с.
6. Воеводин, В.В. Матрицы и вычисления [Текст] / В.В. Воеводин, Ю.А. Кузнецов. - М.: Наука, 1984. - 318 с.
7. Воронцов К.В. Математические методы обучения по прецедентам [Текст]/ материалы лекций МФТИ - М., 2008
8. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов [Текст] / А.В.Герасимов, О.А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. - 2005. - том 50. №10. - С. 1287-1292.
9. Гребнов, С.В. Аналитический обзор методов распознавания речи в системах голосового управления [Текст]/ С.В. Гребнов // Вестник ИГЭУ. - 2009. - Вып.3. - С.83-85.
10. Гривен, В.Г. Введение в Вейвлет преобразование / АВТЭКС, Санкт- Петербург, 2009, С. 302
11. Губочкин, И.В. Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования [Текст]: автореф. дис. канд. техн наук / И.В. Губочкин - Нижний Новгород: НГЛУ, 2011. - 22с.
12. Гудонавичюс, Р.В. Распознавание речевых сигналов по их структурным свойствам [Текст]/Р.В. Гудонавичюс, П.П. Кемешис, А.Б. Читавичюс - Л.: «Энергия», 1977. - 64 с.
13. Деркач, М.Ф. Динамические спектры речевых сигналов [Текст]/ М.Ф. Деркач, Р.Я. Гумецкий, Б.М. Гура, М.Е. Чабан - Львов: Виша школа. Изд- во при Львов. ун-те, 1983. - 168 с.
14. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. [Текст] / Е.Г. Жиляков. - Белгород: Изд-во БелГУ, 2007. - 160 с.
15. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений [Текст]/ Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. - Белгород: Изд-во БелГУ, 2007. - 136 с.
16. Жиляков, Е.Г. Модели распределения энергии звуков русской речи на основе частотных представлений [Текст] / Е.Г. Жиляков, А.В. Болдышев, А.А. Фирсова// XXIII Международной научной конференции Математические методы в технике и технологиях - Саратов. - 2010. - С.236-239.
17. Жиляков, Е.Г. Частотный анализ речевых сигналов [Текст] / Е.Г. Жиляков, Е.И. Прохоренко // Научные ведомости Белгородского государственного университета. Сер. Информатика и прикладная математика - 2006. - №2(31), выпуск 3. - С.201-208.
18. Засыпкин, А.В. О дикторонезависимой системе голосового телефонного номеронабирателя [Текст] / А.В. Засыпкин, А.Т. Мицевич, М.В. Овецкий, В.Ю. Шелепов// Труды международной конференции “Знание- Диалог-Решение”. - Ялта. - 1995. - С.427-430.
19. Кавальчук, А.Н. (2011), "Формула для перехода из области частот к шкале барков и обратно," А.Н. Кавальчук, Ал.А. Петровский // Информатика, 2011, 4(32), стр. 71-81
20. Каганов, А.Ш. Криминалистическая экспертиза звукозаписей. - М.: "Юрлитинформ", 2005. - 272с.
21. Кипяткова И.С. Автоматическая обработка разговорной русской речи: монография / И.С. Кипяткова , А.Л. Ронжин, А.А. Карпов. СПИИРАН - СПб.: ГУАП, 2013. - 314 с.
22. Колерс, П.А. Распознавание образов. Исследование живых и автоматических распознающих систем [Текст]/ П.А. Колерс, Е.Д. Мюрей, пер. Л.И. Титомира - М.: «Мир», 1970. - 288 с.
23. Ле, Н.В. Распознавание речи на основе искусственных нейронных сетей [Текст] / Н.В. Ле, Д.П. Панченко // Технические науки в России и за рубежом: материалы междунар. заоч. науч. конф.- Москва. - 2011. - С.8-11.
24. Леонович, А.А. Современные технологии распознавания речи [Текст] /А.А. Леонович // Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». - Звенигород. - 2005.
25. Ли, У.А. Методы автоматического распознавания речи. [Текст] В 2¬х книгах. Кн.1. / Пер. с англ./Под ред. У.Ли. - М.; Мир, 1983. -328 с.
26. Ли, У.А., Методы автоматического распознавания речи. [Текст] В 2¬х книгах. Кн.2. /Пер. с англ. Под ред. У.Ли. - М.; Мир, 1983. - 392 с.
27. Мазуренко, И.Л. Компьютерные системы распознавания речи [Текст] / И.Л. Мазуренко // Интеллектуальные системы. - Москва. - 1998. - т.3. вып. 1-2. - С.117-134.
28. Мазуренко, И.Л. Одна модель распознавания речи [Текст] / И.Л. Мазуренко // Компьютерные аспекты в научных исследованиях и учебном процессе. - Москва - 1996 - С.107-112.
29. Малла, С. Вэйвлеты в обработке сигналов [Текст] / М.: Мир, 2005. — 672 с.
30. Ниценко, А.В. Алгоритмы пофонемного распознавания слов наперед заданного словаря [Текст] / А.В. Ниценко, В.Ю. Шелепов // Искусственный интеллект. - 2004. - С.633-639.
31. Оппенгейм А. В., Шафер Р. В. Цифровая обработка сигналов: Пер. с англ./Под ред. С. Я. Шаца. — М.: Связь, 1979. 416 с., ил.
32. Рабинер, Л. Теория и применение цифровой обработки сигналов [Текст] / Л.Рабинер, Б.Гоулд - М.: Мир, 1978. - 848с.
33. Рабинер, Л.Р. Цифровая обработка речевых сигналов [Текст] / Л.Р. Рабинер, Р.Ф. Шафер - М.: Радио и связь, 1981. - 496 с.
34. Сергиенко А.Б. Цифровая обработка сигналов. 2 - изд. - СПб.: Питер, 2006. - 608 с.
35. Сорокин, В.Н. Артикуляторно-ориентированная система распознавания речи [текст] / В.Н. Сорокин, А.Н. Ижнин, А.И. Цыплихин, Д.Н. Чепелев // Труды Международного семинара «Диалог - 2003». - 2003. С.657¬662.
36. Смоленцев, Н. К. Введение в теорию вейвлетов [Текст] /Ижевск: РХД, 2010. — 292 с.
37. Сорокин, В.Н. Сегментация и распознавание гласных [Текст] / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. - 2004. - Т.4, №2. - С. 202-220.
38. Сорокин, В.Н. Теория речеобразования [Текст] / В.Н. Сорокин - М.: Радио и связь, 1985. - 312 с.
39. Фланаган, Дж. Л. Анализ, синтез и восприятие речи [Текст]/ пер.с англ. А.А. Пирогова. - М.:Связь, 1968. - 397с.
40. Чистович, Л.А. Физиология речи. Восприятие речи человеком [Текст] /Л.А. Чистович, А.И. Венцов, М.П. Гранстрем и др. - М.: Наука, 1976. - 388 с.
41. Шелепов, В.Ю. К проблеме пофонемного распознавания [Текст] /
B. Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. - 2005. - №4. -
C. 662-668.
42. Шелухин, О.И. Цифровая обработка и передача речи [Текст] / О.И. Шелухин, Н.Ф.Лукьянцев; под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456с.
43. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004.
44. Allen, J.B., "How Do Humans Process and Recognize Speech?," IEEE Trans. On Speech and Audio Processing, 1994, 2(4), pp. 567-577.
45. Al-Naymat Ghazi, Chawla Sanjay, Taheri Javid “Sparse DTW: A novel approach to speed up Dynamic Time Warping” Proc. of the 8th Australasian Data Mining Conference (AusDM'09) p. 117-127; (2009)
46. Bishop, C. M. Pattern Recognition and Machine Learning. — Springer, Series: Information Science and Statistics, 2006. — 740 pp
47. Dong Yu Automatic Speech Recognition: a deep learning approach (Signals and Communication Technology) / Springer; 2015 edition (November 11, 2014), p. 321
48. Eamonn J. Keogh, Michael J. Pazzani Derivative Dynamic Time Warping, Section 1Proceedings of the sixth ACM SIGKDD, 2010
49. Giannakopoulos T. Introduction to Audio Analysis: A Matlab Approach 1stEdition / Theodoros Giannakopoulos, Aggelos Pikrakis / Academic Press; 1 edition (April 21, 2014), p. 288
50. Huang X.D. Spoken Language Processing: A Guide to Theory, Algorithm and System Development [Text]/ Xuedong Huang, Alex Acero, Hsiao- Wuen Hon/ Prentice Hall PTC, New Jersey, 2001
51. Mahalanobis, Prasanta Chandra (1936). «On the generalised distance in statistics». Proceedings of the National Institute of Sciences of India 2 (1): 49-55.
52. Stevens, Stanley Smith; Volkmann; John; & Newman, Edwin B. (1937). "A scale for the measurement of the psychological magnitude pitch". Journal of the Acoustical Society of America 8 (3): 185-190.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ