Введение 3
1. Методы анализа аудиосигналов 4
1.1. Акустические характеристики речи 4
1.2. Обработка и хранение аналоговых и цифровых сигналов 6
1.3. Теоретические основы искусственных нейронных сетей 10
2. Применение искусственных нейронных сетей для анализа
аудиосигналов 20
2.1. Алгоритм анализа аудиосигналов на базе искусственной
нейронной сети 20
2.2. Описание программного обеспечения для реализованного
алгоритма анализа аудиосигналов 25
2.3. Результаты работы программы 27
Заключение 29
Литература
Приложение
Анализ аудиосигналов является востребованным направлением в различных сферах деятельности человека. Например, он может применяться для распознавания и синтеза речи, в задачах робототехники, при поиске шумов сердца в медицине, идентификации личности в криминалистики и др.
В настоящей работе рассматривается задача распознавание некоторых аудио образов, которые представлены речью человека и, в частности, гласными звуками речи.
Для решения данной задачи возможно использовать ряд математических аппаратов, одним из которых является искусственная нейронная сеть (ИНС).
Целью данной работы является изучение методов анализа аудиосигналов, а также реализация одного из вариантов алгоритма распознавания речи.
Для достижения поставленной цели необходимо решить ряд задач:
1) изучить структуру аудио сигнала, а также его цифровое представление;
2) изучить принципы работы и построения ИНС;
3) разработать алгоритм для распознавания аудиосигналов на базе ИНС;
4) реализовать данный алгоритм в программный продукт.
В качестве новизны можно отметить предложенный в работе модифицированный вариант алгоритма работы с нейронными сетями, лежащих в основе системы распознавания элементов речи. Эта модификация позволяет избавиться от некоторых недостатков, присущих сетям с ассоциативной памятью.
Работа объемом 28 листов основного текста состоит из введения, двух частей, заключения, списка используемой литературы, содержащего четырнадцать источников, и приложения.
Аналоговый сигнал, являясь непрерывной функцией по времени, на электронных носителях сохраняется в виде последовательности амплитуд. Значения амплитуд замеряются через равные промежутки времени, образуя при этом дискретный сигнал, либо цифровой, если он квантуется по уровню. Данные таких сигналов могут храниться в файлах-контейнере WAV.
Для решения задач распознавания образов наиболее оптимальным типом сети является сеть Хопфилда. Она отличается высокой точностью получаемых результатов, возможностью переобучения, а также оптимизацией вычислительных затрат. Существенным недостатком такой сети является небольшая емкость памяти, например, возможность запоминания ассоциативных образов ограничена числом нейронов сети.
После нахождение формант на спектре, который находился при помощи алгоритма быстрого преобразования Фурье, производилось приведение вектора формант к виду входного вектора нейросети и её дальнейшее обучение на эталонных образцах. Некоторые недостатки сети привели к модификации алгоритма. Ее суть состоит в том, что создавался комплекс нейронных сетей Хопфилда, которые работают параллельно.
В работе разработана программа, реализующая алгоритм анализа аудиосигналов. Результаты работы программы оправдали ожидания. Нейросеть на базе этого алгоритма смогла распознать элементы речи, на которой ранее обучилась. Также большую роль сыграла ассоциативная память нейросети, что позволило ей справится с зашумленным образом. Модификация алгоритма позволила избавиться от образов «химер», увеличить скорость распознавания, а также снять ограничение на количество запоминаемых образов нейронной сетью Хопфилда.