Введение 3
1. Теоретические основы идентификации диктора по голосу 5
1.1. Методы извлечения признаков 5
1.2. Основные сведения об ИНС 9
1.3. Применение генетического алгоритма при обучении ИНС 12
2. Модель реализации алгоритма идентификации диктора по голосу 15
2.1. Структура ИНС для распознавания голоса диктора 15
2.2. Алгоритмы обучения ИНС для идентификации диктора по голосу .. 16
2.3 Реализация распознавания диктора с помощью биоинспирированных
методов на языке Java 23
Заключение 28
Список литературы 30
Приложение
Задача распознавания диктора по голосу является актуальной задачей области речевых технологий. Компании желают обезопасить себя от несанкционированного доступа к своей системе. Поэтому для аутентификации пользователей в системе применяются не только символьный пароль, но и различные биометрические данные, такие как отпечатки пальцев, сетчатка глаза, голос. Применение технологии распознавания личности по голосу обусловлено тем, что при этом в большинстве случаев нет необходимости оснащать систему безопасности новым оборудованием: для идентификации диктора по голосу достаточно микрофона.
Наблюдается значительный интерес со стороны научного сообщества в распознавании голоса диктора по специальным и индивидуальным параметрам.
Основными стимулами для изучения и построения моделей распознавания голоса диктора, является увеличение точности и качества идентификации личности. Данная точность достигается путем использования биометрических данных.
Также большой интерес вызывает широкий спектр возможных приложений. Области применения технологий идентификации голоса пользователя связаны прежде всего с обеспечением безопасности и контроля. Например, в таких системах, как банковские счета, каналы связи и т.д.
Существуют и такие области применения, где идентификация личности по голосу очень важна. Сюда можно отнести криминалистическую экспертизу, которая включает в себя следующие процессы: анализ записей переговоров при различных аварийных ситуациях, доказательства в суде, анализ записей переговоров при их санкционированном прослушивании [14].
Целью настоящей работы является изучение и применение биоинспирированных методов для распознавания личности по голосу, создание на их основе математической модели и их практической реализации.
Для достижения поставленной цели требуется решить следующие задачи: описать и реализовать метод извлечения признаков и особенностей голоса человека при помощи мел-частотных кепстральных коэффициентов; описать алгоритм построения и обучения нейронной сети для распознавания диктора по голосу; описать генетический алгоритм для повышения качества работы искусственной нейронной сети; написать приложение, реализующее описанные алгоритмы.
Дипломная работа состоит из введения, двух глав, заключения, списка использованной литературы и приложения. Работа содержит 31 страницу основного текста и 8 рисунков. Список использованной литературы включает 14 наименований.
В работе представлен метод извлечения признаков, называемый методом мэл-частотных кепстральных коэффициентов. Выбор этого метода обусловлен тем, что он является одним из самых распространенных и широко используется как в системах распознавания дикторов, так и в системах распознавания речи. В работе было изложено описание данного метода. Полученные коэффициенты могут быть использованы для распознавания конкретного диктора. Приведены виды активационных функций.
В настоящей выпускной квалификационной работе для решения поставленной задачи была выбрана модифицированная модель стандартного многослойного персептрона. Она состоит из трехсот кластеров, составляющих входной слой многослойного перцептрона и трехсот нейронов на скрытом слое. Количество нейронов на выходном слое соответствует количеству зарегистрированных дикторов. Каждый кластер представляет собой нейронную сеть, состоящую из 12 нейронов на входном и скрытом слоях и одним нейроном на выходном слое.
Для обучения данной искусственной нейронной сети выбрана комбинация методов обратного распространения ошибки и генетического алгоритма. Обучение нейронной сети проходило в два этапа. На первом этапе применялся алгоритм обратного распространения ошибки. Обучение проводилось несколько раз подряд с сохранением всех весовых коэффициентов на каждой итерации. На втором этапе обучение осуществлялось генетическим алгоритмом. При этом исходными данными для генетического алгоритма выступали векторы, составленные из весовых коэффициентов ИНС. В результате выполнения эволюционного процесса выбирался один новый вектор, использование которого обеспечивает наиболее оптимальное функционирование ИНС.
В рамках выпускной квалификационной работы создано приложение на языке Java [10], реализующее описанную выше нейронную сеть и ее обучение. Тестирование проводилось на двух дикторах мужского пола и одном - женского. Было использовано по 6 записей голоса от каждого диктора, три из которых применялись для обучения ИНС, а оставшиеся - для ее тестирования. По результатам тестов было установлено, что сеть хорошо справляется с задачей распознавания зарегистрированных дикторов по голосу. Однако с не зарегистрированными дикторами сеть не справляется.
Таким образом, построенную в работе модель нейронной сети лучше всего использовать как вторую степень защиты при аутентификации пользователей в системе.
1. Матвеев, Ю.Н. Технологии биометрической идентификации личности по голосу и другим модальностям / Ю. Н. Матвеев. Вестник Московского государственного технического университета им. Н.Э. Баумана. 2012. - 146 с.
2. Oppenheim, A. V. Discrete-Time Signal Processing / A.V. Oppenheim, R.W. Schafer. Prentice-Hall, Inc., 1989. - 1120 c.
3. Жук, В. В. Тригонометрические ряды Фурье и элементы теории аппроксимации: Учеб. пособие / В. В. Жук, Г. И. Натансон . - Л.: Изд-во ЛГУ, 1983. - 188 с.
4. Huang, X. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development / X. Huang, A. Acero, H. Hon. Prentice Hall, 2001. - 1008 с.
5. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика. / Ф. Уоссермен. М.: Мир, 1992. - 184 с.
6. Хайкин, С. Нейронные сети: полный курс / C. Хайкин. Издательский дом Вильямс, 2008. - 1103 с.
7. Hebb, D. O. The organization of behavior: a neuropsychological theory. / D.O. Hebb. Psychology Press; New Ed edition, 2002. - 335 с.
8. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы. / Д. Рутковская, М. Пилиньский, Л. Рутковский: Горячая линия - Телеком, 2006. - 452 с.
9. Laurene, V. Fundamentals of Neural Networks: Architectures, Algorithms and Applications. / V. Laurene. Prentice-Hall, Inc., 1993. - 461 с.
10. Bruce, E. Thinking in Java 4th Edition. / E. Bruce. Изд-во Питер, 2016. - 1168 с.
11. Липанов, А. Применение генетического алгоритма для обучения нейронной сети в задаче идентификации СТМизображений. / А. Липанов, А. Тюриков, Е. Шелковников, П. Гуляев: Ползуновский вестн. 2010. № 2. С.217 - 221
12. Батищев Д. Оптимизация многоэкстремальных функций с помощью генетических алгоритмов. / Д. Батищев, С. Исаев: Межвузовский сборник научных трудов "Высокие технологии в технике, медицине и образовании", Воронеж, ВГТУ, 1997г, стр. 4-17.
13. Сибирский государственный аэрокосмический университет им. Академика
М.Ф. Решенева [Электронный ресурс]: / Генетические алгоритмы для формирования нейросетевых моделей. Режим доступа
https://cyberleninka.ru/article/v/geneticheskie-algoritmy-dlya-formirovaniya- neyrosetevyh-modeleyсвободный.
14. Вестник МГЛУ [Электронный ресурс]: / Основные задачи и методы технологий распознавания говорящего по голосу. Режим доступа https://cyberleninka.ru/article/v/osnovnye-zadachi-i-metody-tehnologiy-raspoznavaniya-govoryaschego-po-golosuсвободный.
15. Сорокин В. Распознавание личности по голосу: аналитический обзор / В. Сорокин, В. Вьюгин, А. Тананыкин. Российская академия наук, 2012г, стр. 1 - 30