Введение 4
Глава 1. Задача автоматического распознавания эмоций: обзор существующих подходов 6
1.1. Задача распознавания эмоций: подходы и решения 6
1.2. Обзор научной литературы 7
1.3. Выводы по главе 1 24
Глава 2. Получение речевого материала для задачи автоматического распознавания эмоций 25
2.1. Обоснование выбора перечня эмоций 25
2.2. Обоснование списка фраз 31
2.3. Описание изначального набора данных 36
2.4. Перцептивный эксперимент 38
2.4.1. Результаты перцептивного эксперимента 41
2.5. Предобработка 45
2.5.1. Алгоритм преобразования аудио-файла в спектрограмму 45
2.5.2. Алгоритм преобразования аудио-файла в мел-спектрограмму 46
2.5.3. Предобработка аудио-файла. Графики Основного тона 48
2.5.3.1. Предобработка изображения 57
2.5.4. Организация и хранение фалов 58
2.6. Описание набора данных 62
2.7. Выводы по главе 2 64
Глава 3. Реализация сверточной нейронной сети 65
3.1. Теория и топология сверточной нейронной сети 65
3.2. Средства реализации и окружение 66
3.3. Реализация и обучение нейронной сети 66
3.4. Реализация системы классификации эмоций 68
3.5. Выводы по главе 3 72
Заключение 73
Список литературы 75
Приложения 83
Приложение А. Список фраз 83
Приложение Б. Списки фраз для дикторов 88
Приложение В. Тест п методике Н. Холла 93
Данная работа посвящена вопросам создания систем распознавания эмоций по голосу с использованием нейросетевых технологий.
Системы распознавания эмоций по голосу и речи с использованием нейросетевых технологий набирают популярность, поскольку данные технологии направлены на разработку систем, совершенствующих человеко-машинное взаимодействие. При проектировании подобных систем разработчики и исследователи сталкиваются с рядом проблем: какую выбрать модель и структуру нейронной сети; какие данные подавать на вход. Главное отличие человека от машины заключается в том, что человеку информация подается по нескольким каналам: изображение, звук, текст. Также, важную роль для интерпретации эмоции играет контекст. Мультимодальные системы, получающие на вход информацию по нескольким каналам, позволяют более точно распознавать и классифицировать эмоции. На данный момент высокой точности достигла обработка визуальных данных, например, распознавание лиц и распознавание эмоций по лицу.
Задачу распознавания эмоций можно отнести к задаче классификации, которая на данный момент является важной областью применения нейронных сетей.
Объектом данного исследования является распознавание негативных эмоций по голосу с использованием нейросетевых технологий.
Предмет исследования - особенности реализации системы по распознаванию эмоций с использованием нейросетевых технологий .
Целью исследования является разработка системы распознавания негативных эмоций с использованием нейросетевых технологий.
Для достижения цели были поставлены и решены следующие задачи, перечисленные ниже.
1. Определение перечня эмоций для данной задачи на основе научной литературы и составление списка фраз, соответствующих данным эмоциям.
2. Проведение записи дикторов.
3. Формирование обучающего набора данных.
4. Проведение перцептивного эксперимента.
5. Определение основных нейросетевых подходов, которые применяются для решения задач распознавания эмоций по речи, и выбор подходящей методики.
6. Реализация алгоритма предобработки исходных файлов, т.е. преобразования исходного аудиофайла в изображение для подачи на вход нейронной сети.
7. Подготовка обучающей и тестовой выборки.
8. Реализация, обучение и тестирование нейронной сети.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, библиографии и приложений. Объем работы составляет 96 страниц, объем библиографии - 80 наименований.
В первой главе приведено описание предметной области, в рамках которой выполнена данная работа. Проводится обзор аналогичных разработок и способов решения поставленной задачи.
Во второй главе описана теоретическая составляющая: рассмотрены классификации эмоций, и обозначен перечень эмоций, включенный в исследование. Описан процесс записи набора данных и предобработка полученного материала. Представлена организация и результаты перцептивного эксперимента.
В третьей главе описаны топология нейронной сети, средства разработки, тестирование нейронной сети и полученные результаты.
В заключении представлены основные результаты выполненной работы.
В рамках данной работы была разработана система, которая позволяет классифицировать негативные эмоции с использованием нейросетевых технологий. При этом были решены следующие задачи:
1. Записан уникальный набор речевых данных. Были записаны 72 диктора мужского пола, в возрасте от 20 до 60 лет. После обработки записанного материала в общий корпус вошли 1 442 аудио-фрагмента общей продолжительностью 1 час 17 минут. В общий перечень эмоций данного исследования вошли: страх, раздражение, удивление, печаль, отвращение, радость, презрение, нейтральность, ехидство.
2. Проведен перцептивный эксперимент. Участие приняли 14 респондентов в возрасте от 23 до 74 лет. В результате перцептивного эксперимента начальный набор данных сократился до 646 аудио-фрагментов, общей продолжительностью 30 минут 43 секунды.
3. На основе исследования научной литературы выбрана методика обработки речевых данных. В связи с тем, что было принято решение о реализации сверточной нейронной сети, на вход которой подаются изображения, необходимо было преобразовать аудио-фрагменты в изображения. Было принято решение преобразовать каждый аудио-фрагмент в три типа изображений: изображение графика основного тона, спектрограмму и мел-спектрограмму.
4. Разработаны и реализованы алгоритмы предобработки данных. В результате аудио-фрагменты были преобразованы в спектрограммы и мел- спектрограммы. Изображения графиков основного тона извлекались вручную.
5. Сформированы обучающие и тестовые выборки. В общей сложности на данный момент сформированы 4 набора данных. Временная продолжительность каждого представлена ниже:
1) начальный набор данных с разбалансировкой - 1 час 17 минут;
2) начальный набор данных без разбалансировки - 39 минут
15 секунд;
3) начальный набор данных для бинарной классификации - 1 час 9 минут;
4) набор данных после ПЭ для бинарной классификации - 26 минут 21 секунда.
6. Реализована, обучена и протестирована нейронная сеть.
Максимальные показатели, которых удалось достичь, представлены ниже.
Графики основного тона: 0.725663 - набор данных после перцептивного эксперимента для бинарной классификации.
Спектрограммы: 0.964601 - набор данных после перцептивного эксперимента для бинарной классификации.
Мел-спектрограммы: 0.821428 - набор данных после перцептивного эксперимента для бинарной классификации.
Дальнейшая работа может быть направлена на улучшение точности классификации. Для этого в первую очередь необходимо существенно расширить размер наборов данных, рассмотреть другие форматы предобработки аудио-материала и, возможно, изменить топологию нейронной сети.
1. Алдошина И. Связь акустических параметров с эмоциональной
выразительностью речи и пения // Звукорежиссёр. 2003. № 2. С. 17 - 25.
2. Бабенко Л.Г. Лексические обозначения эмоций в русском языке. Свердловск: Из-во Урал. Ун-та. 1989. 184 с. ISBN 5-7525-0061-3.
3. Беляев А. (2019) Мультимодальное распознавание эмоций [видеозапись презентации мультимодального корпуса для распознавания эмоций на конференции Moscow Data Science Major (31.08.2019), секция Fail/Success story] // YouTube. 7.10.2019 (https://www.youtube.com/watch?v=UJKqls7RsuY).
4. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики: Учеб. пособие для студ. филол. и лингв. фак. высш. учеб. заведений. - 4-е издание., испр. - СПб.: Филологический факультет СПбГУ; М.: Издательский центр “Академия”, 2004. - 160с. ISBN 5-8465-0177-X (Филол.фак. СПбГУ), ISBN 5-7695-1658-5 (Изд.центр “Академия”).
5. Бэн А. Психология. М., 1906. Т. 2 (Кн. 3 - 4).
6. Вундт В. Основы физиологической психологии: Чувства и аффекты. СПб., 1880. Вып. 55 (Т. 3, гл. XVI). 216 с.
7. Гиноян Р.В., Хомутов А.Е. Физиология эмоций. Учебно-методическое пособие. Изд-во Нижегородского госуниверситета. 2010. 66 с.
8. Додонов Б.И. Эмоция как ценность. - М.: Политиздат, 1978. - 272 с.
9. Жерон О. Прикладное машинное обучение с помощью Scikit-Learn и
TensorFlow: концепции, инструменты и техники для создания
интеллектуальных систем. - Пер. с англ. - СпБ.: ООО "Альфа-книга', 2018. - 688 с. ISBN 978-5-9500296-2-2.
10. Изард К. Эмоции человека. - Изд-во Питер, 2002, 464 с.
11. Ильин Е. П. Эмоции и чувства. 2-е изд. — СПб.: Питер, 2011. - 783 с. ISBN 978-5-4237-0059-1.
12. Карабущенко Н.Б., Сунгурова Н.Л., Чхиквадзе Т.В., Пилишвили Т.С. Особенности распознавания эмоций студентами из России и стран Азии (интеллектуальные основания) // Вестник ТвГУ. Серия "Педагогика и
10.26456/vtpsyped/2020.1.104
13. Карелина И.О. Развитие понимания эмоций в период дошкольного
детства: психологический ракурс : монография. - Прага : Vedecko
vydavatelske centrum «Sociosfera-CZ», 2017. - 178 с. ISBN 978-80-7526-228¬8.
14. Кислова О.О., Русалова М.Н. Восприятие эмоций в речи. Обзор исследований в психологии и физиологии // Успехи физиологических наук. - 2013. - том 44, № 2. - С. 41 - 61.
15. Кодзасов С.В., Кривнова О.Ф. Общая фонетика: Учебник. М.:Рос. гос. гуманит. ун-т, 2001. 592 с. ISBN 5-7281-0347-2.
16. Леонтьев А.Н. Потребности, мотивы и эмоции: Конспект лекций. - М., 1971.
17. Маслечкина С.В. Выражение эмоций в языке и речи // Вестник БГУ. 2015. №3. С. 231 - 236.
18. Мелёхин А.И., Сергиенко Е.А. Когнитивные смещения при распознавании эмоций по лицу в пожилом возрасте [Электронный ресурс] // Клиническая и специальная психология. 2019. Том 8. № 2. C. 53 - 79. doi: 10.17759/psyclin.2019080204.
19. Мельников М.Е., Безматерных Д.Д., Козлова Л.И., Натарова К.А., Штарк М.Б. Стиль привязанности и распознавание эмоциональной мимики при депрессии. Бюллетень сибирской медицины. 2021; № 20(1), С. 90 - 97. https://doi.org/10.20538/1682-0363-2021-1-90-97.
20. Менделевия В. Д. Психология девиантного поведения. Учебное пособие. - СПб.: Речь, 2005. - 445 с. ISBN 5-9268-0387-Х.
21. Морозов В.П. Эмоциональный слух человека // Эволюц. биохимии и физиологии. 1985.Т. 21. № 6. С. 569 - 577.
22. Морозов В.П., Дмитриева Е.С., Зайцева К.А. и др. Возрастные особенности восприятия человеком эмоций в речи и пении // Эволюц. Биохимии и физиологии. 1983. Т. 19. № 3. С. 289 - 292.
23. Пашина А.Х. К проблеме распознавания эмоционального контекста звуковой речи // Вопросы психологии. 1991. № 1. С. 88 - 95.
24. Романенко В.О. Эмоциональные характеристики речи и их связь с акустическими параметрами // Общество, среда, развитие. - 2010. - №4. - С. 119 - 123.
25. Романов Д.А. Языковая репрезентация эмоций: уровни,
функционирования и системы исследований (на материале русского языка): автореф. дис. ...док. филолог. наук: 10.02.01; 10.02.19/Романов Д.А.;
Тульский государственный педагогический университет имени Л. Н. - Белгород, 2004. - 30 с.
26. Рубинштейн С. Л. Основы психологии. - Изд-во: Питер, 2018. 714 с.
27. Сидорова О.А., Симонов П.В., Цветкова Л.С. Методика изучения восприятия признаков эмоционального состояния у человека // Журн. высш. нерв. деятельности. 1978. Т. 18. Вып. 2. С. 415 - 419.
28. Симонов П.В. Высшая нервная деятельность человека. Мотивационно-эмоциональные аспекты. - Изд-во: Ленанд, 2021. - 176 с. ISBN 978-5-9710-8623-9.
29. Симонов П.В. Метод К. С. Станиславского и физиология эмоций. - М.: Книга по требованию, 2012. - 86 с. ISBN 978-5-458-31589-0.
30. Симонов П. В. Исследование эмоциональных реакций животных и человека в научных учреждениях США // Журнал высшей нервной деятельности. 1968. Вып. 5. С. 836 - 849.
31. Скрелин П.А. Сегментация и трансрипция. - СПб.: Из-во С.- Петербургского ун-та, 1999. - 108 с. ISBN 5-288-02352-2.
32. Смирнов В.М., Резникова Т.Н., Губачев Ю.М., Дорничев В.М. Мозговые механизмы психофизиологических состояний. - Л.: Наука, 1989. - 148 с.
33. Таулли Т. Основы искусственного интеллекта: нетехническое введение. - СПб.: БХВ-Петербург, 2021. - 288 с. ISBN 978-5-9775-6717-6.
34. Узеиров А.А. Девиантные формы поведения личности: учебно-методическое пособие. - Ростов Н/Д: Изд-во РостГМУ, 2017. - 30 с.
35. Уотсон Д.Б. Основные направления психологии в классических трудах. Бихевиоризм. Принципы обучения, основанные на психологии. Психология как наука о поведении. - М.: ООО "Издательство АСТ-ЛТД", 1998. - 704 с. ISBN 5-15-000894-Х (ACT).
36. Уфимцева А.А. Слово в лексико-семантической системе языка. - М.: УРСС, 1968. - 286 с.
37. Фресс П. Эмоции // Экспериментальная психология. М., 1975. Вып. V. С. 111 - 195.
38. Шадриков В.Д. Введение в психологию: эмоции и чувства. - М.: Логос, 2002. - 156 с. ISBN 5-94010-159-3.
39. Шаховский В.И. Категоризация эмоций в лексико-семантической системе языка. М.: ЛКИ, 2008. 208 с.
40. Экман П. Психология эмоций. Издательство: Питер, 2019. - 448 c.- ISBN 978-5-4461-1304-0.
41. Adolphs R., Tranel D., Damasio A.R. Dissociable Neural Systems for Recognizing Emotions // Brain and Cognition. 2003. V. 52. № 1. P. 61-69.
42. Arnold M. B. Emotion and Personality. v. 1. Psychological aspects. v. 2. Neurological and physiological aspects. N.-Y., Columbia University Press, 1960.
43. Atila O., Sengur A. Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition // Applied Acoustics. - 2021. - №182. - P. 1¬11.
44. Bakhshi A.,Harimi A., Chalup S. CyTex: Transforming speech to textured images for speech emotion recognition // Speech Communication. - 2022. - №139.
- P. 62 - 75.
45. Beier E.G., Zautra A.J. Identification of vocal communication of emotions across cultures // Journal of Consulting and Clinical Psychology. Vol. 39, Issue 1.
- 1972, August.
46. Buermann M., van Meer T.A.J.P. Speech recognition using very deep neural
networks: Spectrograms vs Cochleagrams // URL: DOI:
10.13140/RG.2.2.19111.09121 (дата обращения: 25.03.2022).
47. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W. , Weiss B. A Database of German Emotional Speech // INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology,. - Lisbon, Portugal, September 4-8, 2005: September 2005. - P. 1 - 4.
48. Chen Q., Huang G. A novel dual attention-based BLSTM with hybrid features in speech emotion recognition // Engineering Applications of Artificial Intelligence. - 2021. - №102. - P. 1 - 11.
49. Chen, M., He, X., Yang, J., Zhang, H., 2018. 3-d convolutional recurrent neural networks with attention model for speech emotion recognition. IEEE Signal Process. Lett. 25 (10), P. 1440 - 1444.
50. El Ayadi, M., Kamel, M.S., Karray, F., 2011. Survey on speech emotion recognition: Features, classification schemes, and databases. Pattern Recognit. №44(3), P. 572 - 587.
51. Elfenbein H.A., Ambady N. Universals and Cultural Differences in Recognizing Emotions // Current Directions in Psychological Science. - 2003. - Vol. 12, No. 5. - P. 159-164.
52. EmoDB Dataset, Emotional Speech database for classification problem. // kaggle URL: https://www.kaggle.com/datasets/piyushagni5/berlin-database-of- emotional-speech-emodb(дата обращения: 02.05.2022).
53. Fahada Md. S., Ranjan A., Yadav J., Deepak A. A survey of speech emotion recognition in natural environment // Digital Signal Processing. - 2021. - №110. - С. 1 - 28.
54. Gupta V., Juyal S., Hu Y-C. Understanding human emotions through speech spectrograms using deep neural network // The Journal of Supercomputing. - 2022. -Том 78, Выпуск 5. - P. 6944 - 6973.
55. Hoegen R., Gratch J., ParkinsonB., Shore D. Signals of Emotion Regulation in a Social Dilemma: Detection from Face and Context // 2019 8th International Conference on Affective Computing and Intelligent Interaction (ACII). - Cambridge, UK: IEEE, 09 December 2019. - DOI: 10.1109/ACII.2019.8925478.
56. Jianhua T. Emotion recognition for human-computer interaction // Virtual Reality & Intelligent Hardware. - 2021. - Volume 3, Issue 1. - P. iii - iv.
57. Kotlyar G.M., Morozov V.P. Acoustic Correlates of the Emotional Content of Vocalized Speech // Sov.Physics. Acoust. 1976. № 22. P. 370 - 376.
58. Kwon M.S. MLT-DNet: Speech emotion recognition using 1D dilated CNN based on multi-learning trick approach // Expert Systems With Applications. - 2021. - №167. - P. 1 - 12.
59. Lee J., Kim S., Kim S., Park J., Sohn K. Context-Aware Emotion Recognition Networks // IEEE International Conference on Computer Vision (ICCV). - Oct. 2019.
60. Lei S., Gratch J. Smiles Signal Surprise in a Social Dilemma // 2019 8th
International Conference on Affective Computing and Intelligent Interaction (ACII). - Cambridge, UK: IEEE, 09 December 2019. - DOI:
10.1109/ACII.2019.8925494.
61. Li D., Liu J., Yang Z., Sun L., Wang Z. Speech emotion recognition using recurrent neural networks with directional self-attention // Expert Systems With Applications. - 2021. - №173. - P. 1 - 13.
62. Liping P., Liang G., Zhang J., Xiaoru W., Hongquan Q., Xin W., Subject-specific mental workload classification using EEG and stochastic configuration network (SCN) // Biomedical Signal Processing and Control. - 2021. - Volume 68. - P. 1 - 15.
63. Maithri M., Raghavendra U., Gudigar A., Samanth J., Barua P.D., Murugappan M., Chakole Y., Acharya U.R. Automated emotion recognition: Current trends and future perspectives // Computer Methods and Programs in Biomedicine. - 2022. - Volume 215. - P. 1 - 30.
64. Matplotlib [Электронный ресурс]. URL: https://matplotlib.org/(дата обращения: 05.04.2022).
65. Nassif A.B., Shahin I., Elnagar A., Velayudhan D., Alhudhaif A., Polat K. Emotional speaker identification using a novel capsule nets model // Expert Systems With Applications. - 2022. - №193. - P. 1-11.
66. Ngai W. K., Xie H., Zou D., Chou K-L. Emotion recognition based on convolutional neural networks and heterogeneous bio-signal data sources // Information Fusion. - 2022. - №77. - P. 107 - 117.
67. NumPy [Электронный ресурс]. URL: https://www.numpy.org/(дата обращения: 05.04.2022).
68. Pandey S.K., Shekhawat H.S. Prasanna S.R.M. Attention gated tensor neural network architectures for speech emotion recognition // Biomedical Signal Processing and Control. - 2022. - №71. - P. 1 - 16.
69. Pell M.D. Cerebral Mechanisms for Understanding Emotional Prosody In Speech // Brain and Language. 2006. V. 96. Issue 2. P. 221 - 234.
70. Plutchik R. A general psychoevolutionary theory of emotion // R. Plutchik, H. Kellerman (eds.). Emotion: Theory, research and experience, v. 1: Theories of emotion.N.-Y., Acad. Press, 1980а, p. 3 - 31.
71. Preto S., Emotion-reading algorithms cannot predict intentions via facial
expressions., september 4, 2019 // USC News URL:
https://news.usc.edu/160360/algorithms-emotions-facial-expressions-predict- intentions/(дата обращения: 25.03.2022).
72. PyTorch [Электронный ресурс]. URL: https://pytorch.org/(дата
обращения: 05.04.2022).
73. Ryerson. Audio-Visual Database of Emotional Speech and Song (RAVDESS) // kaggle.com URL: https://www.kaggle.com/uwrfkaggler/ravdess- emotional-speech-audio(дата обращения: 22.02.2022).
74. Salovey P., Mayer J.D. Emotional intelligence meets traditional standards for an intelligence // Intelligence. - 1999. - Volume 27, Issue 4. - P. Pages 267 - 298.
75. Senthilkumar N., Karpakam S., Gayathri Devi M., Balakumaresan R.,
Dhilipkumar P. Speech emotion recognition based on Bi-directional LSTM architecture and deep belief networks // Materials Today: Proceedings. - Available online 28 December 2021. - Aticle in press. -
https://doi.org/10.1016/j.matpr.2021.12.246.
76. The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database // University of Southern California URL: https://sail.usc.edu/iemocap/(дата обращения: 02.05.2022).
77. Titchener E. B. A primer of psychology. N.-Y., 1899.
78. Tseng Li-Ping, Chuang Mao-Te, Liu Yung-Ching Effects of noise and music on situation awareness, anxiety, and the mental workload of nurses during operations // Applied Ergonomics. - 2022. - Volume 99. - P. 1 - 7.
79. Visdom // GitHub [Электронный ресурс]. URL:
https://github.com/fossasia/visdom(дата обращения: 25.04.2022).
80. Waard D., Nes N. International Encyclopedia of Transportation // Driver State and Mental Workload. - 2021. - P. 216 - 220.