Тип работы:
Предмет:
Язык работы:


Объяснимый искусственный интеллект для распознавания речи

Работа №128040

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы69
Год сдачи2021
Стоимость4980 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
121
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Распознавание эмоций в аудиоданных с использованием глубоких нейронных сетей 8
1.1. Предварительная обработка 8
1.2. Выделение признаков 10
Глава 2. Нейронная сеть 13
2.1. Сверточная нейронная сеть 13
2.2. Предсказание на реальных данных 19
Глава 3.XAI алгоритмы 21
3.1. Обзор популярных методов XAI 21
3.1.1 Внутренне интерпретируемые методы 23
3.1.2 Модельно-агностические объяснения 25
3.1.3 Объяснения на основе примеров 28
3.2. SHAP 30
3.3. LIME 33
3.4. Результаты работы XAI методов 38
Выводы 50
Заключение 51
Список литературы 53
Приложение 57


В настоящее время искусственный интеллект все чаще применяется для извлечения пользы из различных задач машинного обучения. В последние годы такие системы столкнулись с проблемой потери "прозрачности" и понятности, в особенности для конечных пользователей. В этой работе будут исследованы методы объяснения искусственного интеллекта на основе обученной модели для распознавания речи.
XAI или объяснимый искусственный интеллект, это область ИИ, которая имеет набор инструментов, алгоритмов и методов, которые могут генерировать интуитивно понятные и интерпретируемые объяснения для человека.
Глубокие нейронные сети используются в системах которые напрямую влияют на качество жизни человека. Примерами тому являются здравоохранение и беспилотный транспорт. Закрытые системы принятия решений, называются черными ящиками, и на данный момент не пользуются доверием у пользователей.[1]
Интерпретируемость глубоких нейронных сетей, область машинного обучения которая появилась совсем недавно. Результат ее работы нацелен на лучшее понимание того как модели проводят отбор признаков, а также получают решения своих задач[2].
Ежегодно публикуется несколько статей-обзоров, с последними достижениями в этой области, подробнее остановимся на "Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey"[1]. Ключевыми этапами развития для таких популярных алгоритмов, как LIME и SHAP обозначены усовершенствования классических моделей и применение существующих методов, в новых, неисследованных областях. Примерами новых интерпретаций алгоритмов, могут служить: SLIME, QLIME, KernelSHAP и др.
Основная сфера исследования и применения алгоритмов объяснения моделей машинного обучения, это медицина. Алгоритмы отлично себя проявили во многих задачах от работы с изображениями до обработки естественного языка.[3] В этом исследовании, объединены последние тенденции XAI и применение его для распознавания эмоций, которые в свою очередь могут использоваться в медицине для помощи в постановке диагноза для людей страдающих психическими расстройствами.
Для проведения исследования используется два набора данных. Первый включает в себя аудиозаписи актеров, разных полов: CREMA-D[4], RAVDES[5], SAVEE[6], TESS[7]. Второй DAIC-WOZ Database Description содержит клинические интервью, предназначенные для поддержки диагностики психологических дистресс-состояний, таких как тревога, депрессия и посттравматическое стрессовое расстройство[8].
Свидетельством того, что это направление набирает обороты, можно связать с запуском первой глобальной конференции, посвященной исключительно этой развивающейся дисциплине, Международной совместной конференции по искусственному интеллекту: семинар по объяснимому искусственному интеллекту (XAI)[9].
Европейский Союз ввел право на объяснение в Общем праве на защиту данных (GDPR) как попытку справиться с потенциальными проблемами, вытекающими из растущей важности алгоритмов. В Соединенных Штатах страховые компании должны быть в состоянии объяснить свои решения о ставках.[1] Другим примером является, использование XAI в колл-центре для классификации звонков в соответствии с эмоциями, в последствии это применяется в качестве параметра производительности для анализа разговоров, таким образом идентифицируя неудовлетворенного клиента, удовлетворенность клиентов и т. д. Применение XAI способно оказать помощь компаниям в улучшении их услуг. Он также может быть использован в бортовой системе автомобиля, основанной на информации о психическом состоянии водителя, которая может быть предоставлена системе для инициирования его/ее безопасности, предотвращающей несчастные случаи.[2]
Постановка задачи
Исследование можно разделить на две части:
1) решение задачи классификации распознавания речевых эмоций;
2) использование алгоритма XAI для объяснения результатов.
В первой части используются наборы аудиовизуальных данных: Crema- D, Ravdess, Savee, Tess. Строим волновые диаграммы и спектограммы, извлекаем признаки и строим модель нейронной сети.
Вторая часть включает объяснение результатов алгоритмов XAI и при-ведение результатов.
Обзор литературы
Работа началась со знакомства с популярным предшественником объяснимого ИИ, рекомендательными системами. Популярные в 70-80 гг. прошлого века, они включали в себя механизм вывода и базу знаний. Область медицинской диагностики, ощутила на себе в числе первых, где они были опробованы. Ранней версией экспертной системы была MYCIN, разработанная в 70х в Стэнфордском университете. MYCIN разрабатывалась для работы с бактериями, а именно диагностировались те, что вызывают тяжелые болезни, например, менингит. В том числе изучалось количество необходимых антибиотиков, для благоприятного исхода болезни. Реализация была простой и включала в себя ответы «Да» или «Нет» на вопросы медиков, в конце выдавалась рекомендация по дальнейшим действиям. Система была описана в работе "Rulebased Expert System - The MYCIN Experiments of the Stanford Heuristic Programming Project". [10] Одним из критериев новых систем подразумевалась понятность решений для профессионалов своей области, а не только для IT специалистов.
Например, применение интерпретируемости в медицинских исследованиях, улучшит работу многих специалистов:
1) практикующие врачи смогут впоследствии использовать эти методы для рекомендаций в постановке диагнозов;
2) понимание решений ИИ, впоследствии обернется большим количеством идей для реализации в медицинской практике.[11]
Открытыми остаются вопросы: «Кто несет ответственность за неправильный прогноз и лечение?». Тот же вопрос задает автор работы "“Why Should I Trust You?” Explaining the Predictions of Any Classifier"[12]. В качестве пути решения, автор предлагает побороть недоверие к модели или прогнозу. В роли инструментов для объяснения результатов, алгоритмы XAI, дающие понятную интерпретацию работы модели.
Для анализа полученных результатов будут использованы алгоритмы SHAP и LIME. На их основе в обученной модели распознавания речи будут определены признаки объясняющие тот или иной результат. Методология работы алгоритмов была описана в работе «Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey»[1], в ней же представлены перспективы развития отрасли. На основе проделанной работы своих коллег, автор заключает, что будущее за расширением классических методов и применением их в новых отраслях.
Важность этой сферы можно оценить по нарастающему интересу к ней ученого сообщества, которое организует конференции посвященные XAI.[9]
Раскрываемая тема, касается сложной природы объяснения результатов обучения нейронной сети. Поэтому регулированием использования ИИ в различных сферах обеспокоились мировые технологические лидеры: страны ЕС и США. Таким образом они вводят законы включающие «право на объяснение».[1]. Эти меры позволяют контролировать справедливое использование алгоритмов. Подобные решения улучшают не только качество жизни людей, но и обеспечивают их безопасность.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Построение моделей и умение делать правильные предсказания являются важнейшими задачами современного мира. В долгосрочной перспективе нынешние инициативы по искусственному интеллекту состоят в том, чтобы внести свой вклад в разработку, проектирование и внедрение ориентированных на человека систем ИИ. Агенты которых сотрудничали бы с человеком интерпретируемым и объяснимым образом, чтобы обеспечить принятие справедливых решений, а также их прозрачность. Для достижения этой цели, одними из инструментов реализации предлагаются алгоритмы XAI, а именно SHAP и LIME. Предполагаемая предметная область для использования инструмента медицинская диагностика.
Первая глава посвящена обзору наборов аудиоданных и выделению признаков из них.
Вторая глава описывает общую структуру работы нейронной сети
Третья глава формализует методы XAI, далее демонстрируется практическая часть применения двух алгоритмов объяснения SHAP и LIME.
LIME - отличный инструмент для объяснения того, что делают классификаторы (или модели) машинного обучения. Он не зависит от модели, использует простые и понятные идеи и не требует больших усилий для запуска. Как всегда, даже при использовании LIME важно правильно интерпретировать вывод.
SHAP - подходит для понимания любых моделей машинного обучения, а также имеет несколько других плюсов, например, может объяснить как индивидуальные результаты, так и общее решение, а также имеет хорошую теоретическую основу из теории игр.
На пути к справедливым и прозрачным моделям, основанным на ИИ, остается много открытых вопросов, например как оценка рисков, избегание алгоритмических и социальных предубеждений. Алгоритмы объяснимого ИИ должны нести ответственность перед заинтересованными сторонами за свое решение, а также оно должно подчиняться анализу, в котором должна быть понятна степень прозрачности алгоритма.
Объяснимые методы ИИ также могут быть использованы для выявления потенциальных рисков, например проверка модели на справедливость.
Будущее взаимодействие между людьми и машинами имеет важное значение, для адаптивных объяснимых моделей важно участие опытных исследователей из предметной области. Коллективный опыт знания из раз-личных областей (например, здравоохранение, финансы, медицина, без-опасность, оборона) могут способствовать дальнейшему развитию исследований ИИ, ориентированных на человека. Таким образом, существует необходимость в растущем интересе к междисциплинарным исследованиям для продвижения ориентированного на человека искусственного интеллекта, а также XAI в критически важных исследованиях для различных областей.



[1] Arun Das, Paul Rad«Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey ». arXiv:2006.11371, 2020
[2] Katharina Weitz, Dominik Schiller, Ruben Schlagowski, Tobias Huber, Elisabeth Andre «“Let me explain!”: exploring the potential of virtual agents in explainable AI interaction design ». Journal on Multimodal User Interfaces volume 15, pages 87-98 (2021)
[3] Alejandro Barredo Arrieta, Natalia Diaz-Rodriguez и др.«Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI ». arXiv:1910.10045, 2019
[4] Cao H, Cooper DG, Keutmann MK, Gur RC, Nenkova A, Verma
R. «CREMA-D: Crowd-sourced Emotional Multimodal Actors
Dataset.».IEEE transactions on affective computing. 2014;5(4):377-390. doi:10.1109/TAFFC.2014.2336244.
[5] Livingstone S.R., Russo F.A. «The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. >. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391.
[6] «Surrey Audio-Visual Expressed Emotion (SAVEE) Database».
http://kahlan.eps.surrey.ac.uk/savee/
[7] Kate Dupuis, M. Kathleen Pichora-Fuller «Toronto emotional speech set (TESS)». University of Toronto, Psychology Department, 2010., https://tspace.library.utoronto.ca/handle/1807/24487
[8] The University of Southern California Institute for Creative Technologies «DAIC-WOZ Database Description». https://dcapswoz.ict.usc.edu/
[9] »IJCAI-PRICAI2020 ». https://ijcai20.org/
[10] B.G. Buchanan., E.H. Shortliffe «Rule-based expert systems: The MYCIN experiments of the stanford heuristic programming project»., 1984
[11] Erico Tjoa, Cuntai Guan«A Survey on Explainable Artificial Intelligence (XAI): Towards Medical XAI ». arXiv:1907.07374, 2020
[12] M. T. Ribeiro, S. Singh, and C. Guestrin«Why Should I Trust You?». arXiv:1602.04938, 2016
[13] «Librosa documentation.». https://librosa.org/doc/latest/index.html
[14] Theodoros Giannakopoulos, Aggelos Pikrakis «Introduction to Audio Analysis». 2014.
[15] Meinard Miller Stefan Balke «Short-Time Fourier Transform and Chroma Features ». Университет Эрлангена-Нюрнберга им. Фридриха- Александра., 2015.
[16] Kannan Venkataramanan, Haresh Rengaraj Rajamohan «Emotion Recognition from Speech ». arXiv:1912.10458, 2019.
[17] Mohammad Ahsan., Madhu Kumari «Physical Features Based Speech Emotion Recognition Using Predictive Classification». April 2016., International Journal of Computer Science and Information Technology 8(2):63-74 DOI:10.5121/ijcsit.2016.8205
[18] Roman A. Solovyev, Maxim Vakhrushev, Alexander Radionov, Vladimir Aliev, Alexey A. Shvets «Deep Learning Approaches for Understanding Simple Speech Commands». arXiv:1810.02364., 2018.
[19] «Classification Report documentation». https://www.scikit-
yb.org/en/latest/api/classifier/classification_report.html
[20] Shane T. Mueller, Robert R. Hoffman, William Clancey, Abigail Emrey, Gary Klein «Explanation in Human-AI Systems: A Literature Meta-Review, Synopsis of Key Ideas and Publications, and Bibliography for Explainable AI ».arXiv:1902.01876, 2019.
[21] Jerome H. Friedman, Bogdan E. Popescu «Predictive learning via rule ensembles». The Annals of Applied Statistics, vol. 2, no. 3, pp. 916- 954, 2008.
[22] L. S. Shapley «A value for n-person games». Contributions to the Theory of Games, vol. 2, no. 28, pp. 307-317, 1953.
[23] Christoph Molnar «Interpretable Machine Learning: Л Guide for Making Black Box Models Explainable.». Springer; 1st ed. 2018.
[24] S. M. Lundberg and S. I. Lee«A unified approach to interpreting model predictions »in Advances in Neural Information Processing Systems, 2017, pp. 4765-4774
[25] C. Molnar «Alnterpretable Machine Learning »Lulu. com, 2020
[26] L. Antwarg, B. Shapira, and L. Rokach «Explaining anomalies detected by autoencoders using shap »arXiv:1903.02407, 2019.
[27] M. Sundararajan and Л. Najmi«The many shapley values for model explanation»arXiv:1908.08474, 2019.
[28] K. Aas, M. Jullum, and Л. Lpland «Explaining individual predictions when features are dependent: More accurate approximations to shapley values »arXiv:1903.10464, 2019
[29] S. M. Lundberg, G. Erion, H. Chen, A. DeGrave, J. M. Prutkin, B. Nair, R. Katz, J. Himmelfarb, N. Bansal «From local explanations to global understanding with explainable ai for trees »Nature machine intelligence, vol. 2, no. 1, pp. 2522-5839, 2020.
[30] M. Vega Garcia and J. L. Aznarte «Shapley additive explanations for NO2 forecasting »Ecol. Inform., vol. 56, p. 101039, Mar 2020.
[31] S. Mishra, B. L. Sturm, and S. Dixon«Local Interpretable Model-Agnostic Explanations for Music Content Analysis». Proc. 18th Int. Soc. Music Inf. Retr. Conf. ISMIR 2017, 2017, pp. 537-543.
[32] T. Peltola«Local interpretable model-agnostic explanations of bayesian predictive models via kullback-leibler projections». arXiv:1810.02678, 2018.
[33] M. Rehman Zafar and N. Mefraz Khan«Dlime: A deterministic local interpretable model-agnostic explanations approach for computer-aided diagnosis systems,». arXiv:1906.10263, 2019.
[34] S. Bramhall, H. Horn, M. Tieu, and N. Lohia«Qlime-a quadratic local interpretable model-agnostic explanation approach». MU Data Science Review, vol. 3, no. 1, p. 4, 2020.
[35] S. Shi, X. Zhang, and W. Fan«A modified perturbed sampling method for local interpretable model-agnostic explanation». arXiv:2002.07434, 2020.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ