Введение 4
Глава 1. Объяснимый метод интерпретации решений ИИ-системы обнаружения аномальных логов 17
1.1 Система обнаружения аномального ИИ 18
1.1.1 Решение на основе машинного обучения: дерево решений 18
1.1.2 Решение на основе нейронной сети: DeepLog 19
1.2 Объяснимая модель и алгоритм 20
1.2.1 Ценность Шепли и объяснимая модель 20
1.2.2 Объяснимое решение для дерева решений 22
1.2.3 Объяснимое решение для DeepLog 23
1.3 Результаты симуляции 25
1.3.1 Объяснимые результаты дерева решений 25
1.3.2 Объяснимые результаты DeepLog 26
1.4 Выводы к главе 1 28
Глава 2. Объяснимый искусственный интеллект: системы большой размерности для обнаружения рака 30
2.1 Система искусственного интеллекта для обнаружения рака 32
2.1.1 Принцип изолированного леса 32
2.1.2 Определения измерений: показатель аномалии 34
2.1.3 Обнаружение аномалий с использованием Isolation Forest 36
2.1.4 Результат обнаружения аномалии 39
2.2 Объяснимое решение и алгоритмы 41
2.2.1 Ценность Шепли и объяснимая модель 41
2.2.2 Двухуровневый подход к многомерному объяснимому ИИ 43
2.2.3 Подход сэмплирования для многомерного объяснимого ИИ 46
2.3 Результаты симуляций 47
2.3.1 Описание набора данных 48
2.3.2 Результаты моделирования глобального объяснения: двухуровневый подход 48
2.3.3 Результаты моделирования глобального объяснения: сэмплирование 51
2.3.4 Локальное объяснение: сравнение двухуровневого подхода с сэмплированием 53
2.4 Заключение к главе 2 55
Глава 3. Объяснимый искусственный интеллект: подход к сэмплированию на основе графа для многомерной системы искусственного интеллекта 56
3.1 Объяснимая система искусственного интеллекта для обнаружения рака 57
3.1.1 Isolation Forest и обнаружение рака 57
3.1.2 Значение Шепли 57
3.1.3 Подход Шепли к сэмплированию 58
3.1.4 Результаты и анализ 59
3.2 Карта взаимосвязей и сэмплирование на основе смещенного графа. 61
3.2.1 Обзор алгоритма 61
3.2.2 Коэффициент корреляции Пирсона 62
3.2.3 Метод предвзятого случайного поиска пути 63
3.2.4 Измерения для улучшения сходимости 65
3.3 Результаты моделирования 66
3.3.1 Описание набора данных 66
3.3.2 Генерация и конфигурация карты взаимосвязей 66
3.3.3 Анализ результатов 68
3.4 Заключение к главе 3 72
Выводы 74
Литература 76
Актуальность темы диссертации
По сравнению с классической статистикой и математическими методами, методы машинного обучения имеют большие преимущества в крупномасштабных, сложных и нелинейных системах. Поэтому они становятся все более популярными в промышленных приложениях. Системы искусственного интеллекта (ИИ) обычно используются для решения следующих математических задач:
• Классификация: классифицировать входные данные по различным категориям, таким как классификация текста и классификация изображений.
• Регрессия: для прогнозирования значения непрерывных переменных, таких как прогнозирование цены и прогнозирование сетевого трафика.
• Кластеризация: сгруппировать данные на основе их сходства, например, пользовательских предпочтений и классификации данных по функциям.
• Поиск аномалий: для выявления аномальных экземпляров в выборке, например, обнаружение рака и обнаружение аномальных логов.
• Оптимизация: поиск оптимального решения на основе заданной целевой функции, такой как оптимизация сетевого трафика и оптимизация распределения ресурсов.
• Прогнозирование: предсказывать будущие тенденции на основе прошлых данных, таких как прогноз цен на жилье и прогноз потребительского спроса.
Развитие технологий машинного обучения внесло большой вклад в быстрое развитие ИИ. Для машинного обучения, особенно для глубокого обучения, объяснимый ИИ — большой вызов. Глубокие нейронные сети — это «черный ящик» для всех нас. Алгоритмы ИИ обычно не могут объяснить логику принятия решения. Такие непрозрачные решения недостаточно убедительны, особенно в сферах военной, медицинской и финансовой безопасности, где ставки высоки. Поэтому объяснимый ИИ был бы полезен:
• Для пользователей, когда технология ИИ предназначена для того, чтобы предлагать или помогать принимать решения. Пользователи системы должны иметь возможность понять, почему система предоставляет каждое конкретное решение. Например, врач, ставящий диагноз, должен уметь понимать, почему лечебно-диагностическая система дает такую рекомендацию [1].
• Для разработчиков, чтобы понять «черный ящик» глубокого обучения. Это позволит им улучшать свои методы и модели машинного обучения [2].
Данная диссертация посвящена изучению объяснимых решений в системах искусственного интеллекта большой размерности. Анализируя системы обнаружения аномалий, мы успешно строим объяснимые модели с высокой способностью к обобщению. Мы также изучаем различные методы с разных точек зрения, такие как сэмплирование, кластеризация, иерархические и графические методы, чтобы повысить эффективность объяснимого решения и добиться создания более эффективной объяснимой системы ИИ для многомерных задач.
Обзор результатов в этой области
Применение объяснимого ИИ жизненно важно для современных технологий ИИ. С одной стороны, это делает процесс принятия решений в системах ИИ более прозрачным и понятным, что повышает доверие пользователей к системам и приводит к более широкому внедрению и принятию технологий ИИ, особенно в таких важных областях принятия решений, как здравоохранение и финансы. С другой стороны, разработчики могут исследовать причины ошибок модели, выявлять слабые места в конструкции модели и вносить целевые коррективы в структуру и параметры модели для достижения лучших результатов.
Обнаружение аномалий является одной из важных проблем в области ИИ, которая хорошо изучена в различных областях исследований и приложений. Общей потребностью при анализе наборов данных реального мира является определение того, какие экземпляры выделяются как непохожие на все остальные. Такие случаи известны как аномалии, и цель обнаружения аномалий (в данной работе мы рассматриваем как аномалии, так и выбросы) состоит в том, чтобы определить все такие случаи на основе данных [3]. Аномалии могут быть вызваны ошибками в данных, но иногда они указывают на новый, ранее неизвестный лежащий в основе процесс. Hawkins в [4] определяет выброс как наблюдение, которое настолько значительно отличается от других наблюдений, что вызывает подозрение, что оно было вызвано другим механизмом. Наиболее распространенными причинами выбросов или аномалий в наборе данных являются ошибки ввода данных (человеческие ошибки), ошибки измерений (ошибки прибора), экспериментальные ошибки (извлечение данных или планирование/выполнение эксперимента), преднамеренные (фиктивные выбросы, сделанные для проверки методов обнаружения), ошибки обработки данных (манипулирование данными или непреднамеренные изменения набора данных), ошибки выборки (извлечение или смешивание данных из ошибочных или несопоставимых источники) и просто наличие новизны в данных. Что касается методов или алгоритмов, обнаружение аномалий следует классифицировать как обучение с учителем, обучение без учителя, гибридные подходы. По приложениям обнаружение аномалий можно классифицировать по обнаружению вторжений, обнаружению мошенничества, обнаружению вредоносных программ, обнаружению медицинских аномалий, обнаружению аномалий в социальных сетях, обнаружению аномалий журналов, обнаружению аномалий больших данных интернета вещей (IoT), обнаружению промышленных аномалий, обнаружение аномалий во временных рядах и аномалий при видеонаблюдении. Более подробную информацию можно найти в недавнем обзоре [5]. Существуют также некоторые потенциальные подходы, используемые для повышения производительности и точности при получении аномалии, такие как успешная модель геометрических преобразований [6] в сочетании с регрессионной моделью [7] и разложением ITO [8] для преодоления временные ограничения.
Алгоритмы обнаружения аномалий часто считаются ограниченными, поскольку они не могут облегчить процесс проверки результатов, выполненных экспертами в предметной области. Это актуальная задача для отрасли. В 2019 г. компания Antwarg использовала фрэймворк SHAP [9] для объяснения обнаружения аномалий. Они рассматривают каждую функцию как игрока и предоставляют пользователям более интуитивное понимание, измеряя вклад каждого игрока в решение. SHAP основан на понятии оптимального значения Шеп- ли [10], которое является хорошо известным понятием из теории кооперативных игр [11] Первоначально значение Шепли определяло, как распределять прибыль, издержки или, в более общем смысле, полезность между игроками, действующими совместно. В случае объяснимого ИИ значение Шепли может показать вклад каждого входного признака в результат системы обнаружения аномалий. Важно отметить, что значение Шепли показывает не только индивидуальный вклад признака в результат система обнаружения, но также показывает вклад признака во все возможные комбинации признаков, который составляет аномалию. Сам подход SHAP для XAI был предложен Лундбергом в [12]. Авторы [13] представляют улучшенный SHAP с использованием метода Baseline Shapley (BShap), который они дополнительно расширяют с помощью интегрированных градиентов в непрерывную область. В статье [14] исследуется зависимость между значениями SHAP путем расширения KernelSHAP для обработки зависимых признаков. В статье [15] авторы описали расширение метода SHAP для деревьев в среде под названием TreeExplainer для изучения структуры глобальной модели с использованием локальных объяснений. Позже в статье [16] описывается метод на основе SHAP для учета прогнозов сигналов временных рядов с использованием сетей долгой краткосрочной памяти (LSTM).
Помимо SHAP, существует несколько других полезных и прикладных алгоритмов для объяснения алгоритмов черного ящика, но в этой диссертации нас особенно интересуют подходы XAI, основанные на использовании значения Шепли:
• LIME — это метод, который интерпретирует прогнозы отдельных моделей на основе построения локальной аппроксимации модели вокруг заданного прогноза [17].
• DeepLIFT (Deep Learning Important FeaTures) [18] - это метод декомпозиции прогноза вывода нейронной сети на конкретный вход путем обратного распространения вкладов всех нейронов в сети в каждый элемент входа.
• LRP (Layer-wise Relevance Propagation) [19] - это метод, придающий объяснительную способность потенциально очень сложным глубоким нейронным сетям. Он действует путем распространения ошибки прогноза в обратном направлении в нейронной сети с использованием набора специально разработанных алгоритмов распространения.
Более полный и фундаментальный обзор подходов и моделей объяснимого ИИ см. в [20]. Таким образом, объяснимый ИИ можно разделить на следующие типы на основе принципов объяснения:
• Внутренний (объяснимость для моделей): эта ветвь нацелена на использование интерпретируемых моделей для обеспечения объяснимости самого решения, таких как линейная регрессия, дерево решений, байесовская сеть и т.д.
• Объяснение постфактум: эта ветвь предназначена для непосредственного объяснения результатов моделей черного ящика, помогая пользователям понять, почему и как алгоритм приводит к результату Примеры включают LIME, SHAP, DeepLIFT и LRP.
Это общепринятая категоризация объяснимых решений, основанных на технологии, подробно описанной различными авторами [48, 49].
Технология искусственного интеллекта разрабатывалась несколько лет, и в отрасли существует множество приложений, основанных на различных методах. Внутреннего объяснимого метода недостаточно для общего применения для всех из них. Таким образом, многие исследователи предлагали различные методы объяснения постфактум, где решение на основе Шепли является одним из самых популярных методов. Значение Шепли с его свойствами справедливости, модельного агностицизма, локальной и глобальной объяснимости, непротиворечивости и наглядности, эффективно оценивает вклад игроков в области объяснимого ИИ. Несколько статей, в том числе [12, 50], тщательно исследовали эти преимущества. Кроме того, значение Шепли широко применяется в различных областях, таких как прогнозирование [51, 52], обнаружение [53, 54] и классификация [55].
В этой диссертации мы сосредоточимся на изучении интерпретируемых решений с сильными способностями к обобщению на основе значений SHAP, особенно в системе обнаружения аномалий. Однако этот подход сопряжен с проблемами многомерных задач. С одной стороны, многомерные данные означают, что объем вычислений резко возрастает, и корреляция между различными признаками в процессе интерпретации будет препятствовать объяснимому ИИ. С другой стороны, вычисление значений SHAP является NP-трудной задачей, и по мере увеличения размерности данных, вычислительные затраты растут в геометрической прогрессии.
Вычисление значения Шепли — это NP-сложная задача, требующая рассмотрения 2n — 1 комбинаций, где N - это количество признаков. Несколько исследователей начали решать проблему вычисления значения Шепли за полиномиальное время. Гранот предложил древовидную сетевую структуру для полиномиального вычисления значения Шепли [56]. Халкиадакис и его команда сосредоточились на разработке эффективных стратегий для значения Шепли [57], а Кастро и его команда предложили приблизительный метод расчета для него [29]. Позже Кастро и его команда представили метод стратифицированной случайной сэмплировании с оптимальным распределением [58].
В области объяснимого ИИ несколько подходов оценивают значение Шепли для различных алгоритмов: Tree Explainer [15], Deep Explainer (Deeplift + значения Шепли) [12, 59] и Kernel Explainer (Linear Lime + значения Шепли) [12, 17]. Эти объяснимые методы продемонстрировали хорошую эффективность при оценке значения Шепли. Однако большинство из них подходят только для определенных типов алгоритмов. Поэтому мы пытаемся исследовать объяснимые решения на основе значение, которое может быть применено к более широкому кругу алгоритмов.
Подводя итог вышеизложенному, с широким внедрением ИИ в промышленные технологии важно исследовать объяснимые решения ИИ в многомерных системах ИИ для повышения прозрачности и надежности ИИ.
Цели диссертации
Основная цель этой диссертации состоит в том, чтобы изучить и разработать объяснимые решения для многомерных систем искусственного интеллекта. Для достижения этой цели диссертация фокусируется на одной из основных проблем в промышленной области: обнаружение аномалий. В частности, мы изучаем два типа системы обнаружения аномалий, а именно обнаружение аномальных логов и обнаружение рака, и предлагаем новые методы повышения интерпретируемости и эффективности решений многомерного ИИ путем анализа данных и алгоритмов, используемых в этих системах. Поэтому основное внимание в этой диссертации уделяется интерпретируемым решениям самим по себе, а не алгоритмам обнаружения аномалий, с упором как на интерпретируемость, так и на оптимизацию эффективности.
Диссертация состоит из трех глав. Первая глава направлена на изучение системы обнаружения аномальных логов и использование значения Шепли для объяснения вклада каждой входной функции в выходные результаты. Вторая глава посвящена изучению многомерных систем обнаружения рака и использование значений Шепли для интерпретации влияния функций на результаты обнаружения рака. Мы также разрабатываем и внедряем различные интерпретируемые решения для решения проблемы эффективности интерпретируемого ИИ в многомерных системах. В третьей главе рассматривается, как более быстро и стабильно интерпретировать влияние признаков на результаты обнаружения рака на основе многомерной системы обнаружения рака, изученной в главе 2, с использованием значений Шепли.
Основные задачи
Для достижения поставленных целей обозначим основные задачи данного исследования:
• Изучение и понимание систем ИИ, особенно систем обнаружения аномалий. В этой диссертации мы сосредоточимся на системах обнаружения аномальных логов и обнаружения рака, которые включают три алгоритма: деревья решений, алгоритм DeepLog, и алгоритм Isolation Forest в системе обнаружения рака. Поскольку наши исследования сосредоточены на интерпретируемых решениях в системах ИИ, мы не улучшаем сами алгоритмы обнаружения аномалий, а используем их в качестве инструментов для улучшения наших интерпретируемых решений.
• Изучение и понимание интерпретируемых методов. Чтобы выполнить эту задачу, мы изучили большое количество литературы и получили представление о различных основных интерпретируемых методах ИИ. Поскольку мы стремимся разработать интерпретируемые решения, которые могут применяться ко всем системам ИИ, после изучения различных интерпретируемых методов мы решили сфокусироваться на значениях Шепли.
• Проведение интерпретируемого моделирования и разработка алгоритмических решений на основе соответствующих проблем. В задаче обнаружения аномальных логов в главе 1 мы используем значение Шепли для расчета вклада различных событий в результаты алгоритма Decision Forest. Для DeepLog мы разработали упрощенное двухуровневое решение в сочетании со значениями Шепли для достижения быстрого расчета путем анализа бизнес-функций. В задаче обнаружения рака, в главе 2, мы систематически модифицируем двухуровневой подход с использованием значений Шепли и используем сэмплирование для значений Шепли для интерпретации влияния входных данных на выходные. В главе 3 мы оптимизируем сэмплирование на основе системы обнаружения рака и разрабатываем алгоритм сэмплирования основанный на графе для дальнейшего повышения эффективности вычислений.
• Разработка показателей сходимости и измерения. Интерпретируемые решения включают сортировку вклада, значение вклада и другие показатели для разумной оценки результатов. Мы пробуем разные методы и предлагаем использовать ранговую корреляцию Спирмена и среднюю абсолютную ошибку (MAE) в качестве показателей сходимости путем анализа важности. Мы также разрабатываем разумные критерии оценки для положительных и отрицательных интервалов вклада, чтобы оценить достоверность и точность результатов.
Научная новизна
В этой диссертации мы исследуем интерпретируемые решения для многомерных задач обнаружения аномалий ИИ.
В главе 1 мы изучаем и анализируем систему обнаружения аномальных логов и предлагаем интерпретируемое решение на основе значения Шепли, которое применяется к деревьям решений и алгоритмам DeepLog на основе нейронных сетей. Чтобы решить проблему больших вычислительных затрат, мы предложили би-уровневый метод, основанный на теории игр в сочетании со значением Шепли, что обеспечивает быстроту вычислений.
В главе 2 мы изучаем и анализируем систему обнаружения рака и предлагаем два интерпретируемых решения, основанных на сэмплировании значений Шепли и улучшенных двухуровневых методах для интерпретации решения на основе Isolation Forest. Оба метода значительно повышают эффективность по сравнению с оригинальным решением.
В главе 3 мы оптимизируем алгоритм сэмплирования и предлагаем улучшенный алгоритм сэмплирования на графе. Мы также дополнительно анализируем и предлагаем более комплексные показатели сходимости: комбинированную оценку индекса корреляции Спирмена и MAE. Кроме того, мы предлагаем более подходящий способ оценки точности, основанный на интервалах сортировки или измерениях положительных/отрицательных вкладов.
В целом, научная новизна данного исследования заключается в разработке различных решений, ориентированных на скорость сходимости и вычислительную эффективность, для задач обнаружения аномалий ИИ высокой размерности.
Методы исследования
В этой диссертации мы используем различные области исследования, в том числе:
• Теория игр (значение Шепли и двухуровневый подход).
• Теория графов (задача о кратчайшем пути).
• Машинное обучение (алгоритм Isolation Forest, алгоритм дерева решений, алгоритм кластеризации с ограничением k-means).
• Нейронные сети (алгоритм DeepLog).
• Статистика (коэффициент корреляции Пирсона, индекс корреляции Спирмена, метрика MAE).
• Теория вероятностей (случайное блуждание).
• Информатика (программирование на Python).
Теоретическая и практическая значимость
Технология искусственного интеллекта сегодня является одной из самых актуальных тем в промышленных приложениях, и она широко применяется в различных областях, таких как здравоохранение, военные, управление, финансы и производство. Технология искусственного интеллекта в основном используется для решения задач оптимизации, теории графов, статистики, теории вероятности и т. д. По сравнению с традиционными математическими методами, технология ИИ обладает более широкими возможностями в решении многомерных и сложных задач, при этом существенно зависит от данных, а сами алгоритмы ИИ не обладают прозрачностью, что подчеркивает важность интерпретируемых решений.
Ключевым моментом исследования этой диссертации являются интерпретируемые решения для многомерных задач ИИ, которые имеют широкий спектр областей применения, а также являются одной из самых актуальных тем исследований в промышленных приложениях. Диссертация в основном посвящена обнаружению аномалий в области ИИ, что является критической проблемой в таких областях, как здравоохранение, финансы, вооруженные силы и автономное вождение. Однако реальные промышленные проблемы часто связаны с огромными масштабами, что приводит к проблеме проклятия размерности. В этой работе предлагаются гибридные методы решения, такие как сэмплирование и двухуровневые методы с точки зрения моделирования бизнес-задач и разработки алгоритмов. Эти методы имеют значительные преимущества в производительности при решении многомерных задач и учитывают способность решений к обобщению, что делает их подходящими для различных задач ИИ. Они также имеют хорошую теоретическую основу и прикладную ценность.
Краткое описание структуры диссертации
Эта диссертация состоит из введения, трех основных глав, заключения и справочных разделов. Введение дает обзор темы исследования, включая базовые знания, текущий статус исследования и связанную с ним техническую основу, цели исследования, основные задачи, научную новизну, исследования методы, теоретическое и практическое значение, структура диссертации, информация о публикациях и благодарности.
В главе 1 диссертации основное внимание уделяется исследованию на основе системы регистрации аномалий логов, в разделе 1.1 представлены проблемы системы обнаружения аномалий и двух алгоритмов, необходимых для обнаружения аномалий: дерева решений и алгоритма DeepLog на основе нейронных сетей. В разделе 1.2 мы разрабатываем подходы для интерпретации моделей, используя значение Шепли для задачи, и представляем двухуровневое решение в сочетании со значением Шепли для алгоритма DeepLog. В разделе 1.3 анализируются результаты объяснения обоих решений, полученных моделями. В разделе 1.4 обобщаются результаты исследования и выводы главы 1.
В главе 2 диссертации основное внимание уделяется исследованию, основанному на системе обнаружения рака. В разделе 2.1 описывается проблема обнаружения рака и предложенный для обнаружения алгоритм Isolation Forest. В разделе 2.2 предлагается, как построить интерпретируемые модели и алгоритмы для задач обнаружения рака с использованием расчета значений Шепли на основе сэмплирования и двухуровневого подхода в сочетании со значением Шепли для интерпретируемых решений. В разделе 2.3 представлены данные о раке из открытых источников, сравниваются результаты тестирования как двухуровневого метода, так и сэмплирования, а также глобальная и локальная интерпретируемость. Раздел 2.4 обобщает результаты исследования и выводы главы 2.
В главе 3 продолжается изучение системы обнаружения рака. В разделе 3.1 подчеркивается необходимость дальнейших исследований для улучшения метода сэмплирование. В разделе 3.2 предлагается алгоритм сэмплирования, основанный на карте взаимосвязей. Предлагается использование коэффициента корреляции Пирсона для построения матрицы взаимосвязей, а для сэмплирования используется смещенное случайное блуждание. Индекс корреляции Спирмена и MAE предлагаются для обеспечения стабильности и точности результатов. Раздел 3.3 описывает данные и выполненные тесты. Раздел 3.4 суммирует результаты исследования и выводы главы 3.
В заключительной главе обобщаются результаты исследования и выводы, а также некоторые мысли о будущей работе.
Последним разделом дипломной работы является справочный раздел, в котором указана вся изученная литература и ссылки на нее.
Результаты, представленье на защиту
• Разработка и реализация интерпретируемых подходов с использованием значения Шепли в системах обнаружения аномальных логов.
• Разработка и реализация интерпретируемых методов с использованием двухуровневого подхода и значения Шепли на основе эмпирических знаний.
• Разработка и применение интерпретируемых алгоритмов с использованием сэмплирования значения Шепли в задаче обнаружении рака.
• Проектирование и реализация иерархического алгоритма k-means для кластеризации.
• Разработка и применение иерархических двухуровневых подходов на основе бизнес-знаний в задаче обнаружения рака.
• Разработка и построение матрицы отношений для интерпретируемых игровых моделей с использованием коэффициента корреляции Пирсона.
• Разработка и реализация сэмплирования на основе смещенного случайного блуждания на графе.
• Разработка и реализация метрики сходимости сэмплирования с использованием индекса корреляции Спирмена и MAE.
• Разработка и реализация интерпретируемых алгоритмов с использованием сэмплирования на графе.
• Разработка и реализация методов оценки интерпретируемости результатов на основе положительных и отрицательных вкладов.
Верификация и опубликованные результаты
Исследование в этой диссертации в основном было проведено и опубликовано первым автором, а последняя из статей была представлена на конференцию и в настоящее время находится на рассмотрении и доработке.
1. РИНЦ: Zou Jinying, Xu Feiran, Petrosian Ovanes. Explainable AI: Using Shapley Value to Explain the Anomaly Detection System Based on Machine Learning Approaches.ПРОЦЕССЫ УПРАВЛЕНИЯ И УСТОЙЧИВОСТЬ, 2020, 355-360.
2. SCOPUS Q4: Jinying Zou, Ovanes petrosian. Explainable AI: Using Shapley Value to Explain Complex Anomaly Detection ML-Based Systems //Machine Learning and Artificial Intelligence: Proceedings of MLIS 2020. - 2020. - Т. 332. - С. 152.
3. SCOPUS Q1: Zou, J., Xu, F., Zhang, Y., Petrosian, O. Krinkin, K. HighDimensional Explainable AI for Cancer Detection. 1 Sep 2021, In: International Journal of Artificial Intelligence. 19, 2, p. 195-217 23 p.
4. Scopus: Explainable AI: Graph Based Sampling Approach for High Dimensional AI System. Jinying Zou, Feiran Xu, Yin Li, Ovanes Petrosian.(It is sent and had passed the review round. Will published in Springer series Lecture Notes in Networks and Systems.)
Благодарности
Я хотел бы выразить благодарность моему научному руководителю Петросяну Ованесу Леоновичу за его неоценимую помощь и поддержку на протяжении всех четырех лет моей учебы и работы. В процессе исследования мы столкнулись со многими проблемами, и многие идеи казались неосуществимыми как на этапе проектирования, так и на этапе реализации. Тем не менее, мой руководитель оказал большую поддержку и руководство в плане проектирования решений, разработки алгоритмов и поддержания позитивного настроя. Кроме того, из-за конфликтов между работой и учебой я пережил период нестабильности и негатива. Я хотел бы поблагодарить мою жену и наших трех кошек за их эмоциональную поддержку и ободрение.
Наконец, я хотел бы поблагодарить всех авторов и исследователей, упомянутых в этой диссертации, а также организации и проектные группы, поддержавшие эту работу:
• Работа, описанная в главе 1, выполнена при поддержке Российского фонда фундаментальных исследований (РФФИ) в соответствии с проектом № 1800-00727 (18-00-00725).
• Работа в главе 2 выполнена при поддержке Министерства науки и высшего образования Российской Федерации Договором № 075-15-2020-933 от 13.11.2020 о предоставлении гранта в виде субсидии от федерального бюджета на реализацию государственной поддержки создания и развития научного центра мирового уровня «Павловский центр» «Интегративная физиология для медицины, высокотехнологичное здравоохранение и стрессоустойчивые технологии».
• Работа в главе 3 выполнена при поддержке Санкт-Петербургского государственного университета, ID проекта: 94062114.
В этой диссертации было проведено исследование интерпретируемых методов для многомерных систем ИИ. В ходе исследования были предложены и улучшены два интерпретируемых подхода для многомерных задач ИИ в двух основных приложениях ИИ: системах обнаружения аномалий в логах и системах обнаружения рака. В главе 1 рассматривались системы обнаружения аномалий в логах, и было предоставлено объяснение взаимосвязей между входом и выходом с использованием значения Шепли, основанного на деревьях решений. Кроме того, был разработан метод быстрого вычисления значений Шепли с применением двухуровневого подхода к алгоритму DeepLog на основе нейронных сетей. В главе 2 для систем обнаружения рака двухуровневый подход был улучшен до иерархического, основанного на методе k-means с ограничениями и методе сэмплирования для быстрого вычисления значений Шепли. Результаты двух подходов были схожи, были проведены симуляционные тесты как на локальную, так и на глобальную интерпретируемость. В главе 3 был предложен улучшенный вариант сэмплирования, а также было введено понятие карты отношений. Для построения матрицы взаимосвязей был использован коэффициент корреляции Пирсона. Также для улучшения качества и вычислительной эффективности сэмплирования был предложен подход к сэмплированию на основе смещенного случайного блуждания. Кроме того, были предложены более полная метрика сходимости сэмплирования, объединившая индекс корреляции Спирмена и MAE, и более разумная метрика оценки качества сэмплирования, основанная на сходстве между положительными и отрицательными вкладами.
Основные результаты:
• Были разработаны интерпретируемые подходы на основе значения Шепли для систем обнаружения аномалий в логах и двухуровневое решение, основанное на знаниях предметной области, для объяснения вклада событий в обнаружение аномалий логов. Двухуровневый подход значительно повысил эффективность вычислений.
• Двухуровневый подход для систем обнаружения рака был улучшен до иерархического двухуровневого подхода, основанного на кластеризации k- means с ограничениями, и использовании сэмплирования для быстрого вычисления значений Шепли. Результаты двух подходов были схожи, были проведены симуляционные тесты как на локальную, так и на глобальную интерпретируемость, которые это подтвердили.
• Для дальнейшего улучшения сэмплирования была предложена концепция карты взаимосвязей с использованием коэффициента корреляции Пирсона, а также применение смещенного случайного блуждания для улучшения качества сэмплирования и вычислительной эффективности. Кроме того, были предложены более комплексные показатели качества и сходимости сэмплирования.
[1] Lundberg SM et al. Explainable machine-learning predictions for the prevention of hypoxaemia during surgery. Nature Biomed. Engin., 2.10 (2018): 749-760.
[2] Holzinger A et al. What do we need to build explainable AI systems for the medical domain? arXiv preprint, arXiv:1712.09923. - 2017.
[3] Chandola V, Banerjee A, Kumar V. Anomaly detection: A survey. ACM Computing Surveys, 2009, 41(3).
[4] Hawkins D. Identification of outliers. Springer Netherlands, 1980, P. 188.
[5] Chalapathy R, Chawla S. Deep learning for anomaly detection: a survey, arXiv: Learning, 2019.
[6] Tkachenko R, Izonin I. Model and principles for the implementation of neural- like structures based on geometric data transformations. Adv Intell Syst Comput 754: 578-587.
[7] Izonin I, Tkachenko R, Kryvinska N, Tkachenko P. Multiple linear regression based on coefficients identification using non-iterative SGTM Neural-Like Structure. In International Work-Conference on Artificial Neural Networks, Springer, Cham, 2019 June, pp: 467-497.
[8] Tkachenko R, Izonin I, Vitynskyi P, Lotoshynska N, Pavlyuk O. Development of the noniterative supervised learning predictor based on the ITO decomposition and SGTM neural-like structure for managing medical insurance costs. Data, 2018, 3(4), 46.
[9] Antwarg L, Shapira B. Explaining anomalies detected by autoencoders using SHAP. arXiv preprint, arXiv:1903.02407. - 2019.
[10] Shapley LS. (August 21, 1951). Notes on the n-Person Game - II: The Value of an n-Person Game. Santa Monica, Calif.: RAND Corporation.
[11] Leon A P, Nikolay A Z. Game Theory (2nd Edition), World Scientific, 2016.
[12] Lundberg SM, Lee SI. A unified approach to interpreting model predictions. Neural Inform. Processing Syst., 2017, pp. 4765-4774.
[13] Sundararajan M, Najmi A. The many shapley values for model explanation. arXiv preprint, arXiv: 1908.08474, 2019.
[14] Aas K, Jullum M, Lpland A. Explaining individual predictions when features are dependent: More accurate approximations to shapley values. arXiv preprint, arXiv:1903.10464, 2019.
[15] Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B, Katz R, Himmelfarb J, Bansal N, Lee SI. From local explanations to global understanding with explainable AI for trees. Nature machine intelligence, 2020, 2(1): 2522-5839.
...