Тип работы:
Предмет:
Язык работы:


Разработка архитектуры глубокой нейронной сети для поддержки причинно-следственного вывода

Работа №167000

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы13
Год сдачи2024
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
6
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор существующих решений 5
1. Пререквизиты к поставленной задаче 7
1.1. Structural Causal Model 7
1.2. Оператор do 8
2. Метод 9
2.1. Мотивация 9
2.2. Continuous Normalizing Flows 9
2.3. Flow Matching 10
2.4. Модель CaFM 11
2.4.1 Обучение 12
2.4.2 Алгоритм ответа на Interventional вопросы 12
2.4.3 Алгоритм ответа на Counterfactual вопросы 13
3. Эксперименты 15
3.1. Синтетические данные 15
3.2. Результаты 16
3.3. Детали реализации 17
Заключение 18
Список литературы 19

Причинно-следственный вывод (Causal Inference) - это процесс установления заключений о причинно-следственной связи в данных на основе
условий возникновения эффекта. В отличие от выявления корреляций (классические задачи машинного обучения, например, предсказание целевой переменной), эта область направлена на понимание того, как изменение одной
переменной непосредственно влияет на другую, что активно применяется в
исследованиях медицины, экономики, статистики, биологии, политики, социологии и многих других. Например, в экономике причинно-следственный
вывод помогает в анализе рыночного поведения: как различные факторы влияют на действия потребителей и производителей.
Наиболее эффективным способом установления причинно-следственных связей является проведение рандомизированного контролируемого исследования (RCT), в ходе которого участники случайным образом распределяются на тестовую и контрольную группы. При проведении такого исследования рассматривают разницу изучаемой переменной результата между
тестовой и контрольной группами. Однако в реальности RCT всегда требуют
много времени и средств, и поэтому исследование не может включать большое количество испытуемых, что может оказаться нерепрезентативным для
реальной популяции, на которую в конечном итоге будет направлено лечение.
Кроме того, в большинстве рандомизированных контролируемых исследований необходимо учитывать этические вопросы, что тоже может ограничивать
их применение. Таким образом, например, в медицине, когда проведение RCT
затруднительно, используют методы причинно-следственного вывода.
Именно поэтому в настоящее время выявление причинно-следственных
связей исключительно по наблюдаемым данным стало важным и привлекательным предметом для исследования ввиду наличия больших массивов данных и низкому бюджету по сравнению с рандомизированными контролируемыми исследованиями. Для наблюдаемых данных основной вопрос заключается в том, как получить контрфактический результат. Например, мы хотим
ответить на вопрос: "Какой был бы эффект для данного пациента, если бы
мы назначили ему другое лечение". Однако есть несколько трудностей при
3ответе на подобные вопросы. Во-первых, у нас есть информация лишь по
результату, который произошел на самом деле. Во-вторых, в наблюдаемых
данных лечение, как правило, назначается не случайным образом, что может
привести к тому, что группа людей, которым было назначено определенное
лечение, будет значительно отличаться от общей популяции [1].
Применение методов глубокого обучения начало стремительно набирать популярность в этой области за счет следующих свойств, присущих
нейронным сетям: обучение эффективных представлений из данных, способность качественно аппроксимировать механизмы/процессы генерации данных, в частности, генеративные модели глубокого обучения позволяют генерировать правдоподобные контрфактические данные [5, 6]. Более того,
нейросетевые методы обработки данных требуют очень мало априорных знаний и не делают много предположений о взаимосвязи между переменными,
что позволяет делать выводы о причинно-следственных связях в данных даже при наличии ненаблюдаемых факторов, а также эффективно проводить
вмешательства в данные (то есть изменение каких-то переменных с целью
получения контрфактического результата).
Требуется уметь отвечать на все три типа вопросов причинно-следственного вывода:
1. Observational. Как выглядит изучаемая популяция данных? Мы должны
оценить распределение наблюдаемых данных (observational распределение) и уметь семплировать из него.
2. Interventional. Какой был бы эффект на популяцию, если какой-то переменной присвоили другое значение (такое действие называется вмешательство или интервенция)? Мы должны оценить так называемое
interventional распределение, то есть распределение данных после вмешательства, а также уметь семплировать из него.
3. Counterfactual. Как выглядел бы конкретный объект из популяции, если
какой-то переменной было присвоено другое значение? В отличие от
Interventional вопроса здесь задача на уровне одного объекта, то есть
оценить потенциальные изменения в характеристиках данного конкретного объекта, предъявить контрфактический объект


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Был разработан новый метод аппроксимации SCM, способный отвечать
на все типы причинно-следственных вопросов с использованием современного state-of-the-art подхода в генеративном моделировании – непрерывных
нормализующих потоков, обученных с помощью Flow Matching, показывающий лучшее качество на синтетическом бенчмарке по сравнению с предыдущими методами. Так как предложенный метод не требует априорных знаний
или предположений, а только причинно-следственного графа из наблюдаемых данных, то он может применяться на практике, где требуется оценить
эффект изменения каких-либо переменных, например, в медицине (оценить
влияние изменения лекарства на другое на показатели состояния человека),
экономике (влияние повышения или понижения заработной платы на уровень
безработицы) и других.


[1] Liuyi Yao, Zhixuan Chu, Sheng Li, Yaliang Li, Jing Gao, and Aidong Zhang. 2021. A Survey on Causal Inference. ACM Trans. Knowl. Discov. Data 15, 5, Article 74 (May 2021).
[2] Judea Pearl. 2009. Causality. Cambridge University Press.
[3] Bernard Koch, Tim Sainburg, Pablo Geraldo, Song Jiang, Yizhou Sun and Jacob Gates Foster. 2021. A Primer on Deep Learning for Causal Inference. arXiv:2110.04442
[4] Zizhen Deng, Xiaolong Zheng, Hu Tian, and Daniel Dajun Zeng. 2022. Deep Causal Learning: Representation, Discovery and Inference. arXiv (2022).
[5] Yoon, Jinsung, James Jordon, and Mihaela Van Der Schaar. 2018. GANITE: Estimation of Individualized Treatment Effects using Generative Adversarial Nets. In International Conference on Learning Representations.
[6] Christos Louizos, Uri Shalit, Joris M. Mooij, David Sontag, Richard Zemel, and Max Welling. 2017. Causal effect inference with deep latent-variable models. In Advances in Neural Information Processing Systems. 6446-6456.
[7] George Papamakarios, Eric T Nalisnick, Danilo Jimenez Rezende, Shakir Mohamed, and Balaji Lakshminarayanan. 2021. Normalizing Flows for Probabilistic Modeling and Inference. J. Mach. Learn. Res. 22, 57 (2021), 1-64.
[8] Pedro Sanchez and Sotirios A. Tsaftaris. Diffusion causal models for counterfactual estimation. In CLeaR, 2022.
[9] Patrick Chao, Patrick Blobaum, and Shiva Prasad Kasiviswanathan. Interventional and counterfactual inference with diffusion models. ArXiv preprint, abs/2302.00860, 2023.
[10] Pablo Sanchez-Martin, Miriam Rateike, and Isabel Valera. Vaca: Design of variational graph autoencoders for interventional and counterfactual queries. ArXiv, abs/2110.14690, 2021.
[11] Ilyes Khemakhem, Ricardo Monti, Robert Leech, and Aapo Hyvarinen. Causal autoregressive flows. In Arindam Banerjee and Kenji Fukumizu, editors, Proceedings of The 24th International Conference on Artificial Intelligence and Statistics, volume 130 of Proceedings of Machine Learning Research, pages 3520-3528. PMLR, 13-15 Apr 2021.
[12] Y. Lipman, R. T. Q. Chen, H. Ben-Hamu, M. Nickel, and M. Le. Flow matching for generative modeling. In International Conference on Learning Representations, 2023.
[13] Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, and David K Duvenaud. Neural ordinary differential equations. Advances in neural information processing systems, 31, 2018.
[14] Arthur Gretton, Karsten M. Borgwardt, Malte J. Rasch, Bernhard Scholkopf, and Alexander Smola. A kernel two-sample test. Journal of Machine Learning Research, 13(25):723-773, 2012.
[15] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Kopf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., and Chintala, S. Pytorch: An imperative style, high-performance deep learning library. In Advances in Neural Information Processing Systems 32, pp. 8024-8035, 2019.
[16] M. Poli, S. Massaroli, A. Yamashita, H. Asama, and J. Park. Torchdyn: A neural differential equations library. arXiv preprint arXiv:2009.09346, 2020.
[17] A. Sharma and E. Kiciman. 2020. DoWhy: An end-to-end library for causal inference. arXiv:2011.04216, 2020.




Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ