Тип работы:
Предмет:
Язык работы:


Реализация алгоритмов контрфактической минимизации сожаления в играх с неполной информацией

Работа №127426

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы36
Год сдачи2022
Стоимость4340 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
33
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Базовые понятия теории игр 8
Глава 2. Алгоритмы контрфактической минимизации сожалений 11
Глава 3. Практическая часть 17
Вывод 33
Заключение 34
Список литературы 35

Математические модели все чаще используются социологами, экономистами и аналитиками для моделирования реальных процессов в обществе и последующего их анализа. Одними из таких моделей являются модели принятия решений в условиях, когда имеются две и более конкурирующих стороны.
Теория игр - это прикладной раздел математики, исследующий модели принятия решений в условиях конфликта. Изучая эти модели и применяя их на практике, можно оптимизировать многие процессы в экономике, а также предотвращать чрезвычайные ситуации. Так, на-пример, по мнению Л. А. Петросяна и Н. А. Зенкевича, отсутствие исследований в области теории игр привело к финансовому кризису [10].
В 2000 году Харт и Мас-Колелл представили важный для теории игр алгоритм - “Regret matching” [7]. Игроки достигают равновесной игры, отслеживая сожаления за предыдущие игры и действуя в дальнейших раундах пропорционально накопленным положительным сожалениям.
Техника не только проста и интуитивна, она произвела революцию в компьютерном решении некоторых самых сложных игр с блефом. В частности, все побеждавшие с тех пор на ежегодных соревнованиях по компьютерному покеру программы основывались на ней [8].
Игры с несовершенной информацией моделируют стратегические взаимодействия между множеством агентов или игроков, обладающих частичной информацией. Они широко применяются в различных сферах жизни: в переговорах, аукционах, в кибербезопасности. Как правило, в таких играх каждый хочет найти приблизительное равновесие, при котором ни один игрок не сможет улучшить свой результат, отклонившись от равновесия в одиночку.
Контрфактическая минимизация сожаления - самый популярный алгоритм решения антагонистических игр с двумя игроками в развернутой форме с несовершенной информацией и достигает результатов на уровне развития области.
Существует несколько модификаций данного алгоритма, отличающихся скоростью сходимости. Данная работа посвящена исследованию этих модификаций.
Постановка задачи
Целью работы является изучение, реализация и сравнительный анализ алгоритмов контрфактической минимизации сожаления в играх с неполной информацией на примере игры Дудо.
Для достижения цели были поставлены следующие задачи:
1. Реализовать CFR с семплингом Монте-Карло.
2. Реализовать “Vanilla CFR” в векторной форме.
3. Реализовать CFR+ в векторной форме.
4. Реализовать семейство алгоритмов “Discounted CFR” в векторной форме.
5. Проведение сравнительного анализа эффективности реализованных алгоритмов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате работы над ВКР были решены следующие задачи:
1. Реализован CFR с семплингом Монте-Карло.
2. Реализован “Vanilla CFR” в векторной форме.
3. Реализован CFR+ в векторной форме.
4. Реализовано семейство алгоритмов “Discounted CFR” в векторной форме.
5. Проведен сравнительный анализ эффективности реализованных алгоритмов.



[1] Noam Brown, Adam Lerer, Sam Gross, Tuomas Sandholm. Deep Counterfactual Regret Minimization // arXiv:1811.00164. — 2019.— URL: https://proceedings.mlr.press/v97/brown19b/brown19b.pdf (online; accessed: 16.05.2022).
[2] Neil Burch. Time and Space: Why Imperfect Information Games are Hard : Ph. D. thesis / Burch Neil ; Department of Computing Science, University of Alberta.— 2017.— URL: https://tinyurl.com/NeilBurch(online; accessed: 25.05.2022).
[3] Noam Brown, Tuomas Sandholm. Solving Imperfect-Information Games via Discounted Regret Minimization // The Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19).— Computer Science Department, Carnegie Mellon University, 2019.— URL: https://tinyurl.com/DiscountedRegretMinimization (online; accessed: 26.05.2022).
[4] Oskari Tammelin. Solving Large Imperfect Information Games Using CFR+ // arXiv preprint arXiv:1407.5042. — 2014.— URL: https://arxiv.org/pdf/1407.5042.pdf (online; accessed: 15.04.2022).
[5] Martin Zinkevich, Michael Johanson, Michael Bowling, Carmelo Piccione. Regret minimization in games with incomplete information.— MIT Press, Cambridge, MA, 2007.— URL: https://tinyurl.com/RegretMinimization2007 (online; accessed: 25.05.2022).
[6] Richard Gibson. Regret Minimization in Games and the Development of Champion Multiplayer Computer Poker-Playing Agents : Ph. D. thesis / Gibson Richard ; Department of Computing Science, University of Alberta.— 2014.— URL: https://tinyurl.com/PhDGibson (online; accessed: 26.05.2022).
[7] Sergiu Hart, Andreu Mas-Collel. A Simple Adaptive Procedure Leading to Correlated Equilibrium // Econometrica, Vol. 68. — 2000.— URL: https://www.ma.imperial.ac.uk/~dturaev/Hart0.pdf (online; accessed: 31.05.2022).
[8] Todd W. Neller, Marc Lanctot. An Introduction to Counterfactual Regret Minimization.— 2013.— URL: https://tinyurl.com/CFRInro2013 (online; accessed: 25.05.2022).
[9] Документация библиотеки pytreemap.— URL: https://gavinphr.github.io/pytreemap/ (online; accessed: 30.10.2021).
[10] Петросян Л. А., Зенкевич Н. А. Теория игр и социально¬экономическое поведение // Электронная экономическая библиотека.— 1998.— URL: https://lukyanenko.at.ua/_ld/3/331
.pdf (online; accessed: 29.05.2022).


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ