Введение 3
1. Постановка задачи 4
2. Существующие типы и методы атак 5
2.1. Атаки по типу цели 5
2.1.1. Атаки на изображения 5
2.1.2. Атаки на временные ряды 5
2.1.3. Атаки на агента в задачах обучения подкреплением 6
2.1.4. Атаки на аудио 6
2.1.5. Атаки на обработку естественного языка 6
2.2. Атаки по типу применения 6
2.2.1. Атаки на “белый ящик” 6
2.2.2. Атаки на “черный ящик” 8
2.2.3. Data poisoning 9
3. Существующие методы защиты от атак 10
3.1. Маскировка градиента 10
3.2. Повторное обучение модели 11
3.3. Добавление механизма детекции атакованных примеров 12
4. Разработка собственного метода защиты от атак 13
5. Эксперименты 18
6. Результаты 20
Список литературы 21
В современном мире модели машинного обучения используются повсеместно: при распознавании речи, жестов, поиске объектов на изображении, прогнозировании временных рядов, медицинской и технической диагностике, в биоинформатике, для высокочастотной торговли, обнаружения фрода, кредитного скоринга и во многих других сферах.
К сожалению, многие модели машинного обучения чувствительны к некорректным входным данным. К примеру, оригинальный метод опорных векторов очень чувствителен к шуму, а глубокая сверточная нейронная сеть может быть обманута специальными изображениями. Такие изображения создаются атакующими сетями. При недостаточно большом размере набора данных для обучения деревья решений часто имеют области признакового пространства, в котором объекты могут неправильно классифицироваться (рис. 1).
На некоторые модели машинного обучения намеренно производятся атаки. Они могут быть использованы для защиты от автоматического ввода капчи, сокрытия от распознавания лиц, обхода антиспам-систем или для некорректного распознавания дорожных знаков беспилотными автомобилями. Именно такие методы, направленные на введение в заблуждение моделей машинного обучения, и называются состязательными атаками. Для защиты от подобных атак необходимо использовать специальные модификации моделей машинного обучения.
В ходе выполнения работы были достигнуты следующие результаты:
• Изучены существующие методы состязательных атак.
• Проанализированы существующие методы защиты от атак.
• Разработаны собственные методы защиты от атак.
• Проведено тестирование собственного метода.