The Transfer-based Black-box Attack Method by 韦星星

观后感

Source The 4th Lecture

基于Spatial Momentum的迁移性增强方法

FGSM : Fast Gradient Sign Method

白盒场景下,用符号获得梯度方向,在原图增加噪声(对抗扰动)来生成对抗样本,是一种单步迭代攻击。

I-FGSM : Iterative Fast Gradient Sign Method

多步迭代攻击,拟合效果更好了,但是迁移性不太好(可以从overfit角度直观理解)

时序累加角度:时间域变换

MI-FGSM

时序上的梯度累加:当前梯度+过去梯度

NI-FGSM

数据增广角度:空间域变换

DII-FGSM : Diverse Inputs

从数据增强角度,对输入数据有概率p进行随机大小的resize

TI-FGSM : Translation invariant - FGSM

从数据增强角度,考虑像素点的领域(高斯)来生成对抗样本。

时空累加角度

R-DIMI-FGSM

考虑梯度在空间上的累加,比较范围更广

图像检测对抗样本的生成

现有方法问题

现有攻击方法常常针对Fast-rcnn,攻击模型中的的分类模块(常常表征高级特征),而有些图像检测模型如yolo模型中无分类模块,则导致迁移性差。

  1. 迁移性差,在一个模型训练生成的对抗样本往往无法成功攻击另一个模型。
  2. 时间复杂度高

改进

改进描述

一种想法是对抗样本迁移和模型之间的共性相关。要想增强迁移能力,则应该从模型间的共性切入。

传统方法是攻击Fast-rcnn模型中的分类模块,而有些模型中不存在分类模块,则分类模块显然不是模型的共同子架构。

因此,提出基于base network的对抗样本生成,取Fast-rcnn模型中一些普遍应用的架构(如VGG、ResNet一些经典架构…),用attention机制来定位特征层的目标机制,增加feature loss,从中间特征层入手破坏物体特征层的特征(原来是直接攻击模型更后面更高级的分类模块),获得更高的迁移性。

Q1 :底层特征更共性?

这时候可能有人会提出一个问题,既然攻击迁移性往往和模型之间的共同点高度相关,那为什么不选取破坏更加具有共性的底层特征来获得更大的迁移性呢?回答是这样对图片的破坏较大,会导致对抗样本和原图的距离较远,选择在中间特征层攻击是对图片质量(和原图的相似度)和迁移性的权衡结果。

进一步解释,神经网络往往是一个放大的过程,在底层添加微小噪声,经过网络不断放大,最终和原图便相去甚远。

Q&A

Q1:可以从什么角度切入提高迁移性?

  1. 从梯度出发,找到一个更泛化的梯度计算的方法
  2. 从模型架构共性出发。现在的模型架构趋于模块化,更容易找到共性,提高迁移性。
  3. (笔者目前个人认为)从模型拟合数据分布的角度出发。不同模型学到的知识不同,有的模型注重纹理有的注重轮廓。

Q2 :无法被迁移攻击的模型?

  1. 从模型架构共性出发:黑盒场景下,如果一个模型无法被迁移攻击,那么说明本地模型和目标模型相似度极低。这不太符合现实应用。不过脉冲神经网络或许是一个角度。
  2. 从模型拟合数据分布角度出发:往往经过对抗训练的模型会具有更高的鲁棒性,相同架构下往往会更难以被对抗攻击,这表明模型拟合出了一个不一样的分布,这个分布含有更多的知识。(有点像“吃一堑长一智”,模型之前见识过了对抗攻击,便学会了如何应对)

Q3 :语义角度的迁移攻击?

现有方法往往修改图像亮度、锐度、饱和度等属性(对抗属性)来生成对抗样本。可以进行扩展,尝试修改一些视觉友好的语义属性(比如颜色)来生成对抗样本,思考并探索:哪种属性更易于迁移?

Q4 :如何寻找共性?

  1. 从data的特征空间变换角度,可以寻找不同模型之间的一致性
  2. 从降维解构角度,可以实现降低搜索维度,在低维空间中搜索降低时间复杂度,在高维空间中攻击获得好的攻击效果。

Q5 :迁移性的理论相关?

目前理论尚待完善。

关于可迁移性的度量,由于迁移并不独立存在,一定是从一个模型到另一个模型,所以目前也无统一度量方法。

Q6 :可证明的迁移攻击的防御

由于目前迁移攻击的发展空间巨大(效果很差成功率很低),所以没有相关的防御。一般经过对抗训练就能很好地防御了。