深度学习反脆弱技术的攻防和测评By刘祥龙

Source:

论坛网站The 2nd Lecture

引入

安全挑战

非人为刻意引发
网络安全,公共安全(安检、自动驾驶),国防安全(侦察、遥感监测)等

人为刻意构造的全新类型攻击
对抗样本、噪音污染、数据投毒、数据伪造、后门攻击…

对抗样本

特点

一类被恶意设计来攻击AI模型的样本

  1. 与真实样本的差异不易感知
  2. 可以导致模型进行错误的判断

“脆弱性在深度学习中具有普遍性”(Nature 2019)
本次主要从对抗样本角度出发关注深度学习的脆弱性。

数字世界中的对抗样本

特点

  1. 微小扰动,不易觉察
  2. 语义不变而欺骗模型

攻击分类

  1. 黑盒攻击
  2. 白盒攻击

FGSM attack:2014,基于梯度的攻击

攻击假设:白盒,可以获得模型反向传播的梯度符号

特点
1.fast
2.sign

C&W attack:2017,基于优化的攻击

攻击假设:白盒,攻击者需要获得模型数据

数学理解
D:distance
C:classification
f: 目标函数。当且仅当 f(x+δ)≤0时, C(x+δ)=t

函数连续:因为要进行优化,所以目标函数需要是光滑连续有梯度的。
slow:因为涉及多步优化计算w,所以速度相对较慢。

PBBA:2017,基于迁移的攻击

  1. 攻击假设:黑盒
  2. 对代理模型的攻击迁移到其它模型

AdvGAN:2018,基于模型的攻击

攻击假设:白盒生成,需要获得受害者模型数据来计算adv-L

其它任务

Video Analysis

视频逐帧攻击

Speech Recognition
Natural Language Processing

自然语言处理领域的对抗样本:
对于人类,语序不影响阅读,而文本字母顺序的调换会让模型输出错误的结果。

Reinforcement Learning

强化学习领域对抗样本的运用实际上是对策略的攻击
一种理解是模型本身不够完善,没有学习到如何应对这个策略

防御

物理世界中的对抗样本

物理世界对抗样本:改造物理实体以进行攻击
受限于:感知器质量、光照强度、远近距离…
与数字世界对抗样本相比,物理世界对抗样本具有黑盒特性,更复杂,危险性更大

根据数字世界和物理世界的差异,给出对抗样本泛化定义:
1.对于人类,视觉上具备友好性 For human, it disguises as a normal example.
2.对于模型具有攻击性,可以欺骗模型 For models, it misleads the model predictions

反脆弱技术体系

脆弱性原理

从关键决策路径动态地来看:
关键攻击路径刻画了从输入端到决策输出端错误输出的传播路径,这是对模型泛化应用影响最大的路径。
表明神经网络中存在脆弱单元,脆弱路径。

从注意力机制来看:
模式识别存在一定偏好,可能对特定的特征(如纹理)有一定偏好(理解为容易激活)

脆弱性检测

深度学习网络的对抗鲁棒性和自然噪音鲁棒性往往呈现正相关。提高对抗鲁棒性利于整体鲁棒性的优化,这需要完备数据集的支撑。

问题:人工智能要想获得广泛使用,成为基础设施,就要有可靠性的保证。
挑战:建立完善的评估指标、技术规范和工具集,去测试其模型的可靠性。

反脆弱加固

数据端

过滤有害数据,但没有优化模型本身的反脆弱能力。

1.污染检测

对于数据进行domain迁移,数据增强,提高模型泛化能力

2.污染抑制

增加防御补丁

3.污染抑制

利用W-Distance来进行数据增强,提高模型泛化能力

模型端:提高鲁棒性

1.训练加固

模型单元增强:在中间层注入多样化的对抗噪音,提高鲁棒性,使其学习到更多的语义信息

2.结构优化:

抑制脆弱路径:剪枝,压缩,稀疏化,量化,一定程度上可以抑制噪音
中心加权归一化BN进行神经网络模型数据分布整合,提高模型分布的稳定性和收敛性,改善了曲率

Q&A

  • 如何平衡模型的精确性和鲁棒性?
    模型的精确性和鲁棒性使多因素共同作用下的结果,应该全面分析不同因素作用,综合考量设计优化目标
  • 一种设想:大网络下的特定子网络结构具有鲁棒性