Source:
论坛网站The 2nd Lecture
引入
安全挑战
非人为刻意引发
网络安全,公共安全(安检、自动驾驶),国防安全(侦察、遥感监测)等
人为刻意构造的全新类型攻击
对抗样本、噪音污染、数据投毒、数据伪造、后门攻击…
对抗样本
特点
一类被恶意设计来攻击AI模型的样本
- 与真实样本的差异不易感知
- 可以导致模型进行错误的判断
“脆弱性在深度学习中具有普遍性”(Nature 2019)
本次主要从对抗样本角度出发关注深度学习的脆弱性。
数字世界中的对抗样本
特点
- 微小扰动,不易觉察
- 语义不变而欺骗模型
攻击分类
- 黑盒攻击
- 白盒攻击
FGSM attack:2014,基于梯度的攻击
攻击假设:白盒,可以获得模型反向传播的梯度符号
特点
1.fast
2.sign
C&W attack:2017,基于优化的攻击
攻击假设:白盒,攻击者需要获得模型数据
数学理解
D:distance
C:classification
f: 目标函数。当且仅当 f(x+δ)≤0时, C(x+δ)=t
函数连续:因为要进行优化,所以目标函数需要是光滑连续有梯度的。
slow:因为涉及多步优化计算w,所以速度相对较慢。
PBBA:2017,基于迁移的攻击
- 攻击假设:黑盒
- 对代理模型的攻击迁移到其它模型
AdvGAN:2018,基于模型的攻击
攻击假设:白盒生成,需要获得受害者模型数据来计算adv-L
其它任务
Video Analysis
视频逐帧攻击
Speech Recognition
Natural Language Processing
自然语言处理领域的对抗样本:
对于人类,语序不影响阅读,而文本字母顺序的调换会让模型输出错误的结果。
Reinforcement Learning
强化学习领域对抗样本的运用实际上是对策略的攻击
一种理解是模型本身不够完善,没有学习到如何应对这个策略
防御
物理世界中的对抗样本
物理世界对抗样本:改造物理实体以进行攻击
受限于:感知器质量、光照强度、远近距离…
与数字世界对抗样本相比,物理世界对抗样本具有黑盒特性,更复杂,危险性更大
根据数字世界和物理世界的差异,给出对抗样本泛化定义:
1.对于人类,视觉上具备友好性 For human, it disguises as a normal example.
2.对于模型具有攻击性,可以欺骗模型 For models, it misleads the model predictions
反脆弱技术体系
脆弱性原理
从关键决策路径动态地来看:
关键攻击路径刻画了从输入端到决策输出端错误输出的传播路径,这是对模型泛化应用影响最大的路径。
表明神经网络中存在脆弱单元,脆弱路径。
从注意力机制来看:
模式识别存在一定偏好,可能对特定的特征(如纹理)有一定偏好(理解为容易激活)
脆弱性检测
深度学习网络的对抗鲁棒性和自然噪音鲁棒性往往呈现正相关。提高对抗鲁棒性利于整体鲁棒性的优化,这需要完备数据集的支撑。
问题:人工智能要想获得广泛使用,成为基础设施,就要有可靠性的保证。
挑战:建立完善的评估指标、技术规范和工具集,去测试其模型的可靠性。
反脆弱加固
数据端
过滤有害数据,但没有优化模型本身的反脆弱能力。
1.污染检测
对于数据进行domain迁移,数据增强,提高模型泛化能力
2.污染抑制
增加防御补丁
3.污染抑制
利用W-Distance来进行数据增强,提高模型泛化能力
模型端:提高鲁棒性
1.训练加固
模型单元增强:在中间层注入多样化的对抗噪音,提高鲁棒性,使其学习到更多的语义信息
2.结构优化:
抑制脆弱路径:剪枝,压缩,稀疏化,量化,一定程度上可以抑制噪音
中心加权归一化BN进行神经网络模型数据分布整合,提高模型分布的稳定性和收敛性,改善了曲率
Q&A
- 如何平衡模型的精确性和鲁棒性?
模型的精确性和鲁棒性使多因素共同作用下的结果,应该全面分析不同因素作用,综合考量设计优化目标 - 一种设想:大网络下的特定子网络结构具有鲁棒性