深度学习反脆弱技术的攻防和测评By刘祥龙

2022-10-18 AISP 对抗样本 0 Comments Word Count: 1.2k(words) Read Count: 4(minutes)

Source:

论坛网站The 2nd Lecture

引入

安全挑战

非人为刻意引发
网络安全，公共安全（安检、自动驾驶），国防安全（侦察、遥感监测）等

人为刻意构造的全新类型攻击
对抗样本、噪音污染、数据投毒、数据伪造、后门攻击…

对抗样本

特点

一类被恶意设计来攻击AI模型的样本

与真实样本的差异不易感知
可以导致模型进行错误的判断

“脆弱性在深度学习中具有普遍性”（Nature 2019）
本次主要从对抗样本角度出发关注深度学习的脆弱性。

数字世界中的对抗样本

特点

微小扰动，不易觉察
语义不变而欺骗模型

攻击分类

黑盒攻击
白盒攻击

FGSM attack:2014,基于梯度的攻击

攻击假设：白盒，可以获得模型反向传播的梯度符号

特点
1.fast
2.sign

C&W attack:2017,基于优化的攻击

攻击假设：白盒，攻击者需要获得模型数据

数学理解
D：distance
C：classification
f: 目标函数。当且仅当 f(x+δ)≤0时, C(x+δ)=t

函数连续：因为要进行优化，所以目标函数需要是光滑连续有梯度的。
slow：因为涉及多步优化计算w，所以速度相对较慢。

PBBA:2017,基于迁移的攻击

攻击假设：黑盒
对代理模型的攻击迁移到其它模型

AdvGAN:2018,基于模型的攻击

攻击假设：白盒生成，需要获得受害者模型数据来计算adv-L

其它任务

Video Analysis

视频逐帧攻击

Speech Recognition

Natural Language Processing

自然语言处理领域的对抗样本：
对于人类，语序不影响阅读，而文本字母顺序的调换会让模型输出错误的结果。

Reinforcement Learning

强化学习领域对抗样本的运用实际上是对策略的攻击
一种理解是模型本身不够完善，没有学习到如何应对这个策略

防御

物理世界中的对抗样本

物理世界对抗样本：改造物理实体以进行攻击
受限于：感知器质量、光照强度、远近距离…
与数字世界对抗样本相比，物理世界对抗样本具有黑盒特性，更复杂，危险性更大

根据数字世界和物理世界的差异，给出对抗样本泛化定义：
1.对于人类，视觉上具备友好性 For human, it disguises as a normal example.
2.对于模型具有攻击性，可以欺骗模型 For models, it misleads the model predictions

反脆弱技术体系

脆弱性原理

从关键决策路径动态地来看：
关键攻击路径刻画了从输入端到决策输出端错误输出的传播路径，这是对模型泛化应用影响最大的路径。
表明神经网络中存在脆弱单元，脆弱路径。

从注意力机制来看：
模式识别存在一定偏好，可能对特定的特征（如纹理）有一定偏好（理解为容易激活）

脆弱性检测

深度学习网络的对抗鲁棒性和自然噪音鲁棒性往往呈现正相关。提高对抗鲁棒性利于整体鲁棒性的优化，这需要完备数据集的支撑。

问题：人工智能要想获得广泛使用，成为基础设施，就要有可靠性的保证。
挑战：建立完善的评估指标、技术规范和工具集，去测试其模型的可靠性。

反脆弱加固

数据端

过滤有害数据，但没有优化模型本身的反脆弱能力。

1.污染检测

对于数据进行domain迁移，数据增强，提高模型泛化能力

2.污染抑制

增加防御补丁

3.污染抑制

利用W-Distance来进行数据增强，提高模型泛化能力

模型端：提高鲁棒性

1.训练加固

模型单元增强：在中间层注入多样化的对抗噪音，提高鲁棒性，使其学习到更多的语义信息

2.结构优化：

抑制脆弱路径：剪枝，压缩，稀疏化，量化，一定程度上可以抑制噪音
中心加权归一化BN进行神经网络模型数据分布整合，提高模型分布的稳定性和收敛性，改善了曲率

Q&A

如何平衡模型的精确性和鲁棒性？
模型的精确性和鲁棒性使多因素共同作用下的结果，应该全面分析不同因素作用，综合考量设计优化目标
一种设想：大网络下的特定子网络结构具有鲁棒性

本文链接： https://cyccyyycyc.github.io/2022/10/18/深度学习反脆弱技术的攻防和测评By刘祥龙/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Cy