本文作者分别来自中国科学院大学和中国科学院计算技术研究所。第一作者裴高政为中国科学院大学博士二年级学生,本工作共同通讯作者是中国科学院大学马坷副教授和黄庆明教授。
对抗净化旨在测试阶段将对抗图像还原为其原始的干净图像。现有的基于扩散模型的对抗净化策略试图通过前向过程将对抗扰动淹没在各向同性噪声中,随后通过逆向过程恢复干净图像。然而,现有策略在时域(即像素空间)无法对干净像素与对抗扰动进行解耦,导致破坏对抗扰动的同时不可避免地损害原始干净图像的语义信息。
因此,本文从时域转向频域进行研究。具体来说,本文利用傅里叶分解技术将图像分解为幅度谱和相位谱,探讨了对抗扰动的分布特征:结果表明,对抗扰动更倾向于破坏高频幅度谱和相位谱。基于这一实验观察,本文提出在扩散模型的逆向过程中注入原始样本的低频信息作为先验,以引导干净样本的生成。这种方法不仅能够有效去除对抗扰动,同时极大地保留了原始图像的语义内容和结构信息,使得净化后的图像尽可能保持与干净样本的语义相似性。
本工作对应的论文和代码均已开源。
论文题目:Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain
论文链接:pdf/2505.01267
代码链接:GaozhengPei/FreqPure
研究背景
在计算机视觉领域,对抗样本的出现对模型的安全性和鲁棒性构成了重大挑战。对抗样本是通过对正常图像施加微小扰动生成的,这些扰动通常难以被人眼察觉,但却能显著降低深度学习模型的性能。为了解决这一问题,研究者们提出了多种对抗净化(Adversarial Purification)技术,旨在将对抗样本恢复为原始的干净图像。
现有的对抗净化方法主要分为两类:基于训练的方法和基于扩散模型的方法。基于训练的方法需要在训练阶段使用对抗样本进行训练,以提高模型的鲁棒性,但这通常需要大量的训练数据和时间。相比之下,基于扩散模型的净化方法不依赖于训练数据,具有更强的泛化能力且无需训练过程,其基本策略是通过向图像添加噪声并在反向过程中恢复干净图像,从而消除对抗样本中的对抗扰动。
对抗净化具有重要意义,尤其是在深度学习被广泛应用于安全关键领域(如自动驾驶、金融分析和医疗影像等)时,确保模型的安全性显得尤为重要。对抗净化方法能够降低对抗攻击对系统造成的潜在威胁,从而提升应用系统的整体安全性和可靠性。
动机和理论分析
图 1:图像被分解为幅度谱(左)和相位谱(右),并分别计算对抗图像与原始图像之间的差异。对抗净化成功的关键是在消除对抗扰动的同时尽可能的保留原始图像的语义信息,然而当前通过加入噪声将对抗扰动淹没在各向同性噪声中的策略会过度的破坏原始图像的语义信息,导致最后净化的图像和原始图像之间的语义信息有差距。而通过对抗样本引导的逆向过程可以尽可能少的损失语义信息,然而也会引入对抗扰动信息,导致净化的图像无法尽可能的去除图片上的对抗扰动信息。为解决上述存在的矛盾,我们希望将对抗扰动和图像本身的语义信息进行解耦,在扩散模型逆向过程中用干净的语义信息作为引导,就可以实现去除对抗扰动的同时,又可以保持和原始图像的语义相似程度。
为了将对抗扰动和干净的图像语义信息解耦开来,我们选择快速傅里叶变换技术,将图像分解为幅度谱和相位谱,通过计算对抗样本的幅度谱和相位谱和原始干净样本的幅度谱和相位谱之间的差异,我们可以绘制从低频到高频幅度谱和相位谱之间的差异(图 1),可以观察到对抗扰动更倾向于破坏图像的高频信息,而低频信息对对抗扰动更加鲁棒。
图 2:理论分析结果的实验验证对于幅度谱和相位谱来说,噪声强度对任何频率的结构信息和内容信息随时间步 t 单调递增:
图 2 的实验结果也验证了我们的理论分析,同时我们也发现,相位谱会被噪声更快的破坏,因此在逆向过程中保留相位谱非常的关键。方法
图一实验现象表明低频幅度谱成分对对抗性扰动表现出显著的鲁棒性,几乎不受对抗扰动的影响。且由于自然信号(如图像)通常表现出低通特性,这意味着低频功率谱成分相对较大。即使保留很少的低频幅度谱信息,也能够保留大部分的图像的内容信息。我们首先对幅度谱构造一个滤波器:
使用上面定义的滤波器 ,我们可以将估计图像幅度谱的低频成分替换为输入样本幅度谱的低频成分,适用于每个通道(彩色图像通常由三个通道组成:RGB),具体如下:
不同于幅度谱,相位谱受到所有频率成分的对抗性扰动影响。直接保留低频相位谱会保留对抗性扰动,同时也会影响高频相位谱的恢复。因此,我们选择将估计图像的低频相位谱投影到输入图像的低频相位谱的某个范围内:
根据更新后的幅度谱和相位谱,我们将两者结合,首先通过逆离散傅里叶变换(iDCT)获得时间域表示,如下所示:
下一个状态可以从联合分布中采样,具体公式为:
实验效果
CIFAR10
表 1:在 WideResNet-28-10 模型以及 WideResNet-70-16 上测试。相比于 SOTA,本文方法在论 Standard Accuracy 以及 Robust Accuracy 两个指标均有提升。
ImageNet
表 2:使用 ResNet-50 作为分类器,在 ImageNet 数据集上的 Standard Accuracy 以及 Robust Accuracy
可视化
图 3:原始干净图像、对抗图像和净化图像的可视化。本文方法净化后的图像与原始干净图像最为相似图 4:原始图像和净化图像的联合分布。本文方法净化后的图像分布与原始图像最为相似。结语