AFOG | 一招破解CNN/Transformer检测器，97%剪枝率下性能反升30.6% - 文章 - 开发者社区

点击下方名片，关注「集智书童」公众号

picture.image

精简阅读版本

本文主要解决了什么问题

1. 现有的目标检测对抗扰动方法要么仅限于攻击基于CNN的检测器，要么对基于Transformer的检测器效果较弱。
1. 基于替代模型的攻击（黑盒攻击）在受害者架构与替代模型不相似时性能较差，而专门针对Transformer的攻击不适用于卷积检测器。
1. 需要一种统一、高效且隐蔽的对抗扰动方法，能够同时攻击基于Transformer和CNN的目标检测器。

本文的核心创新是什么

1. 利用可学习的注意力机制，将扰动集中于多框检测任务中的脆弱图像区域，相较于非注意力Baseline模型，性能提升高达30.6%。
1. AFOG的攻击损失通过整合两种类型的特征损失（边界框损失和类别损失），结合可学习的注意力更新和对抗扰动的迭代注入来构建。
1. AFOG是一种高效且隐蔽的对抗扰动方法，通过添加视觉上难以察觉的扰动来使训练良好的目标检测模型失效。
1. 提出了AFOG的两个特殊情况：AFOG-V（物体消失攻击）和AFOG-F（物体伪造攻击），分别针对不同的恶意检测行为。

结果相较于以前的方法有哪些提升

1. 在所有十二种检测Transformer上表现出持续的有效性，实现了高攻击成功率，将良性mAP（平均精度均值）降低了高达37.79倍。
1. 在速度和隐蔽性方面优于现有的基于Transformer和基于CNN的目标检测攻击方法，性能提升高达83%。
1. 在Swin Transformer上的性能比第二强的攻击提高了8.27%，同时使用了最小的扰动预算和最少的迭代次数。
1. 在攻击基于CNN的检测器方面，对于Faster-R-CNN，AFOG优于其他四种基于目标的攻击，实现了最低的对抗mAP分数（2.07%）。
1. 可学习注意力机制在InternImage上提升了高达30.6%的性能，并在所有模型中平均提升了15.1%。

局限性总结

1. 在部分情况下，AFOG未能成功破坏受害者输入图像的中心主体（如行人），导致攻击失败。
1. AFOG的对抗注意力有时会聚焦于错误的像素，导致攻击未能有效破坏目标与模型之间的关联。
1. 在两个最大的检测Transformer模型（DETA和EVA）上，AFOG的L2和SSIM得分较差，表明在这些模型上的不可感知性降低。
1. 攻击检测Transformer模型所需的时间与模型参数数量密切相关，对于参数量大的模型（如EVA有超过10亿个参数），攻击时间显著延长。
1. 对于DETA模型，即使参数数量与其他模型相似，攻击时间也始终大约延长1.5-2倍，表明在某些特定架构上效率降低。

深入阅读版本

导读

对抗扰动是揭示神经网络漏洞的有效工具。现有的目标检测对抗扰动方法要么仅限于攻击基于CNN的检测器，要么对基于Transformer的检测器效果较弱。本文提出了一种针对目标检测Transformer的注意力聚焦攻击梯度（AFOG）攻击方法。根据设计，AFOG对神经网络架构具有无关性，并有效针对大型基于Transformer的目标检测器和传统的基于CNN的检测器，采用统一的对抗注意力框架进行攻击。本文提出了三个原创性贡献。首先，AFOG利用可学习的注意力机制，将扰动集中于多框检测任务中的脆弱图像区域，相较于非注意力 Baseline 模型，性能提升高达30.6%。其次，AFOG的攻击损失通过整合两种类型的特征损失，结合可学习的注意力更新和对抗扰动的迭代注入来构建。最后，AFOG是一种高效且隐蔽的对抗扰动方法。它通过添加策略生成的、视觉上难以察觉的扰动来检测检测Transformer的薄弱环节，这些扰动能够使训练良好的目标检测模型失效。在COCO数据集上对十二个大型检测Transformer进行的广泛实验验证了AFOG的有效性。作者的实证结果表明，AFOG在速度和隐蔽性方面优于现有的基于Transformer和基于CNN的目标检测攻击方法，性能提升高达83%。代码可在以下链接获取：Link。

引言

基于Transformer的神经架构和算法近年来蓬勃发展，提升了包括目标检测在内的计算机视觉任务。注意力机制是Transformer架构的核心[31]。注意力机制使检测器能够基于感兴趣的目标，专注于图像的特定区域，从而有效预测每个潜在目标的存在和位置。借助多种注意力机制，检测Transformer能够比一些传统方法更有效地处理重叠目标，因为它们能够捕捉图像中的长距离依赖关系，使模型能够推理目标之间的关系。由于现代目标检测Transformer如Swin[21]和DETR[4]显著优于传统卷积神经网络（CNN）模型[9]，以Faster R-CNN[29]、SSD[20]和YOLO-v3[28]为代表，因此迫切需要研究和理解在对抗性扰动存在时，大型检测Transformer的脆弱性。对抗性扰动是揭示大型检测Transformer脆弱性的有效工具，使其成为推动开发更鲁棒的Transformer目标检测模型的机制。

现有的攻击方法难以破坏基于transformer的目标检测器。基于替代模型的攻击（也称为黑盒攻击），如UEA [34]和RAD [5]，在替代模型上生成扰动，然后在具有相似检测架构的受害者检测器上进行推理以测试对抗效果。然而，当受害者架构与用于生成对抗扰动的替代模型不相似时，基于替代模型的攻击会遭受攻击性能差的问题。基于受害者（也称为白盒）的攻击，如EBAD [3]和OATB [13]，通过直接对受害者模型进行推理来生成对抗攻击。最近的研究，如AttentionFool [23]，专门针对基于transformer的受害者模型，但这些仅针对transformer的攻击不适用于卷积检测器，如YOLO [28]。

在本文中，作者提出了一种注意力聚焦攻击梯度（AFOG）攻击方法，该方法对受害者架构具有无关性，并且能够有效攻击先进的目标检测Transformer和传统的基于CNN的检测器。AFOG在设计上具有三个新颖的特性。首先，受Transformer自注意力的启发，作者利用可学习的注意力机制，使AFOG能够自适应地将对抗扰动聚焦于多框检测任务中易受影响的图像区域（即扰动对输出影响最大的区域）。其次，作者通过将基于可学习特征图的注意力更新与对抗扰动的迭代注入相结合，构建了AFOG的攻击损失函数。最后，作者设计AFOG成为一种高效且隐蔽的对抗扰动方法。所谓高效，是指AFOG能够在最少的迭代次数内快速生成对抗扰动；所谓隐蔽，是指AFOG能够生成视觉上难以察觉的小量扰动，但这些扰动却能导致训练良好的目标检测器产生错误的检测结果。图1展示了针对三种检测Transformer的AFOG成功攻击的示例。第1行显示了三种最先进检测器的良性检测结果，第2行和第3行分别展示了三种检测器上的AFOG对抗扰动及其对应的AFOG对抗注意力图，第4行显示了在AFOG攻击下的检测结果。作者使用COCO基准[19]和三种流行的基于CNN的目标检测器系列，在十二种最先进的目标检测Transformer上对AFOG进行了广泛的实验验证。结果表明，与现有方法相比，AFOG在所有十二种检测Transformer上均表现出持续的有效性，实现了高攻击成功率，并将良性mAP（平均精度均值）降低了高达

。

picture.image

相关工作

现有的针对目标检测器的对抗扰动方法可以大致分为基于替代模型（也称为黑盒）和基于受害者模型（白盒）的方法。文献中的基于替代模型的方法通常依赖于替代模型与受害者模型相似的假设。RAD [6]、GHFD [33] 和 UEA [34] 在替代的FRCNN模型上生成对抗样本，然后攻击其他基于CNN的检测器，如YOLO和SSD。然而，这些攻击对目标检测Transformer [33] 的性能表现不佳。对于基于受害者模型的方法，GARSDC [18] 更为有效，但可能需要超过3000次迭代才能收敛。GALD [14] 首先攻击视觉Transformer分类器，然后将基于分类的对抗扰动迁移到具有相似Transformer架构的目标检测器，因此相比之下效果较差。作者将EBAD [3]归类为基于受害者模型的攻击，因为它使用替代模型的集成来攻击受害者，但需要访问受害者的损失函数以进行嵌套集成优化。当从DETR替代模型迁移扰动到DETR受害者时，EBAD表现不佳 [25]。AttentionFool [23] 是一种针对DETR [15]中点积自注意力机制的最新基于受害者模型的攻击，其 Backbone 网络为ResNet-101。然而，AttentionFool对具有ResNet-50 Backbone 网络的DETR表现不一致 [23]。AttentionFool也不适用于YOLO等卷积模型 [28]，因为它专门针对自注意力机制。TOG [8] 针对预测的物体性分数，并引入了消失和伪造攻击模式。OATB [13] 使用一个“除法图”，根据物体位置先验在扰动过程中静态强调图像区域。DBA [17] 优先考虑对图像背景的扰动以增强不可感知性，尽管它对目标检测的Swin Transformer几乎没有任何效果 [21]。相比之下，AFOG对抗扰动在保持卓越不可感知性和效率的同时，对各种基于Transformer和CNN的检测器受害者表现出强大的性能。

方法论

3.1. 问题定义

给定一个受害者检测器

，其中

是一个受害者图像

，而

是测试集，设

包含

个待检测目标，记为

。每个目标

都是检测器

的识别目标。在良性场景下，设

表示具有边界框

和类别标签

的真实目标

。设

表示真实类别的总数，且

，例如，对于VOC数据集 [10] ，

包括背景类别。给定输入图像

，

输出

个检测目标的良性预测，记为

。每个检测到的目标

与其预测的边界框

和预测的类别标签

被评估为正确预测，如果

和

的IoU（IoU）大于检测阈值

（通常设置为0.5），且

。整体检测准确度使用mAP（平均精度均值）在整个测试数据集

上进行衡量。设

表示通过迭代基于注意力的学习机制向

注入一系列对抗性扰动而生成的对抗性样本。作者针对检测器

的AFOG攻击的目标是找到

，使其最大化在

中所有图像的所有目标识别预测被伪造的成功率，即

公式表明，对于在受害者图像

中由

表示的每个检测到的目标

，如果

和

的IoU（IoU）小于检测阈值

（通常设置为0.5）或

，并且

也满足最小化扰动约束

，其中

通常由

范数、

范数或

范数定义，那么AFOG攻击在

上会成功。

3.2. 对抗损失优化

AFOG通过迭代投影梯度下降方法[24]攻击目标模型。图2展示了AFOG攻击框架的示意图。在初始化步骤中，攻击首先将未经修改的目标图像

通过目标模型的正向网络（FFN）

传播，以获得其良性预测

。在没有真实标签可用的情况下，攻击假设这些良性预测为输入图像

的正确标签。在剩余部分中，作者将使用

在攻击

的上下文中进行说明。

picture.image

为了获得

。在初始化时，对于每个输入图像

，AFOG攻击通过使用方程1对两个分量进行逐元素乘法生成的扰动来破坏目标图像

。

是注意力图，

是扰动图。这里

表示Hadamard矩阵乘积，

是投影到以未修改的目标图像

为中心、半径

为最大扰动预算的超球面上。

和

根据公式 2 初始化。

是一个均匀随机分布。扰动图像

传播通过目标模型的FFN。攻击损失函数

评估对抗输出

和良性输出

，计算一个反映攻击在污染图像

上的进展的损失。该攻击损失由公式3、4和5给出。

给定受害者图像

，优化的攻击损失

是通过使模型错误预测每个目标目标来实现的。作者通过伪造每个目标目标的边界框预测及其类别标签预测来达到损失优化。这可以通过优化所有

个目标目标的对抗边界框损失

和对抗类别标签预测损失

来表示。从概念上讲，这会抑制原始正确边界框和类别标签预测的置信度，同时增加错误边界框或类别标签的对抗预测的置信度。

回顾图2：AFOG攻击冻结模型参数

，并使用AFOG攻击损失的梯度通过反向传播来更新注意力图

和扰动

，从而生成对抗扰动的下一迭代。通过按照方程1注入更新的对抗扰动，创建一个新被污染的图像

，其中A和

通过方程6和7进行更新。

和

分别表示注意力图学习率和扰动学习率，

是一个归一化函数，

是一个符号函数，

是攻击损失，

是模型参数，

是模型从输入

得到的良性预测。该攻击过程重复进行，直到达到攻击迭代次数。算法1提供了伪代码。

picture.image

3.3. 对抗注意力机制

作者AFOG方法的一项关键创新是赋予扰动生成以可学习的注意力机制。受“图像的某些部分比其他部分更容易受到对抗扰动”这一直觉启发，作者添加了一个注意力图，以将扰动集中在易受攻击的像素上。AFOG攻击同时学习对抗注意力图和扰动，以迭代地最大化攻击损失

(回顾方程3)。图3展示了AFOG对抗注意力图和相应扰动的迭代学习过程的说明性示例。与其他方法（如[34]）中的聚焦机制不同，AFOG的注意力图在攻击迭代期间动态更新，不受静态方法对前景[13]、背景[17]或区域建议[34]重要性的假设所限制。作者认为像素重要性可能并不符合人类直觉，因此设计了AFOG来迭代地学习像素重要性。作者观察到，在早期迭代中，注意力机制倾向于集中在图像的主要目标上，随着攻击的进行，逐渐扩展到周边区域。这种适应性是可学习注意力的关键特征，展示了其相对于静态注意力图的优越性。

picture.image

3.4. AFOG攻击的特殊情况

作者探讨了AFOG攻击的两个特殊案例，每个案例都针对受害者检测器中的特定恶意检测行为。第一个特殊案例是物体消失攻击，命名为AFOG-V，该攻击试图攻击多框目标检测的物体性检测任务。这种特殊案例AFOG攻击的目标是使受害者模型无法检测任何物体，使得受害者图像

中所有目标检测都消失。作者通过改变初始化来实现AFOG-V攻击：作者使用空集代替

的前向传播，以获得

个物体的良性检测结果作为AFOG-V攻击中的假设真实值。用

表示

的修改版本，其中不包含任何预测。AFOG-V攻击损失函数的公式由公式8给出：

第二个特殊情况是物体伪造，命名为AFOG-F，它试图通过生成导致虚假检测（即误报）的扰动来攻击边界框检测任务。类似地，作者修订了AFOG攻击过程：对于AFOG-F，作者移除了置信度分数高于某个可调阈值（默认为0.5）的良性预测，而是允许良性检测集

包含一个更大的“真实目标”集合，其中不可避免地包含错误检测。因此，AFOG-F损失函数由公式9给出：

是一个修改版本，其中每个预测的似然分数被设置为1.0。作者探索了AFOG攻击的两个特殊案例，以更深入地理解对抗扰动对不同检测Transformer的负面影响。

实验

4.1. 实验设置

作者使用Common Objects in Context (COCO) 2017 [19] 的 test-dev 分割集来评估作者攻击在当代目标检测器上的性能。COCO 2017 是评估目标检测器性能的标准基准，其 test-dev 集包含 5,000 张图像，涵盖 80 个目标类别。作者使用PASCAL视觉目标挑战 (VOC) 2007 [10] 数据集来将作者的攻击与基于CNN的目标检测器的最先进攻击进行比较，因为现有的仅针对CNN检测器设计的攻击均使用VOC进行评估。VOC devkit 分割集包含 4,952 张图像，涵盖 20 个目标类别。所有实验均在NVIDIA A100上进行。作者在表1中列出了AFOG及其良性性能。模型详细信息在补充材料的第2节中提供。

picture.image

作者选取了多种模型尺寸，范围从轻量级的Detection Transformer（DETR）[4]（4000万参数）到EVA [11]（超过10亿参数的视觉聚焦基础模型）。作者使用基于Detectron2 [35]构建的Detrex框架 [30]，通过DINO [38]标准化AFOG实现。DINO和Detrex将许多通用视觉模型适配到目标检测任务。Detrex框架将所有图像标准化到[0,1]范围。作者还攻击了几个transformer模型的原始版本，以证明AFOG攻击同样适用于Detrex框架之外。所有12个transformer模型和FRCNN使用PyTorch [27]实现，而SSD300 [20]和YOLOv3 [28]使用Tensorflow [1]。作者使用平均精度均值（mAP）评估良性及攻击后的性能。平均精度（AP）通过在多个决策阈值处插值精确率和召回率的乘积得到。平均精度均值（mAP）是针对所有目标类别的AP平均值。较低的mAP表明检测器在目标检测任务上的效果较差。受害者检测器在对抗扰动下的mAP反映了其良性mAP相比下检测性能的退化程度。作者通过四个指标：

范数、

范数、语义结构相似性指数（SsIM）和平均扰动

来衡量不可感知性，并报告攻击在COCO 2017 test-dev数据集上所有图像的平均失真度。下一节的实验表明，将攻击迭代次数设置为10对所有12个COCO基准上的最先进检测模型都有效。

4.2. AFOG攻击的有效性比较

作者在表2中将AFOG与DETR和Swin上的十一种基准攻击进行了比较。作者观察到AFOG在DETR-R50和Swin-L上均取得了优异的性能，特别是在Swin上，其性能比第二强的攻击提高了

。AFOG还使用了最小的扰动预算和最少的迭代次数，这表明其具有更好的不可察觉性和速度。

picture.image

作者报告了表3中12个Transformer模型的失真效应和时序成本。作者注意到以下几个有趣的观察结果：(i) 考虑

和SSIM指标，AFOG攻击对12个Transformer模型中的10个产生了非常相似的失真水平。两个最大的检测Transformer模型DETA[26]和EVA[11]在AFOG、AFOG-V和AFOG-F上的

和SSIM得分较差。(ii) 考虑

指标，DETA在AFOG、AFOG-V和AFOG-F上始终显示最低的

值。(iii) 如预期所示，攻击检测Transformer模型所需的时间与模型参数数量密切相关。例如，EVA[11]有超过10亿个参数，在超过10次迭代中攻击输入图像的平均时间比其他11个模型要长得多。(iii) DETA[26]有2.188亿个参数，与Detrex框架中的其他模型相似：FocalNet[37]、InternImage[32]、Swin-L[21]和ConvNext[22]。然而，作者观察到使用作者的AFOG攻击或其特殊情况的扩展AFOG-V或AFOG-F攻击一个输入图像，平均时间始终大约延长1.5-2倍。(iv) AFOG、AFOG-V和AFOG-F具有相似的扰动幅度平均值。

picture.image

4.3. 基于CNN检测器上的有效性

本节将AFOG与针对CNN模型设计的四种攻击方法进行比较：TOG [8]、UEA [34]、RAP [16]和DAG [36]。这些是 Agent 攻击，其中大多数（例如DAG、RAP、UEA）只能直接攻击两阶段检测器（以Faster-R-CNN [29]为例），并依赖于对抗迁移性来攻击单阶段CNN检测器，如YOLOv3 [28]和SSD [20]。表4报告了比较结果。作者观察到两点：(i) AFOG和TOG是仅有的两种针对单阶段检测器的基于目标的攻击，以YOLOv3和SSD为代表。AFOG和TOG都能显著降低YOLOv3的良性mAP（83.43%）和SSD的良性mAP（76.11%）。对于YOLOv3，TOG是一种更强的攻击，其mAP为0.56，而AFOG的mAP为2.62。然而，对于SSD-300，AFOG是一种更强的攻击，其mAP为0.50，而TOG的mAP为0.86。(ii) 对于以Faster-R-CNN为代表的两阶段CNN目标检测器，AFOG优于其他四种基于目标的攻击，实现了最低的对抗mAP分数（2.07%）。(ii) AFOG与TOG使用相同的失真幅度预算

，但在SSD-300和FRCNN上实现了更高的攻击成功率（更低的mAP），同时降低了

失真成本。因此，AFOG在攻击基于transformer的检测器和基于CNN的检测器方面表现出色。

picture.image

4.4. 可学习自注意力的影响

作者隔离并分析了可学习自注意力机制在赋能AFOG通过检测弱点并执行快速且人难以察觉的扰动来成功破坏基于Transformer的模型中的作用。图5展示了带有和不带有其可学习注意力机制的AFOG之间的比较，通过对抗性mAP分数的差异百分比进行衡量。消融实验结果表明，作者的可学习注意力机制在InternImage上提升了高达30.6%的性能，并在所有模型中平均提升了15.1%。

picture.image

4.5. 最坏情况分析

作者在12个基于transformer的检测器和3个具有代表性的基于CNN的检测器上的实验结果表明，AFOG是一种快速且有效的攻击方法。然而，在总共10次迭代攻击的设置中，仍有部分情况下AFOG在对抗扰动中未能成功。通过对AFOG攻击失败案例的深入分析，作者发现最常见的情况是攻击未能破坏受害者输入图像的中心主体，例如行人。图7展示了三个视觉示例，其中第一行（第1-2行）是一个成功的攻击案例，随后是攻击DETR-R50时两个失败的案例（第3-6行）。所有六行的第2-3列展示了DETR编码器最后一层的自注意力图，对应于第一列红色点 Token 的第一和第二个位置。第1、3、5行展示了良性情况及其对应的自注意力图，第2、4、6行展示了最终攻击迭代后的自注意力图。第四列展示了AFOG在最终攻击迭代后的对抗注意力图。

picture.image

作者观察到三点：(i) 在成功攻击案例中（第1-2行），受害者模型DETR-R50的自注意力图失去了指示的红点与其包含的前景目标之间的关联。(ii) 在两个未成功案例中（第3-6行），AFOG未能破坏这种关联。(iii) 考虑图7中成功案例的AFOG对抗注意力图（第2行，第4列），作者观察到对受害者输入图像中的关键目标有明显的关注。相比之下，两个失败案例的AFOG对抗注意力图（第4行，第4列和第6行，第4列）均未能聚焦于前景目标。第一个失败案例（第3行和第4行）显示，AFOG注意力图将显著权重分配给了受害者图像左侧的远处行人，导致该区域产生大量伪造预测。类似地，第二个受害者图像的注意力图（第5行和第6行）似乎完全错过了消防栓，导致未能破坏该目标。在这些案例中，AFOG的对抗注意力学会了聚焦于错误的像素。

结论

作者提出了AFOG，一种注意力聚焦的攻击梯度方法。AFOG能够有效攻击先进的目标检测Transformer和基于传统CNN的检测器，采用统一的、与架构无关的框架。AFOG利用可学习的注意力机制，使其对抗扰动能够聚焦于多框检测任务中图像的脆弱区域。AFOG的攻击损失函数通过可学习的注意力更新和对抗扰动的迭代注入，集成了多种特征损失（例如，边界框损失、类别损失）。最后，AFOG高效且隐蔽。AFOG生成的对抗扰动在视觉上难以察觉，却能导致训练良好的检测器完全失效。在当前最先进的目标检测器上的大量实验表明，AFOG在十二种目标检测Transformer上始终表现出色。与近十种SOTA方法的比较评估显示，AFOG在目标检测Transformer和基于CNN的目标检测器上均显著优于基于替代物和基于受害者的攻击方法。

参考

[1]. Adversarial Attention Perturbations for Large Object Detection Transformers