备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
尽管开源大型视觉语言模型(LVLMs)在性能上表现出色,基于迁移的学习攻击方法通常难以对抗黑盒商业LVLMs。通过分析失败的对抗扰动可以发现,学习到的扰动往往源自均匀分布且缺乏清晰的语义细节,导致产生意外的响应。这种语义信息的缺失使得商业LVLMs要么完全忽略这些扰动,要么错误解读其嵌入的语义,从而导致攻击失败。
为了克服这些问题,作者注意到识别核心语义目标是通过各种数据集和方法训练的模型的关键目标之一。这一洞察促使作者提出了一种方法:通过在局部区域编码明确的语义细节来提高语义清晰度,并集中修改在语义丰富区域而不是均匀施加。
为了实现这一点,作者提出了一种简单而有效的解决方案:在每次优化步骤中,随机裁剪对抗图像的比例和比例尺,调整大小,然后将其与目标图像在嵌入空间中对齐。实验结果显示这一假设是正确的。
使用局部聚合扰动聚焦于关键区域构造的对抗示例,具有令人惊讶的良好转移性,不仅适用于GPT-4.5、GPT-4o等LVLMs,还包括Gemini-2.0-fash、Claude-3.5-sonnet、Claude-3.7-sonnet,甚至推理模型如o1、Claude-3.7-thinking 和 Gemini-2.0-fashthinking。
作者的方法在GPT-4.5、4o和ol上的成功率超过90%,远超所有之前的先进攻击方法。不同配置下的优化对抗示例可在HuggingFace获取,训练代码可在GitHub下载。
- Introduction
对抗性攻击一直威胁着AI系统的鲁棒性,特别是在大规模视觉-语言模型(LVLMs)领域。这些模型在融合视觉与语言理解的任务上表现出色,例如图像字幕生成[36]、视觉问答[30, 33]和视觉复杂推理[25, 34]。除了开源解决方案的进步之外,诸如GPT-4o [1]、Claude-3.5 [3] 和 Gemini-2.0 [37]等高级黑盒商业多模态模型也被广泛采用。然而,它们的广泛应用也带来了关键的安全挑战,因为恶意行为者可能利用这些平台传播虚假信息或生成有害输出。要解决这些问题,需要在黑盒环境中进行全面的对抗性测试,在这种环境中,攻击者对模型的内部配置和训练数据知之甚少。
当前基于迁移的方法[11, 15, 43]通常生成缺乏语义结构的对抗性扰动,这些扰动往往源自均匀噪声分布,并在鲁棒的黑盒大语言模型上具有较低的成功攻击率。这些扰动无法捕捉许多大语言模型赖以进行准确解释的细微语义细节。因此,这些对抗性修改要么被商业的大语言模型忽略,要么被错误解读,导致意外且无效的结果。这种固有的局限性促使作者更深入地探讨对抗性扰动的本质及其分布特征。
作者的分析揭示了传统对抗策略的一个关键不足在于扰动中缺乏清晰的语义信息。没有有意义的语义线索,这些修改无法有效地影响模型的决策过程。这一观察尤其适用于那些已经优化以从局部和全局图像表示中提取和利用语义细节的商业大语言模型。因此,传统扰动的一致性性质成为了实现高攻击成功率的重大障碍。
基于这一洞察,作者假设提升对抗迁移性的关键在于对输入图像中核心语义目标的目标化操控。商业化的黑盒大语言模型,无论其拥有大规模和多样化的训练数据集,始终优先提取定义图像内容的语义特征。通过在局部区域明确编码这些语义细节,并将扰动集中在富含语义信息的区域上,可以诱导出更有效的错误分类。这种基于语义的策略为增强对抗攻击提供了有希望的视角,以针对坚固且黑盒的模型。
在本文中,作者介绍了一种名为M-攻击的新颖攻击 Baseline ,该 Baseline 战略性地改进了扰动过程。在每次优化步骤中,对抗图像会受到一个由特定宽高比和尺度控制的随机裁剪操作的影响,随后进行缩放处理。然后,作者将扰动与目标图像在嵌入空间中对齐,从而有效缩小局部与局部或局部与全局表示之间的差距。该方法利用不同白盒LVLM之间固有的语义一致性,增强所构造的对抗例子的可迁移性。
此外,鉴于当前评价实践存在局限性,往往依赖于主观判断或不一致的指标,作者引入了一种新的关键词匹配率(KMRScore)与GPTScore一起使用。该指标提供了一种更可靠、部分自动化的评估方法来衡量攻击的可转移性,并减少了人为偏见的影响。作者的大量实验证明,通过作者方法生成的对抗样本,在超过90%的情况下能够成功转移到包括GPT-4.5、GPT-4o以及高级推理模型o1在内的商业大语言模型上。
总体而言,作者的贡献主要体现在三个方面:· 作者观察到失败的对抗样本往往表现出均匀的扰动并且细节模糊,这突显了需要更清晰的语义指导以确保对抗攻击在强黑盒大语言模型上的可靠转移的重要性。· 作者展示了如何通过特定比例的随机裁剪和逐次迭代局部对齐目标图像,将局部/全局语义嵌入到局部区域,尤其是在关键中心区域,显著提升了攻击的效果。· 作者提出了一种新的关键词匹配率(KMRScore),它提供了一种更为客观的成功度量方法来评估跨模型对抗攻击的效果,并实现了最先进的转移性能,同时减少了人类偏见。
- Related Work
2.1. Large vision-language models
基于Transformer的大语言模型通过学习大规模图像文本数据集中的丰富视觉语义表示,融合了视觉和文本模态。这些架构支持图像字幕[8, 16, 36, 38]、视觉问答[30, 33]以及跨模态推理[31, 39, 40]等任务。
开源模型如BLIP-2[23]、Flamingo[2]和LLaVA[27]在视觉语言基准测试中表现出较强的泛化能力,而商业模型如GPT-4o、Claude-3.5[3]和Gemini-2.0[37]则通过更优秀的推理能力和实际应用中的适应性,推动了多模态理解的进步。由于其黑箱性质,这些模型容易受到对抗扰动的影响,因此需要进行系统性的攻击脆弱性调查。
2.2. LVLM Transfer-based adversarial attacks
黑盒对抗攻击包括基于 Query 的方法[10, 18]和基于迁移的方法[9, 28]。基于 Query 的方法通过多次模型交互估计梯度,导致较高的计算成本。基于迁移的方法在白盒替代模型上生成对抗样本,利用跨架构的可迁移性而不 Query 目标模型。商业大语言模型凭借未知的架构、训练数据和微调任务,挑战基于迁移的攻击,从而在替代模型与目标模型之间创建语义差距。
本文研究了基于图像的对抗攻击对大语言模型(LVLMs)的影响。AttackVLM [43] 首次使用CLIP [35] 和BLIP [23] 作为替 Agent 论,进行了基于转移的目标攻击,表明图像到图像的特征匹配优于跨模态优化,这一原则被后续研究[11, 15, 42]所采用。CWA [7] 及其继任者SSA-CWA [11] 将此方法扩展至检验商业LVLMs在Google的Bard [37] 上的鲁棒性。
CWA 通过锐化感知最小化 [6, 13] 来增强攻击的可移植性,优化集成模型的局部最优解肥度。而SSA-CWA 进一步引入了来自SSA [29] 的频谱变换,实现了在Bard 上的成功率高达22%,拒绝率为5% 的结果。
AnyAttack[42] 和 AdvDiffVLM[15] 在目标图像特征匹配方面有所不同。AnyAttack 通过大规模自我监督预训练和数据集特定微调来实现这一点。尽管在一些商用大语言模型上取得了一定的成功,但它生成的模板化图像视觉质量较差。AdvDiffVLM 将特征匹配整合到扩散过程中作为指导,并采用自适应集成梯度估计 (AEGE) 方法以获得更平滑的集成评分。
其基于 GradCAM 的 Mask 生成 (GCMG) 在视觉不重要的区域放置扰动,增强不可察觉性。然而,AdvDiffVLM 在对抗商用大语言模型方面取得的成效有限。
- Insights over Failed Attacks
作者对先前最先进的解决方案[11, 42, 43]中目标LVLMs的失败对抗迁移进行了调查,揭示了两个关键见解:
均匀分布似的扰动分布。前期方法中失败的 adversarial 样本的分析表明,它们的扰动几乎遵循均匀分布,如图5 和图3 第一行所示。这种均匀模式表明缺乏结构上的强调,并且丧失了多样性和细节。
黑箱模型的描述模糊不清。接下来,作者考察了各类黑箱VLM在对抗样本上的输出结果。作者发现大约有20%的回应包含模糊或含糊的描述(例如,“模糊的”,“抽象的”),详见表1。这表明,尽管黑箱模型能够检测图像中存在异常情况,但在一致且清晰地解释这些异常方面存在困难。
细节决定成败。研究发现,有效的可移植对抗样本既需要语义对齐,又需要细微的视觉细节才能成功误导目标模型。虽然语义对齐提供了基础,但微妙的局部特征携带着触发分类错误的具体信息。当前主要依赖全局相似度最大化的方法难以保留这些关键的细微细节,从而限制了它们生成可移植攻击的有效性。
- Approach
框架概述。作者的方法旨在通过在扰动中提取与目标图像中特定语义匹配的细节来增强语义丰富性。这样,作者可以通过一对一或多对多的配对,提高对抗样本在各种模型中的可移植性,使它们即使面对最 robust 的黑盒系统(如 GPT-4o、Gemini 和 Claude)也能保持有效性。如图2 所示,在第
次迭代中,生成的对抗样本先进行随机裁剪,再调整为原尺寸。然后,通过一组 Agent 白盒模型计算局部源图像嵌入与全局或局部目标图像嵌入之间的余弦相似度,以指导扰动更新。通过这种迭代的局部-全局或局部-局部配对,源图像中的中心扰动区域会逐渐变得更加精细,从而提升语义一致性并增强攻击效果,作者发现这对于商业黑盒大语言模型特别有效。
多对多/一对多映射的重表述。将对抗样本的细节视作承载目标语义的局部特征,作者通过多对多或多对一映射重新表述问题,以提取语义细节:令
和
分别表示图像空间中的源图像和目标图像;
是初始时间点的干净图像。在每一步中,作者寻求一个局部对抗扰动
(满足
),使得扰动后的源图像
(其中
是应用当前学习扰动后的第
步优化的局部源区域)与目标图像
在语义嵌入空间中以多对多或一对一的方式匹配。作者最终学习到的全局扰动
是所有局部扰动
的聚合。作者将
定义为一组生成源图像局部区域的变换,形成有限的源子集,并生成局部或全局的目标图像。作者对每个原始图像应用预处理操作(例如,缩放和归一化),使目标图像可以是固定的全局图像或与源图像相似的局部区域。
其中,每个区域
是在不同的训练迭代
中独立生成的。如果使用多对一的方式,则全局变换的目标图像表示为
。为了表达多对多/一对多的映射关系,不失一般性,作者记在第
次迭代中每对
和
都匹配。令
表示替代嵌入模型,作者有:
平衡特征空间与图像空间之间的语义和一致性。作者应用于源图像的局部扰动聚合有助于防止对目标图像在特征空间中的语义线索产生过度依赖。这是因为损失直接从特征空间计算得出,而特征空间本身表达力较差,难以充分捕捉图像空间的复杂性。如图4所示,作者比较了使用局部和全局扰动优化的源图像和目标图像之间全局相似度。全局到全局的方法获得了最高的相似度,表明源图像和目标图像之间的最佳优化距离。然而,这种方法在LVLMs上的ASR(即最差的可迁移性)最低,这表明优化的距离并不是关键因素,局部扰动可以防止过拟合并增强可迁移性。
通过在多个重叠的步骤中编码增强的语义细节,作者的方法逐步构建了输入的丰富表示。同时,这些局部语义表示的一致性防止它们收敛到统一或同质化的表达形式。这些增强的语义线索与多样的局部表达相结合,显著提高了对抗样本的可转移性。因此,作者强调了
这两个关键性质。
式(3)通过局部区域之间的共享部分促进一致性,而式(4)则通过融入与其他局部分区不同的潜在新区域来鼓励多样性。这些互补机制在一致性和多样性之间达到了平衡。值得注意的是,当式(3)显著主导式(4),使得对于任意
,
时,
将减少到对全局区域的一致性选择。因此,作者的框架扩展了之前的全局-全局特征匹配方法。在实践中,作者发现为了目标图像的一致语义选择有时是必要的,但对于源图像来说,式(4)对于生成高质量且具有更好迁移性的细节是必不可少的。
局部级匹配通过裁剪实现。实验证明,当裁剪比例在 (L) 和 (H) 之间变化时((L=0.5) 和 (H=1.0)),裁剪特别适用于拟合方程 (3) 和 (4)。({\mathcal{T}}(\mathbf{X})) 可以定义为该范围内的所有可能裁剪的子集。相比之下,非重叠区域则由每一轮单独处理,从而有助于提取多样化的细节。随着裁剪提取的结合,中心区域整合了共享的语义。当边缘接近时,多样化的语义细节生成越多(参见图3)。
共享高质语义的模型集成。尽管作者的匹配提取了详细的语义信息,但商用的黑盒模型在专有数据集上运行,并且其微调目标未对外公开。提高迁移性需要更好地与这些目标模型对齐语义。作者假设视觉语言模型(VLMs)中共享了一定的语义元素,这些元素能够更容易地转移到未知模型中,因此采用了一个模型集合
来捕捉这些共享元素。这种方法可以表述为:
作者的集成体系结构具有双重目的。在较高层次上,它提取共享语义,这些语义能够更有效地转移到目标黑盒模型中。在较低层次上,它可以结合具有互补感知域的模型以增强扰动质量。具有较小感知域的模型(例如,较小切片区大小的 Transformer )可以提取更细腻的扰动细节,而具有较大感知域的模型则更好地保留整体结构和模式。这种互补集成显著提升了最终的扰动质量,如图6所示。
训练。为了最大化
同时保持不可感知性约束,可以采用诸如 I-FGSM [22]、PGD [32] 和 C&W [5] 等各种对抗优化框架。为了简便起见,作者提出了一种实用实现方法,该方法使用均匀加权集成与 I-FGSM,如算法 1 所示。问题的更正式和详细的表述、推导及附加算法在附录中提供。
- Experiments
5.1. Setup
作者提供了实验设置和竞争性的 Baseline 模型,详细内容参见附录。
被攻击的黑盒模型和数据集。作者评估了三种领先的商用多模态大模型:GPT-4.5、GPT-4o、o1、Claude-3.5-sonnet、Claude-3.7-sonnet 和 Gemini-2.0-flash/thinking [37]。作者使用了NIPS 2017 干扰攻击与防御竞赛的数据集 [20]。借鉴[12]的做法,作者从中抽取了100张图像,并将其调整为224×224像素。为了增强统计可靠性,在附录中第5.3节的对比中,作者进一步对1000张图像进行了评估。
Agent 模型。作者采用了三种CLIP变体[17]作为 Agent 模型:ViT-B/16、ViT-B/32和ViT-g-14-laion2B-s12B-b42K,以适应不同的网络架构、训练数据集和特征提取能力。此外,附录中还包括了BLIP-2[24]的结果。若未特别指明,单模型方法[43]使用ViT-B/32作为其 Agent 模型。基于集成的方法[11, 15, 42]则使用它们各自文献中指定的模型。
Baseline 对比。作者将对比四种近期的目标化和转移学习基于黑盒的攻击方法:AttackVLM [43]、SSACWA [11]、AnyAttack [42] 和 AdvDiffVLM [15]。
超参数。除非另有说明,作者设置扰动预算为
,如表2、4、5在
范数下的设置,总优化步数为300步。表2和表3中Claude-3.5的
设置为0.75,而在其他地方,包括不可察觉性指标中,
设置为1。有关
的消融研究详见附录。
5.2. Evaluation metrics
KMR分数。以往的攻击评估方法识别与图像中“语义主目标”匹配的关键字[11, 15, 42]。然而,“语义主目标”的定义不清和匹配机制引入了显著的人为偏见,并妨碍了评估结果的可重复性。作者通过为每张图像手动标注多个语义关键字(例如,对于一张展示孩子吃蛋糕的图片,标注“孩子, 吃, 蛋糕”)来解决这些问题,并建立了三个成功率阈值:0.25、0.5 和 1.0,分别记作
、
和
。这些阈值对应不同的匹配水平:至少有一个关键字匹配、超过一半匹配以及全部匹配,从而可以评估不同接受标准下的迁移性。为减少人为偏见,作者利用GPT-4o[1]对生成描述中的语义关键字进行匹配,创建了一个在人类指导下半自动化的评估 Pipeline 。作者通过手动检查输出的20%并验证一致性来验证该方法的稳健性。
ASR(攻击成功率)。作者进一步采用广泛使用的LLM作为裁判[44]进行基准测试。首先,作者使用相同的商用LVLM对源图像和目标图像进行描述,然后通过GPTScore [14]计算相似度,从而创建了一个全面且自动化的评估Pipeline。当相似度分数超过0.3时,攻击被认为成功。附录中包含作者的详细 Prompt ,以确保可再现性。
5.3. Comparison of different attack methods
5.4. Ablation
局部级匹配。作者评估了四种匹配策略:局部-全局、局部-局部(作者的方法)、全局-局部(仅裁剪目标图像)和全局-全局(不进行裁剪)。图10展示了作者的结果:在Claude上,局部-局部匹配略优于局部-全局匹配,但差距并不显著。全局级匹配对大多数攻击失效,强调了等式(4)在源图像中的重要性。此外,作者在图10中测试了传统的数据增强方法,包括剪切、随机旋转和色差,与作者的局部级匹配方法进行对比。包含在等式(4)中定义的局部裁剪的变换,如旋转和平移,取得了不错的成绩,而色差和未保留源图像局部区域的全局级匹配则导致了显著更低的成功率。作者的系统性消融实验表明,局部级匹配是关键因素。尽管这种对齐可以通过不同的操作实现,例如裁剪或平移图像,但它们本质上超越了传统的数据增强方法,突显了保留局部信息的重要性。
集成设计。模型集成在提升方法性能方面起着关键作用。图9中的消融研究显示,移除集成会导致KMR和ASR性能下降40%。局部级匹配有助于捕捉细微的细节,而模型集成则结合了大感受野模型(能够捕捉整体结构和模式)与小感受野模型(能够提取更细致的细节)的优势。这种局部级匹配与模型集成之间的协同作用至关重要,如图6所示,整体性能提升超过了各个设计改进之和。附录中提供了对集成子模型的进一步消融研究。
扰动预算
. 表3 显示了扰动预算
对攻击性能的影响。较小的
值提升了不可感知性但降低了攻击的可移植性。作者的方法在大多数
设置下维持了更优的 KMR 和 ASR,同时始终保持最低的
和
范数。总体而言,在不同的扰动约束条件下,作者的方法均优于其他方法。
计算预算步骤。图8展示了在优化步限范围内不同性能表现。即使迭代次数减少到100次,作者的方法仍然优于SSA-CWA和AttackVLM Baseline 。与其它方法相比,作者的方法表现更优异。
5.5. Visualization
图7展示了作者方法在不可感知性和语义保存方面的优越性。AttackVLM在扰动中几乎没有保留语义信息,因此在大多数情况下都无法成功。尽管语义对于实现成功的迁移很重要,但SSA-CWA和AnyAttack生成的对抗样本仅表现出一些粗糙的形状而缺乏精细的细节,导致扰动呈现出僵硬的效果,与原始图像对比明显。此外,AnyAttack生成的对抗样本还表现出模板化的干扰模式,容易被察觉。相比之下,作者的方法专注于优化微妙的局部扰动,不仅提高了迁移性,还在全局对齐的基础上提升了不可感知性。
5.6. Results on Reasoning and Latest LVLMs
作者还将作者的对抗样本在最新的以推理为中心的商业模型上进行了评估,包括GPT-4.5、GPT-o1、Claude-3.7-sonnet、Claude3.7-thinking和Gemini-2.0-flash-thinking-exp。表4和表5总结了作者的发现。尽管这些模型具有以推理为中心的设计,但在攻击下的鲁棒性却与不进行推理的相应模型相当甚至更弱。这可能是因为推理仅发生在文本模态中,而配对的不进行推理和进行推理的模型共享相似的视觉组件。
该方法随着计算资源的增加而扩展良好:额外的200个步骤在Gemini和Claude上分别将结果提高了约10%。在GPT-4o上,ASR提高到了接近100%。
- Conclusion
本文介绍了一种简单而强大的针对黑盒大语言模型(LVLM)的攻击方法M-Attack。作者的方法解决了现有攻击中的两个关键限制:均匀的扰动分布和语义模糊保留。通过局部 Level 的匹配和模型集成,作者制定了一种简洁的攻击框架,在对GPT-4.5/4001等模型的攻击中成功率超过90%。通过在局部区域编码目标语义并关注富含语义的区域来实现这一点。
消融实验表明,局部 Level 的匹配优化了语义细节,而模型集成通过结合不同感知领域的模型优势有助于共享语义和高质量的细节。这两者协同工作,性能提升超过了各自贡献的总和。作者的研究成果不仅确立了一个新的攻击基准,还强调了局部语义细节对于开发更强大或更稳健模型的重要性。
参考
[0]. A Frustratingly Simple Yet Highly Effective Attack Baseline: Over
Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 .