备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
防御预训练视觉语言模型(VLMs),如CLIP,免受对抗性攻击至关重要,因为这些模型被广泛应用于包括图像分类在内的各种零样本任务。然而,现有的鲁棒微调对抗性训练(AT)方法在很大程度上忽略了语言在增强视觉鲁棒性中的作用。
具体而言,(1)监督AT方法依赖短文本(例如,类别标签)生成对抗性扰动,导致过度拟合训练数据中的物体类别,以及(2)无监督AT避免了这种过度拟合,但由于缺乏语义指导,在应对实际文本引导的对抗性攻击时仍不理想。
为解决这些局限性,作者提出了质量文本引导的对抗性微调(QTAFT),该方法在训练过程中利用高质量描述来引导对抗性样本避开图像中存在的多样化语义。这使得视觉编码器能够在对抗性噪声下稳健地识别更广泛的图像特征,从而提升跨多种下游任务的鲁棒性。
QTAFT克服了先前方法的两个关键弱点——监督AT中的过度拟合和无监督AT中的语义缺失——在16个零样本数据集上实现了最先进的零样本对抗鲁棒性和清洁精度。
此外,作者的综合研究揭示了语言在增强视觉鲁棒性中的几个关键见解;例如,除了物体名称外,描述物体属性进一步增强了零样本鲁棒性。作者的研究结果为未来工作指明了方向——以高质量语言监督为中心的鲁棒视觉表征学习。
1 引言
预训练的视觉语言(Vision-Language,VL)模型,如CLIP [27],通过对比学习在大规模图像-文本对上进行训练,使模型能够获得联合图像-文本表示。这种方法使它们能够执行各种零样本任务,例如零样本图像分类,其中通过比较图像嵌入与这些标签的文本嵌入(例如,“一张
的照片”)将图像与任意类别标签进行匹配。然而,最近的研究表明,CLIP容易受到对抗样本(Adversarial Examples,AEs)[24, 28]的攻击,这些攻击在输入图像上引入难以察觉的扰动,导致模型预测错误。这种脆弱性在现实应用中带来了重大风险。鉴于像CLIP这样的VL模型被广泛采用,确保零样本鲁棒性是构建可靠AI系统中的一个关键挑战。
为解决对抗脆弱性问题,近期研究[24, 28, 32]基于对抗训练[22]提出了针对CLIP视觉编码器的鲁棒微调方法。这些方法通过仅进行少量轮次的微调而非从头进行对抗训练来实现鲁棒性,从而更具实用性。此外,它们还专注于提升零样本鲁棒性,通过在微调过程中假设下游任务未知,并旨在将鲁棒性泛化到多样化的零样本数据集上。
然而,作者指出现有防御方法在很大程度上忽略了语言在增强视觉鲁棒性中的作用,这使得它们在实现零样本鲁棒性方面表现不佳(图1)。例如,监督(文本引导)对抗训练方法,如TeCoA [24]、PMG-AFT [32]和TGA-ZSR [35],在训练过程中完全依赖于类别标签来指导对抗扰动(图1a)。由于依赖于类别标签,这些方法极易在训练数据集上过拟合,从而限制了它们对未见过的下游任务的泛化能力。相比之下,FARE [28]采用了一种无监督对抗训练方法,避免了文本引导,从而减轻了过拟合问题(图1b)。然而,由于缺乏文本提供的语义指导,它可能在训练过程中无法捕捉到图像中存在的多样化语义,从而限制了它在涉及多样化物体或图像属性的广泛下游任务中的鲁棒性。
为应对这些挑战,本研究提出了一种关于利用语言增强视觉模型鲁棒性的新视角。具体而言,作者提出了一种简单而高效的方法——质量文本引导对抗微调(QTAFT),该方法利用详细的图像描述而非简单的类别标签来增强CLIP模型的零样本鲁棒性(图1c)。通过整合详细描述,视觉编码器能够在对抗噪声下稳健地识别更广泛的图像特征,从而提升在不同下游任务上的性能。这种方法与现有的文本引导对抗微调方法形成对比,后者使用简单的文本嵌入如"a photo of {class}"进行图像分类。
作者通过在ImageNet上训练CLIP并在16个零样本数据集上进行评估,进行了广泛的实验。结果表明,llm-QT-AFT_2507显著增强了鲁棒性,在16个数据集中的12个上实现了最先进的零样本鲁棒性,并取得了最佳平均性能。此外,与现有的监督式对抗训练方法不同,llm-QT-AFT_2507在干净图像上的准确性并未下降,反而保持了最先进的准确性。这些发现突显了llm-QT-AFT_2507有效地解决了监督式对抗训练中的过拟合问题以及无监督式对抗训练中缺乏语义 Aware 的问题。
此外,作者的全面研究揭示了语言在增强视觉鲁棒性方面的几个关键见解。例如,作者证明了使用形容词和副词描述物体属性——而不仅仅是提及物体——能够进一步提升零样本鲁棒性。此外,在纹理分类任务中,如果类别标签使用形容词描述纹理,则从文本中移除名词可以进一步提高鲁棒性,这表明语言指导的有效性具有任务特异性。
通过强调语言在增强视觉鲁棒性中的关键作用,作者的工作为未来研究指明了紧迫的方向——将高质量的 linguistic supervision 中心化于鲁棒的视觉表征学习。这一方向是针对多模态模型的,并区别于大量集中于传统图像分类任务的单模态 AT 方法的研究。
作者的贡献总结如下:
- 作者强调现有的针对CLIP模型进行对抗性微调的方法忽视了语言在提升视觉模型鲁棒性中的关键作用。
- 作者提出了质量文本引导对抗微调(QT-AFT),该技术利用详细的图像描述来指导对抗训练。QT-AFT使视觉编码器能够在对抗噪声下识别多样化特征,在保持下游任务高清洁精度的同时,实现了最先进的鲁棒性。
- 作者的分析为语言在增强视觉鲁棒性中的作用提供了关键见解,表明语言线索——例如在提及物体名称之外还描述物体属性——进一步增强了零样本鲁棒性。
2 相关工作
对抗鲁棒性。在图像分类的背景下,对抗攻击和防御已被广泛研究[12 29]。对抗攻击通过向输入添加微小的扰动来误导模型的预测,同时保持对人类不可察觉。这给计算机视觉模型在实际应用中造成未预期后果带来了重大风险。为了缓解这一问题,对抗攻击的公认防御策略是对抗训练(AT)[22],它通过添加对抗样本(AEs)来增强训练数据,从而提高模型的鲁棒性。
视觉语言模型的对抗防御。许多最近的视觉语言(VL)模型[1,19,20,34]基本上基于CLIP,该模型通过在大量图像文本对上使用多模态对比学习来学习联合图像文本表示。
因此,现有的针对VL模型的防御策略[24,28,32,35]都集中在CLIP模型上,并在预训练的CLIP上进行对抗微调。Mao等人[24]首先提出了图像分类任务中零样本鲁棒性的新问题设置,其中CLIP模型必须在未见过的下游数据集上对抗扰动下稳健地识别图像。他们引入了第一个针对CLIP的对抗微调方法TeCoA,该方法通过利用类别标签的文本嵌入来执行文本引导的对比AT,从而获得稳健的视觉编码器。
随后,PMG-AFT[32]通过结合预训练模型的指导来改进TeCoA,而TGA-ZSR[35]则通过引入注意力引导机制进一步增强了鲁棒性。然而,这些基于类别标签的监督方法倾向于过拟合训练数据集,因此在实现零样本鲁棒性方面是次优的。相比之下,FARE[28]提出了一种不依赖于文本嵌入的无监督AT机制,从而避免了过拟合。然而,由于实际攻击场景中对抗攻击的文本引导性质,无监督AT也是次优的。
llm-QT-AFT_2507与使用类别标签的监督式对抗训练(AT)方法和无监督式AT方法均有显著区别。
作者提出了一种新的监督式AT方法,该方法利用高质量的描述来指导训练过程中的对抗扰动。
3 方法论
在本节中,作者首先在3.1节介绍作者的问题设置并提供必要的背景知识。接下来,作者在3.2节分析现有对抗微调方法中采用的对抗攻击策略,并指出其局限性。最后,在3.3节,作者提出了llm-QT-AFT_2507——质量文本引导对抗微调(QT-AFT),该方法解决了这些局限性并提高了零样本鲁棒性。
3.1 预备知识
在近期提升视觉语言模型(VL模型)对抗鲁棒性的研究工作 [24, 28, 32, 35] 基础上,本研究聚焦于对CLIP——最基础且广泛使用的VL模型——进行鲁棒微调。
视觉语言对比学习。CLIP由一个图像编码器
和一个文本编码器
组成,其中
和
是它们各自的参数,
和
是图像和文本的输入维度,
是联合嵌入维度。给定一个图像
和一个文本
,CLIP被训练将它们映射到一个共享的嵌入空间,最大化正确图像-文本对中图像-文本嵌入的余弦相似度
,同时最小化错误对中的相似度。CLIP使用InfoNCE损失在
个图像-文本对
的批次上进行训练。图像上的InfoNCE损失形式化为:
其中
是可学习的温度参数。整体损失是图像到文本和文本到图像损失的均值,表示为
,其中
是文本上的InfoNCE损失。
图像分类中的零样本鲁棒性。利用图像和文本的联合嵌入空间,CLIP能够实现零样本图像分类。给定一组
个类模板
(例如,“一张包含
的照片”),CLIP将图像嵌入与文本嵌入进行比较,并选择相似度最高的类别:
文本嵌入可以被创建用于任意类别名称,这使得CLIP能够在多样化的数据集上进行分类,而无需额外的训练——也就是说,以零样本的方式。
然而,CLIP的零样本分类容易受到对抗性攻击[24],其中对输入图像的微小、难以察觉的扰动会显著改变模型的预测。给定一个真实标签为
的图像
,一个对抗样本
被构造以满足:
此类对抗样本可以通过投影梯度下降(PGD)[24]等方法生成,该方法通过迭代扰动图像来最大化分类损失,同时将扰动限制在
-范数球内,即
,其中
控制最大扰动大小。
为解决这一漏洞,作者旨在通过对抗性微调来增强CLIP的零样本鲁棒性。具体而言,作者在目标数据集(如ImageNet [10])上对抗性微调预训练的CLIP模型,并随后在多样化的未见数据集上评估其针对对抗性样本(AEs)的零样本鲁棒性。
CLIP的监督对抗微调。CLIP的监督对抗微调方法利用文本嵌入——特别是类模板
指导进行训练。这项工作由TeCoA发起,TeCoA通过在对抗性嵌入(AEs)上最小化分类损失来微调视觉编码器
。目标函数的表述如下:
其中
从数据分布
中采样,
是从
生成的对抗样本,
表示允许的对抗区域(例如,
-范数球)。这里,生成对抗样本
的目的是最大化交叉熵损失,而模型参数则被优化以最小化该损失。PMG-AFT [32] 和 TGA-ZSR [35] 在 TeCoA 的基础上通过引入额外的损失函数进一步增强了其对抗鲁棒性。
基于无监督对抗微调的CLIP FARE [28] 采用无监督对抗微调来缓解TeCoA中观察到的过拟合问题,避免依赖文本编码器。具体而言,FARE优化以下目标:
其中
表示原始(冻结)图像编码器。内部最大化过程寻求能够扭曲原始嵌入的对抗性扰动,而外部最小化过程则鼓励模型在存在此类扰动的情况下保持这些嵌入。
3.2 微调中对抗攻击策略分析
在AT过程中生成AE对于实现鲁棒性起着至关重要的作用,因为这些例子作为数据增强直接影响了模型抵抗扰动的能力。在本工作中,作者指出基于类别标签的监督AT和无监督AT方法都不足以实现零样本对抗鲁棒性。
为研究这一问题,表1分析了对抗样本(AEs)与文本表示的偏差。具体而言,作者测量了AEs与(i)原始图像、(ii)类别标签的文本模板("a photo of {class}*")以及(iii)标题文本之间的余弦相似度。该分析在ImageNet上进行,使用了10k随机采样的图像。标题使用InternVL-2.5-8B[6]合成生成,相似度在CLIP的嵌入空间中计算。作者比较了以下对抗样本,每个样本均使用具有不同目标的PGD生成:
- TeCoA
: 一种监督攻击,通过最大化图像与类别标签模板之间的交叉熵损失(Eq. 5)。:FARE (Unsup) : 一种无监督攻击,通过最大化与原始图像的距离(Eq. 6)。
- : 基于图像描述的监督攻击,最大化图像到文本的CLIP损失(公式1)。Unsup
: Unsup与
的组合。Ours (Unsup
: 无监督目标(公式6)与图像及其描述之间的CLIP损失监督目标的组合(公式1)。
作者观察到,除了仅使用
目标之外,额外结合无监督目标能够为对抗方向提供更好的指导,有助于最小化与两类标签和字幕的相似度。此外,仅仅将无监督目标与
结合并不能产生与字幕的显著偏差,这突显了直接利用字幕信息的重要性。
3.3 基于高质量文本引导的对抗微调 (QT-AFT)
基于上一节的研究结果,作者提出在对抗微调过程中利用高质量图像描述,引入质量文本引导的对抗微调(QTAFT)(图2)。llm-QT-AFT_2507包括两个步骤:(1)描述准备和(2)由高质量描述引导的对抗微调。
第一步 摘要可以以多种方式获取,包括人工标注、图像到文本模型或网络爬取的描述。在本工作中,为了可复现性和可控性,作者使用VL多模态模型生成合成摘要, Prompt 为:"在50字以内详细描述图像"。
作者将摘要限制在约50字,以确保与CLIP文本编码器的兼容性,该编码器具有有限的77个token容量(约50字)。
步骤2 QT-AFT的目标函数定义如下:
此处,
表示从图像
生成的标题,
是超参数。在公式 7 中,第一项表示无监督目标,第二项使用标题应用了视觉-语言对比损失,这两项的有效结合鼓励标题表征的偏离。
4 实验
4.1 实验设置
模型和数据集。作者在ImageNet [10]上微调CLIP-ViT-B/16 [27],并在一系列图像分类数据集上评估其零样本性能。此外,作者为消融研究微调CLIPViT-L/14。为了生成ImageNet的描述,作者使用InternVL-2.5-8B [6],一种先进的视觉语言多模态模型(描述将公开发布)。对于零样本性能,作者在六个类别的16个数据集上进行评估;ImageNet风格变体,如ImageNet-S [30](草图风格)和ImageNet-R [15](多样风格);通用物体识别,包括CIFAR10 [17]、CIFAR100 [17]、STL10 [8]、Caltech101 [11]和Caltech256 [13];细粒度识别,如OxfordPets [26]、Flowers102 [25]、FGVCAircraft [23]和StanfordCars [16];场景识别,以SUN397 [33]为代表;特定领域任务,如Food101 [4]、EuroSAT [14]和DTD [7];医学影像,PCAM [3]。所有评估数据集中的图像均调整为分辨率
。
实现细节。对于对抗性微调,作者使用初始学习率为1e-5、采用余弦调度衰减的训练两个epoch。作者使用权重衰减为1e-4、批大小为128的AdamW优化器。AE通过在
范数下扰动大小为
、步长为
的10步PGD生成。公式7中的超参数
设置为10。为确保可靠评估,作者使用与AutoAttack [9]相同的扰动大小
进行评估。由于计算成本较高,作者遵循Schlarmann等人 [28]的方法,对每个数据集在1,000个随机选择样本上进行评估。作者在附录B.1中使用10步PGD展示完整样本的评估结果。
4.2 结果
QT-AFT达到最先进性能。表2比较了在16个零样本数据集上的清洁和鲁棒准确率。作者提出的QT-AFT在16个数据集中的12个上实现了最先进的零样本鲁棒性,平均提升超过
2%。值得注意的是,QT-AFT在平均清洁准确率上仍保持高清洁准确率,实现了当前最先进的清洁准确率。
基于类标签的 Baseline 模型会过拟合训练分布,而QT-AFT不会。现有的有监督 Baseline 模型,如TeCoA、PMG-AFT和TGA-ZSR,这些模型使用类标签,在训练数据集(ImageNet)上表现出较强的鲁棒性,但它们在零样本数据集上的性能有限。例如,虽然TeCoA和PMG-AFT在ImageNet上实现了超过30%的鲁棒性,比FARE和QT-AFT高出10%,但它们在零样本干净准确率上表现较差,约为43%,比FARE和QT-AFT低7%。这些结果表明,在对抗微调过程中利用类标签虽然可以提高训练分布上的鲁棒性,但由于过拟合,可能会限制零样本性能。另一方面,QT-AFT通过在对抗微调过程中结合图像描述作为监督,有效解决了这一限制,避免了过拟合类标签。
QT-AFT在鲁棒性方面优于FARE。FARE避免了过拟合并保持了较高的清洁准确率,相较于监督式AT Baseline ,其准确率提高了7%。然而,QT-AFT通过利用丰富的语言指导进一步解决了FARE的局限性——即在AT过程中缺乏语义感知能力,从而提升了鲁棒性。平均而言,QT-AFT将零样本鲁棒性提高了超过3%,清洁准确率提高了1%。这证明了llm-QT-AFT_2507在生成偏离多样化图像语义的AE方面的有效性,从而在各种零样本任务中增强了鲁棒性。
5 分析:标题质量的影响
在本节中,为了更好地理解llm-QT-AFT_2507,作者对标题质量的影响进行了全面研究。具体而言,作者比较了使用不同类型标题的QT-AFT的性能。
5.1 标签与字幕:使用字幕效果优于类别标签
在作者的llm-QT-AFT_2507QT-AFT中,作者在AT过程中使用图像描述作为监督信息。为了评估描述质量的影响,作者遵循TeCoA中使用的方法,将描述引导的监督目标替换为类别标签引导的目标。这对应于将无监督的FARE损失与基于类别标签的TeCoA损失相结合。然后,作者比较使用类别标签与描述作为监督信息的效果。
如表3所示,仅将类标签引导的目标添加到无监督损失中即可提高FARE的性能。然而,与使用标签相比,使用标题能显著获得更好的结果。这突显了标题作为显式语义指导在AT生成AE过程中提升零样本鲁棒性的价值。
5.2 图像描述模型:描述更多视觉特征的益处
在作者的llm-QT-AFT_2507中,作者使用InternVL-2.5-8B [6]为ImageNet生成合成字幕。为了评估字幕质量的影响,作者还实验了Mini-InternVL-Chat-2B-V1-5 [6],这是一个参数量减少到四分之一且字幕生成性能较低的较小变体。
5.3 词性:非目标词的关键作用
作者通过在词性上进行输入消融实验,研究了哪些类型的语言信息有助于零样本鲁棒性。作者的动机是,尽管现有的监督式属性图模型方法主要使用类标签(通常为目标名称),但作者的目标是探索非目标词在增强零样本鲁棒性中的作用。具体而言,作者通过选择性地移除某些类型的词(例如名词)来修改文本描述,并评估其影响。作者使用NLTK工具包1获取每个词的词性(POS)标签。完整结果展示在表5中。有关词性分析中使用的输入消融文本描述示例,请参见附录C.2。
"仅含名词"并不一定能提升在零样本目标中心数据集上的鲁棒性。名词用于识别训练过程中遇到的目标类别,因此将描述仅限制为仅包含名词("仅含名词")可能预期会受益于目标中心数据集。然而,在大多数情况下,鲁棒性实际上会下降。
显著更高的清洁准确率,同时保持强大的鲁棒性,在12个数据集中的8个上优于 Baseline 模型。
零样本数据集。作者假设这是因为“仅名词”的描述专注于与训练分布对齐的物体,但缺乏泛化到未见类别的描述丰富性。
形容词和副词通过捕捉超越物体身份的描述性属性,有助于零样本鲁棒性。有趣的是,移除形容词和副词("无形容词/副词")对零样本鲁棒性产生负面影响,导致平均性能下降1.5%,甚至在以物体为中心的数据集(如STL-10、Caltech101和Caltech256)上降低性能。作者假设形容词和副词捕捉描述性属性(例如颜色、形状、大小),这些属性可在不同类别间迁移,并有助于泛化到未见过的类别,从而提升模型在零样本场景下的性能。
移除名词通常会导致性能下降,但在某些使用形容词描述类别标签的任务中,却能提升鲁棒性。通过移除名词(无名词),作者在16个数据集中的14个中观察到鲁棒性下降。然而,令人惊讶的是,在纹理分类任务(DTD)中,鲁棒性从14%提升至20%。这表明虽然名词对于以目标为中心的任务至关重要,但移除名词能提升纹理分类等基于形容词标签的任务的鲁棒性。这突显了语言引导的对抗性攻击(AT)的任务依赖性。
功能词有助于提升鲁棒性。功能词,如介词(例如 on、under、next to)、连词(例如 and、or、but)和冠词(例如 the、a),在传达空间和上下文关系方面起着关键作用,而这些关系对于理解复杂场景至关重要。通过移除功能词(无功能词),作者观察到鲁棒性和准确率均下降了
。它们的作用表明,关系性线索有助于模型捕捉场景级语义,减少对孤立物体身份的依赖,从而在对抗条件下实现更鲁棒和全面的图像理解。
词序对鲁棒性有影响。通过打乱单词顺序并破坏其结构(“打乱单词”),鲁棒性和准确率都会下降约2%。这表明标题的结构对于捕捉语义线索至关重要,保持自然语言结构通过确保在注意力转移(AT)过程中准确对齐语义,从而增强了鲁棒性。
6 消融研究 CLIP-ViT-L/14 结果
对于模型尺寸的消融实验,作者在ImageNet上训练CLIP-ViT-L/14,并使用其公开可用的模型权重,与TeCoA和FARE两种 Baseline 方法进行比较。表6表明,llm-QT-AFT_2507仍然有效,在保持强大的对抗鲁棒性的同时,实现了显著更高的零样本清洁准确率,在12个数据集中的8个上优于 Baseline 方法。
7 结论
在本工作中,作者重新审视了预训练视觉语言模型(VLMs)的对抗微调,并指出了现有监督学习和无监督方法在实现零样本鲁棒性方面的局限性。基于类标签的监督方法往往过拟合训练数据,而无监督方法则无法针对图像的语义重要方面进行优化。
为解决这些局限性,作者提出了质量文本引导的对抗微调(QT-AFT),该方法利用高质量的图像描述来引导对抗样本生成朝向语义多样化和描述性的方向。通过全面的实验,作者证明了llm-QT-AFT_2507在多种数据集上均提升了干净样本和鲁棒零样本的性能。词级贡献分析进一步揭示,形容词、副词、功能词甚至词序在通过编码细粒度和关系语义来提升鲁棒性方面发挥着重要作用。
总而言之,这项工作提出了一种利用语言增强视觉鲁棒性的新视角,强调了语义丰富性在对抗训练中的重要性。作者相信,作者的发现为未来鲁棒多模态学习的研究开辟了有前景的方向,这是一个与单模态学习截然不同的方向。
参考
[1]. Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models