CLIP架构再升级 | DiffCLIP利用差分注意力精简参数，零样本任务性能跃升，计算开销近乎零 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

作者提出了DiffCLIP，一种新型的视觉-语言模型，它将差分注意力机制扩展到CLIP架构中。差分注意力机制最初是为大语言模型开发的，用于增强相关上下文信息的同时消除噪声信息。

在本工作中，作者将此机制整合到CLIP的双编码器（图像和文本）框架中。DiffCLIP在图像-文本理解任务上实现了优异的性能，且额外参数极少。在零样本分类、检索和鲁棒性基准测试中，DiffCLIP始终优于 Baseline CLIP模型。值得注意的是，这些收益伴随着可忽略的计算开销，证明了差分注意力可以显著增强多模态表示，而不会牺牲效率。

代码：https://github.com/hammoudhasan/DiffCLIP

引言

视觉-语言模型（VLMs）在弥合文本和视觉模态之间的差距方面取得了显著进展，实现了诸如零样本图像分类、图像-文本检索和描述性字幕等强大功能[17, 33]。通过在联合嵌入空间中对齐图像和文本，这些模型捕捉了跨模态的广泛语义关系，并且通常在分布外泛化方面表现出色。在VLMs中，对比语言-图像预训练（CLIP）[33]作为一种基础方法脱颖而出，在多个基准测试中展示了强大的零样本性能，且仅需最小程度的微调。

虽然CLIP的对比训练机制已被广泛采用，但其注意力机制有时会在图像和文本编码器中关注无关或虚假特征。这种注意力噪声可能会阻碍细粒度理解，尤其是在需要精确定位或显式上下文知识时。有趣的是，最近的语言模型研究提出了一种差异注意力机制[48]，该机制通过减去互补注意力分布来抑制噪声并突出显著 Token 。然而，是否类似的策略对多模态任务有效仍然是一个未解之谜。

“能否将差异注意力机制应用于视觉-语言模型，以显著提升其在跨模态中关注相关特征的能力？”

受此问题启发，作者引入了DiffCLIP，它是CLIP的扩展，将差异注意力集成到视觉和文本编码器中。通过学习两个注意力图并从其中一个减去另一个，DiffCLIP有效地消除了错位或噪声信号，实现了图像和文本的更精确对齐。关键的是，这种增强仅在模型参数和计算成本上引入了可忽略不计的额外开销。

picture.image

作者的结果表明，DiffCLIP在各种任务上（包括线性检测、少样本分类、图像-文本检索、跨领域鲁棒性和细粒度视觉理解）上始终优于标准CLIP，突出了在多模态环境中差异注意力的有效性。如图1所示，DiffCLIP仅通过增加0.003%的额外参数就能在各种基准测试中提高性能。图2也展示了DiffCLIP与具有常规非差异注意力的CLIP模型相比，能够抑制注意力噪声。

picture.image

作者的贡献有三方面：

• 作者提出了DiffCLIP，这是首次将差分注意力集成到基于CLIP的视觉语言模型（VLMs）中，从而实现了一种简单而有效的方法来降低视觉和文本流中的注意力噪声。
• 通过对Conceptual Captions 3M/12M预训练的广泛实验，作者证明了在一系列多样化任务中，相对于 Baseline CLIP模型，作者取得了一致的提升，同时参数开销仅增加了大约0.003%。
• 作者进行了详细的消融实验，结果表明：(i) 动态初始化可以提升零样本性能；(ii) 仅在视觉编码器中应用微分注意力已经捕捉到了大部分的好处，这表明了一种灵活且成本效益高的多模态学习改进途径。

本文的剩余部分组织如下。第2节概述了关于增强CLIP的训练中心、模型中心和数据中心策略的先前工作。第3节提供了标准Transformer注意力机制、差异注意力概念和CLIP框架的概述。第4节详细介绍了作者的实验设置、实证结果和消融研究。第5节和第6节将讨论未来的研究方向，并对本文进行总结。

相关工作

视觉-语言预训练（VLP）提升了作者学习图像和文本联合表示的能力，进而促进了图像检索、视觉问答和零样本分类等任务的改进[10, 51]。CLIP[33]在这一进展中发挥了核心作用，通过使用对比损失来对齐来自大规模图像-字幕数据的图像和文本嵌入。尽管CLIP在零样本任务上表现出色，但研究行人仍在探索其训练、架构和数据收集策略的改进。这些努力通常分为三类：以训练为中心、以模型为中心和以数据为中心的方法。

以训练为中心的方法

一种常见的策略是在CLIP的对比框架中添加额外的目标。例如，SLIP [31] 添加了 Mask 图像建模来提升下游结果，而DeCLIP [22] 使用最近邻监督来提高数据效率。SigLIP [50] 将标准的softmax温度替换为sigmoid损失，允许更大的批量训练，并提高泛化能力和对噪声标签的鲁棒性。检索增强的CLIP [16] 在推理时利用图像-文本对的外部记忆，在细粒度零样本任务上实现了显著的提升。此外，如Yang等人[47]和PyramidCLIP [11]提出的新的训练目标，通过多个语义层面的信息聚合，突出了多样化训练信号对提升CLIP性能的益处。

以模型为中心的方法另一类工作是对CLIP的架构进行修改，以提高其效率或准确性。原始的CLIP [33] 使用Transformer [41] 处理文本，并使用ResNet [13] 或Vision Transformer (ViT) [7] 处理图像。后续研究将目标检测和分割等领域的思想融入其中，以捕捉更精细的视觉细节，例如区域级表示 [45, 53]。最近，ViTamin [5] 提出了一种专门针对多模态模型的视觉Transformer架构，在类似的训练设置下，与标准ViT相比，展示了改进的无监督学习结果。其他研究行人试图将图像和文本编码器统一到一个Transformer [40] 中，尽管这种方法较为少见。值得注意的是，很少有方法改变CLIP的核心注意力机制。作者的工作通过将最初为语言模型提出的Differential Attention [48] 适应到CLIP的多模态环境中来填补这一空白。这种适应旨在减少注意力噪声并提高表示质量。

数据中心化方法

数据中心化方法强调提升预训练数据集的规模、多样性和质量。最初的努力集中在数据集的扩展上[17, 33]，而近期的方法更侧重于更丰富和更干净的训练监督。VeCLIP[20]利用大语言模型（LLMs）生成详细和丰富的描述，增强了文本监督。同样，CLIPS[27]利用截断的合成描述来改善视觉定位和检索性能，表明经过精心控制的合成文本输入可以超越标准的图像-描述对。SynthCLIP[12]探索了完全在合成图像-文本对上训练。进一步的方法采用过滤技术来消除噪声或不相关样本[1, 9]，而Cluster Masking[43]提出对相似图像块簇进行 Mask ，从而加快训练速度并提高表示质量。这些努力突显了数据整理和增强策略在增强基于CLIP的模型有效性方面的潜力。

除了性能之外，公平性和组合性也受到了越来越多的关注。FairCLIP [29] 通过在人口统计学群体之间使用基于最优传输的特征对齐，解决了CLIP等模型中存在的人口统计学偏差问题。同时，迭代学习方法 [52] 应对大型视觉语言模型的组合性限制，促进能够更可靠地泛化到复杂和组合性视觉语言场景的表示。

本文贡献于以模型为中心的研究方向，通过将差异注意力[48]应用于CLIP的双编码器架构。通过这一调整，作者旨在降低注意力噪声并提升在各种图像-文本理解任务中的性能。

预备知识

在本节中，作者概述了对DiffCLIP至关重要的基本概念。作者首先回顾了Transformer自注意力机制[41]，这是现代序列建模中广泛使用的机制。接下来，作者介绍了差分注意力[48]，这是一种通过利用互补注意力分布来减少注意力噪声的技术。最后，作者总结了对比语言图像预训练（CLIP）框架[33]，该框架学习在共享表示空间中对齐图像和文本。这些组件构成了DiffCLIP和实验的基础。

3.1. Transformer 注意力

Transformer网络[41]通过自注意力操作捕捉序列中元素之间的关系。让

矩阵空间输入序列为

个 Token （或图像块），每个 Token Embedding 到

维空间中。Transformer使用学习到的权重矩阵将

映射到 Query

、键

和值

。

其中

。随后通过缩放点积计算自注意力得分：

这些分数被用来加权

。

注

意

力

函

数

（

）

为了捕捉不同类型的关系，Transformer 使用多头注意力（MHA）。具有

个头的 MHA 模块将每个投影分割成大小为

的低维部分。在每个头

中

其中

。 Head 输出被连接并投影回：

。尽管在许多领域取得了显著的成果，标准注意力机制可能会分配非零权重给无关的 Token （通常称为注意力噪声）[18, 26]，这在需要精确关注的场景中可能会降低性能。

3.2 差分注意力

差分注意力[48]通过学习两个独立的注意力分布并将其中一个从另一个中减去，有效地消除了虚假对齐。

单头差异注意力。设

为单注意力头的输入。作者将

和

分成两半，分别用下标 1 和 2 表示：

。每个半部分计算其自身的注意力分布：

输出是通过从第一个分布中减去第二个分布（第二个分布乘以一个可学习的参数

）得到的：

参数

被训练以控制第二分布被减去的强度：

是可学习的权重，而

是一个超参数。这种减法通常会产生一个更Sparse、更集中的注意力图，这可以在对背景或冗余信号敏感的场景中提高结果 [48]。

多头扩展。与标准注意力机制类似，差异注意力也可以扩展到多个头。在差异多头注意力（Diff MHA）中，每个头

独立应用差异步骤：

其中

。最终的输出结果为

通过在每个头中学习互补注意力图并对其进行减法运算，Diff MHA旨在增强相关模式同时减少噪声。

3.3 CLIP训练

对比语言-图像预训练（CLIP）[33]通过使用大量成对的图像-文本示例

在共享空间中学习图像和文本嵌入。它包含两个编码器：一个用于图像

，另一个用于文本

。它们的输出被归一化到单位长度：

对于一批包含

对样本，CLIP形成一个相似度矩阵

其中

是一个（学习或固定的）温度参数。文本到图像的对比损失是

图像到文本的对应物是

总体目标是

通过鼓励匹配的图像-文本对具有较高的相似度（以及不匹配的对具有较低的相似度），CLIP学习到鲁棒的特征，这些特征通常能够很好地迁移到下游任务，如零样本分类和检索。

实验

作者进行了一项广泛的实证研究，以探讨差异注意力是否能够对CLIP风格的视觉语言模型有益。作者首先描述了作者的数据集来源和训练配置，然后在线性检测、少样本分类和图像-文本检索方面评估了标准CLIP和作者的DiffCLIP变体。作者还测试了模型对分布变化的鲁棒性（通过OOD ImageNet）和细粒度特征（通过MMVP），最后进行了关于差异注意力参数

的初始化以及仅将差异注意力应用于视觉编码器的消融研究。

4.1 实验设置

数据集。作者在Conceptual Captions 3M (CC3M) [38]和Conceptual Captions 12M (CC12M) [4]上进行预训练。使用img2dataset [2]（将较短边调整至224像素）下载后，作者得到了大约230万图像-文本对用于CC3M，以及790万用于CC12M。对于CC3M，作者在四个A100 GPU上进行训练，而CC12M使用八个A100 GPU以减少训练时间。文本数据仅进行最小化处理，限于基本的 Token 化。

训练参数。所有模型训练40个epoch，使用一个epoch的线性预热，全局批次大小为4096，以及Adam W优化器[28]。作者将基础学习率设置为

，权重衰减为0.5。对于DiffCLIP，视觉和文本编码器中的每个注意力层都被差分注意力所替代。除非另有说明，作者初始化每层的

为0.8。这种设置仅引入了轻微的参数开销：相对于标准的CLIP-B/16，大约增加了0.003%的额外参数。训练参数的选择与SynthCLIP[12]相似，训练代码借鉴自SLIP[31]。

评估协议。作者在九个图像分类数据集上遵循线性检测和少样本评估的既定实践[8]：DTD[6]、Flowers[32]、Pets、Caltech-101[21]、Aircraft[30]、CIFAR-10[19]、SUN397[44]、CIFAR-100[19]和Fo0d-101[3]。对于Flickr8k[34]、Flickr30k[49]和MSCOCO[24]上的检索（图像到文本和文本到图像），作者使用LAION CLIP Benchmark框架[37]。作者在ImageNet[36]及其变体（ImageNet-V2[35]、ImageNet-A[15]、ImageNet-R[14]和ImageNet-Sketch[42]）上测量零样本鲁棒性。最后，作者使用MMVPVLM基准[39]来检查每个模型在精细视觉细节上的关注程度。

4.2 CLIP模型能否从差异注意力中获益？

动机。为了评估作者提出的DiffCLIP的有效性，作者按照先前文献中建立的常见基准，测试其在涉及图像分类、图像-文本检索和零样本泛化等任务中的性能。

结果。作者将 Baseline CLIP-B/16与作者的DiffCLIP-B/16（在视觉和文本编码器中都采用差异注意力）进行了比较。表1显示了在CC3M和CC12M上预训练的模型的线性检测和少样本分类结果。DiffCLIP在几乎所有数据集上都优于标准CLIP。例如，在CC3M预训练的情况下，DiffCLIP在线性检测中实现了约

的提升，在少样本准确率上提升了

。

picture.image

结论。尽管DiffCLIP仅增加了极小比例的额外参数，但它始终在分类和检索基准测试中优于标准CLIP。这表明，差异注意力是一种轻量级且有效的提升视觉语言表示的方法。

4.3 差分注意力是否能提高跨领域鲁棒性？

动机。观察到在分布式ImageNet上的改进后，作者想知道这些收益是否可以迁移到更具挑战性的域外变体。现实世界的应用往往涉及域偏移，CLIP的无样本适应性已在ImageNet-V2、ImageNet-A、ImageNet-R和ImageNet-Sketch等基准上进行测试——这些基准已知会超出标准ImageNet对模型鲁棒性的压力。理解差异注意力如何在这种场景下影响鲁棒性对于评估其在部署环境中的实际效用至关重要。作者的目标是看看差异注意力是否有助于在域偏移下维持或提高性能。

结果。图3总结了在ImageNet-V2、ImageNet-A、ImageNet-R和ImageNet-Sketch上的零样本性能。具有差异注意力机制的模型平均比标准CLIP模型高出2.1%，这表明通过减去噪声注意力模式可以获得更具泛化能力的特征，即使在显著的分布偏移下也是如此。

picture.image

结论。DiffCLIP不仅提升了在分布内的性能，还增强了对抗较大领域变化的零样本鲁棒性，进一步证明了差分注意力机制的优势。

4.4. DiffCLIP是否提升了细粒度视觉理解？

MMVP-VLM 基准。为了测试细粒度视觉理解，作者采用了 MMVP-VLM 基准 [39]。该基准衡量视觉-语言模型捕捉细微视觉属性的能力，如物体方向、存在性和关系上下文，而不仅仅是简单的识别。CLIP 和 DiffCLIP 都在相同的设置下在 CC12M 上进行预训练。

结果。DiffCLIP相对于 Baseline CLIP，平均提高了MMVP-VLM的准确率5.7%。雷达图（图4）显示，DiffCLIP在几乎所有类别上（除一个类别外，即状态和条件）都超越了或达到了CLIP的水平。这表明通过差分注意力去除噪声注意力模式有助于模型关注图像中的更细微的细节。

picture.image

结论。通过通过差异注意力机制减轻无关背景信息，DiffCLIP实现了更强的细粒度视觉理解。这些收益凸显了在多模态环境中显式取消无关注意力权重的方法的有效性。

4.5 动态或静态

动机。所有之前的实验都使用了固定的差分注意力初始化

。然而，[48] 提出了一种动态调度方案：

其中

表示层索引。作者用 DiffCLIP* 表示使用此调度策略的模型。

结果。图5总结了六个任务：线性检测、少样本分类、图像检索、文本检索、零样本ImageNet和零样本OOD。与 Baseline CC12M CLIP相比，DiffCLIP*将零样本ImageNet的准确率提高了+2.8%，文本检索提高了+1.5%。它还将零样本OOD的准确率提高了+1.3%。然而，相对于标准DiffCLIP（固定

），DiffCLIP在零样本ImageNet上提高了+0.8%，在文本检索上提高了+0.8%，但在其他任务上的表现不佳或仅略有提高。例如，在零样本OOD中，DiffCLIP比标准DiffCLIP低0.8%。

picture.image

结论。动态λ调度在零样本ImageNet和文本检索任务中取得了显著的提升，但在其他一些基准测试中，其性能落后于简单的常数初始化。未来的工作可以探索如何最佳地调整或结合这些调度策略，以实现持续的改进。

4.6 仅对视觉应用差异注意力是否足够？

动机。由于视觉编码器在CLIP模型中通常扮演主导角色，人们可能会问是否两个编码器都需要差分注意力。作者将DiffCLIPf定义为一种仅在视觉编码器中集成差分注意力的变体，而文本编码器则使用常规注意力。

结果。图5比较了CLIP、DiffCLIP和DiffCLIPt在六个任务上的表现：线性检测、少样本分类、图像检索、文本检索、零样本ImageNet和零样本OOD。DiffCLIPt在 Baseline 模型的基础上有所改进。

CLIP在线性检测中提升了

，在少样本学习中提升了

，在图像检索中提升了

，在文本检索中提升了

，在零样本ImageNet中提升了

，在零样本OOD中提升了

。与DiffCLIP相比，DiffCLIPT在少样本学习、图像检索、文本检索和零样本OOD上的性能超过了或与DiffCLIP持平，但在线性检测和标准零样本ImageNet上略逊一筹。

结论。仅将差异注意力应用于视觉编码器就已经带来了显著的提升。有趣的是，DiffCLIPt甚至在某些任务上可以与完整的DiffCLIP相匹配或超过其性能，这表明性能提升的大部分可能来自于更鲁棒的视觉特征提取。

未来方向与局限性

5.1 超越CLIP

未来研究的一个引人入胜的问题是在CLIP框架内使用差分注意力训练的视觉编码器，当其集成到更大、更复杂的视觉-语言模型（如LLaVA [25] 或TinyLLaVA [54]）中时，其表现会如何。为了提供对此可能性的初步见解，作者通过将作者的DiffCLIP-CC12M视觉编码器与Qwen2.5-Instruct-0.5B [46]语言编码器相结合进行了初步实验。作者遵循了典型的两阶段训练程序：首先，训练一个线性 Projector 以对齐视觉 Token 与语言嵌入空间，同时冻结所有其他组件；其次，对 Projector 和语言编码器进行了指令微调。

对于投影训练，作者使用了LLaVA训练设置中使用的LAION-CCSBU数据集（558K个图像-文本对）。对于指令微调，作者采用了LLaVA使用的COCO [24]子集（约350K个对）。所有实验都是在4个A100-80GB GPU上使用TinyLLaVA仓库进行的。微调的超参数包括每个GPU的批大小为48个样本，学习率为

，零权重衰减，预热比例为0.03，以及余弦衰减调度。投影预训练同样使用每个GPU的48个样本，学习率为

，无权重衰减，预热比例为0.03，以及余弦衰减调度。

作者对生成的模型在POPE [23] 幻觉数据集上进行了评估，该数据集用于评估模型对视觉幻觉的敏感性。尽管观察到的改进幅度有限，DiffCLIP-CC12M在所有指标上始终优于CLIP-CC12M Baseline 。这些初步发现表明，差异注意力训练的视觉编码器在集成到更广泛视觉-语言架构中时可以提升性能，这为未来的进一步探索提供了一个有前景的方向。

5.2 数据与架构的扩展

在CC12M数据集（790万个样本）上使用ViT-B/16作为 Backbone 网络训练CLIP模型目前大约需要10个A100 GPU天的计算时间，按照谷歌云平台（GCP）的价格计算，大约需要600美元。一个自然的未来研究方向是探索当模型架构（例如ViT-L或ViT-H）和大数据集（例如LAION400M）扩展时，差异注意力机制的表现如何。研究这种扩展可能揭示出随着模型大小和数据集规模的增加，DiffCLIP观察到的性能提升是否持续存在甚至增强，从而为差异注意力在视觉-语言预训练中的更广泛适用性和益处提供见解。

结论

作者引入了DiffCLIP，该模型将差分注意力集成到基于CLIP的视觉-语言模型中，以更好地过滤掉噪声对齐。通过在分类、检索、鲁棒性和细粒度基准上的广泛实验，DiffCLIP在标准CLIP的基础上实现了持续改进，且开销最小。进一步的消融实验突出了动态注意力调度和仅视觉设置的可扩展性。作者希望这些发现能够激发未来在大型多模态学习中关于更高效、鲁棒的注意力机制的研究。

参考

[1]. DiffCLIP: Differential Attention Meets CLIP

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image