伯克利大学提出 TULIP | 重塑CLIP，跨模态对比+重建正则化双驱动，1B参数横扫SOTA - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

尽管CLIP和SigLIP等图像-文本对比模型近期取得了成功，但这些模型在需要高保真图像理解的视觉中心任务上往往表现不佳，例如计数、深度估计和细粒度物体识别。这些模型通过执行语言对齐，往往优先考虑High-Level语义而非视觉理解，从而削弱了它们的图像理解能力。另一方面，专注于视觉的模型在处理视觉信息方面表现出色，但在理解语言方面存在困难，限制了它们在语言驱动任务上的灵活性。

在本工作中，作者引入了TULIP，这是一个开源的、可替换现有CLIP-like模型的方案。TULIP利用生成数据增强、增强的图像-图像和文本-文本对比学习以及图像/文本重建正则化来学习细粒度视觉特征，同时保持全局语义对齐。

TULIP扩展到超过10亿个参数，在多个基准测试中优于现有最先进（SOTA）模型，在ImageNet-1K上建立了新的SOTA零样本性能，在RxRx1的线性检测中对于少样本分类，相较于SigLIP提升了2倍，并改进了视觉-语言模型，在MMVP上比SigLIP高出3倍以上。

代码/预训练权重: https://tu1ipberkeley.github.io

引言

对比图像-文本（CIT）模型，包括CLIP [38]、SigLIP [54] 和 ALIGN [28]，在High-Level视觉-语言任务上展现了最先进的性能，擅长各种应用，如从文本检索图像和反之亦然、执行零样本分类，以及作为视觉-语言模型的核心组件。它们的成功源于其利用亿级规模数据集创建图像和语言输入之间的共享嵌入空间的能力，其中相似的概念彼此靠近，而不同的概念则相距较远。

尽管如此，现有的对比图像-文本（CIT）方法存在一些显著的缺点。对比图像-文本模型学习到的表示往往能够编码图像和文本之间的High-Level语义，但编码全局对齐往往以牺牲视觉细粒度任务（如空间推理）的性能为代价。因此，现有的CIT模型表示在识别图像中存在的内容方面过度优化，而相对于确定其位置或注意区分相似目标的细粒度细节，则表现不佳。这种限制源于训练数据和目标缺乏对精确空间理解的关注，并且没有提供必要的详细标注，这些标注对于细粒度视觉区分或定位至关重要。因此，需要更微妙视觉理解的任务，如多视角推理、计数、实例分割、深度估计和目标定位，与High-Level任务相比，提出了更大的挑战。

本文介绍了TULIP（迈向统一语言-图像预训练），这是一个开源的即插即用模型，旨在替代现有的开放权重CIT模型，以增强通用视觉特征的学习，同时保留当前CIT方法的语言定位优势。TULIP解决了现有CIT方法的两个基本挑战：详细空间信息的表示，以及细微视觉细节的表示。为了编码详细的空间信息，作者借鉴了iBOT [55] 和DINO [36] 等方法，在 Patch Level 引入了全局和局部多裁剪增强和目标。为了保持图像-文本对比目标通常忽视的高频局部视觉细节，作者引入了一个重建目标。虽然现有的CIT方法侧重于High-Level语义表示，往往忽略了这些局部细节，但作者发现，将它们纳入其中可以增强在各种下游任务中的性能，例如视觉问答。最后，作者提出了一种基于扩散模型的生成数据增强策略，旨在生成具有挑战性的困难负样本，以细化细粒度语义定位。

作者通过将TULIP与现有的CIT模型（如OpenAI的CLIP[38]和最近引入的SigLIP 2[48]）在一系列涵盖传统和专用数据集的视觉中心下游任务上进行评估，证明了TULIP的有效性。具体来说，作者评估了在通用零样本分类数据集（如ImageNet-1K、iNAT-18和Cifar-100）以及细粒度、特定任务的分类数据集（包括RxRx1、fMoW和Infographics）上的性能。作者证明了TULIP在所有基准测试中均优于SOTA模型（在某些情况下，甚至优于更大的模型）。作者还展示了在COCO和Flickr上SOTA的基于文本的图像检索性能，以及反向图像到文本问题。为了检验模型在视觉语言任务中的鲁棒性，作者使用TULIP作为LLaVA风格模型在MMVP和MM-Bench数据集上的视觉编码器进行评估，证明当用作现有CIT模型的直接替换时，TULIP在MMVP（视觉中心下游任务）上比CIT模型提高了超过3倍，同时在语言中心任务上没有降低性能。最后，作者使用BLINK基准评估了TULIP的说理和感知技能，相对于SigLIP训练的 Baseline ，相对提高了高达12%，并使用Winoground基准评估了视觉语言组合推理技能，其中作者比现有的CIT模型提高了高达30%，在基于组的推理中实现了高于随机性能——这是CIT模型的首创。

主要贡献如下：

1. 作者引入了TULIP，这是一种改进的图像-语言预训练框架，它增强了细粒度视觉表示的编码，同时保持了现有图像语言预训练方法的语言接地能力
1. 作者引入了全局和局部多Crop Level 的 Patch 增强和目标，以提高空间感知能力
1. 作者引入了一个重建目标，该目标能够保留高频局部视觉细节
1. 作者提出了一种基于扩散模型的生成数据增强策略，旨在生成具有挑战性的困难负样本，以细化细粒度语义基础
1. 作者在广泛的视觉和视觉-语言基准测试中评估了TULIP，在零样本分类、细粒度识别、目标检测和多模态推理任务中建立了新的最先进性能
相关工作

视觉中心自监督学习。视觉中心自监督学习在从未标注图像数据中学习表示的发展推动下取得了显著进展。早期方法如DeepCluster [9] 探索了基于聚类的技术，而对比学习框架如MoCo [13, 23]、SimCLR [12] 和SwAV [10] 利用同一图像的不同增强和多样化的增强来学习强大的表示。随后，非对比方法如BYOL [22] 和Barlow Twins [53] 的发展进一步推动了这一领域，这些方法放弃了显式的负样本。

近期，DenseCL [50] 提出了密集对比学习，VICReg [5] 提出了方差不变协方差正则化框架。同时，DINO [9, 36] 利用动量编码器进行自蒸馏，而 Mask 图像建模方法如MAE [24]、DiffMAE [51] 和CrossMAE [19] 展示了重建 Mask 图像块的有效性。最后，I-JEPA [1] 和V-JEPA [6] 通过引入 Mask 预测任务，进一步推进了自监督视觉表示学习，这些任务涉及预测 Mask 图像区域的抽象表示。

与先前的方法不同，TULIP通过明确地融入视觉局部细节来增强对比图像-文本学习。这是通过在 Patch Level 的全局和局部多裁剪增强和目标实现，辅以重建目标，从而实现对视觉信息的更全面理解。

生成数据增强。生成数据增强最近作为一种强大的技术出现，用于扩展训练数据集，超越传统的变换。ALIA [18] 开发了一个基于扩散的增强流程，该流程使用语言引导的图像编辑来创建训练图像的逼真领域变体，显著增强了数据集的多样性并提高了分类性能。类似地，[47] 利用预训练的文本到图像扩散模型进行语义图像编辑以创建增强示例，这提高了小样本分类任务的准确性。[42] 提出了一种模型无关的方法，使用扩散模型合成未见类别的特定类别图像，以改善零样本分类性能。[25] 表明，这种合成数据可以改善低数据环境下的模型性能并辅助大规模模型预训练。[2] 证明了将扩散生成的样本添加到ImageNet中可以显著提高分类准确性。StableRep [45] 指出，仅使用2000万Stable Diffusion生成的图像训练的模型可以学习到与在5000万真实图像上训练获得的视觉表示相媲美的表示。

与先前通过生成图像丰富数据集的工作不同，作者的GeCo将生成增强直接集成到对比学习框架中。通过利用大语言模型创建正负两种语言的释义以及基于扩散的图像编辑，作者的双模态方法产生了更丰富的对比视图，从而增强了视觉和文本表示。与仅关注分类或领域迁移的方法不同，GeCo通过生成硬负样本来细化细粒度语义基础，迫使模型区分图像-文本对中的细微差异。

对比图像-文本学习。对比图像-文本（CIT）学习已成为一种强大的范式，用于学习视觉和文本信息的联合表示。通过在大量的图像-文本对数据集上训练模型，CIT能够在一个共同的嵌入空间中对视觉和文本表示进行对齐。像CLIP [38] 和 ALIGN [28] 这样的开创性工作展示了令人印象深刻的零样本能力，并在包括图像-文本检索和视觉问答在内的各种视觉-语言任务上实现了最先进的性能。

后续研究主要集中在提高对比学习的效率和可扩展性上，例如SigLIP [54]，它引入了一种新的sigmoid损失函数，以及SigLIP 2 [48]（与作者工作同时引入），它扩展了sigmoid损失的训练目标，增加了提高语义理解、定位和密集特征的目标。尽管这些模型取得了成功，但它们往往在细粒度视觉理解和需要精确空间推理的任务上存在困难。最后，SLIP [35] 也探索了使用语言监督进行自监督学习以进行视觉表示学习。然而，与TULIP不同，SLIP仅关注具有固定增强的图像-文本和图像-图像对比学习。

TULIP

在本节中，作者首先讨论了TULIP如何利用图像和文本在对比学习过程中提供不同的视角（参见3.1小节）。接着，作者介绍了TULIP如何通过生成增强来从“现实”中创建不同的视角（参见3.2小节），以及TULIP如何通过重建损失来正则化训练，以学习更鲁棒的特征表示（参见3.3小节）。

3.1. 多样化对比视角

先前图像-文本对比学习方法主要对比图像与其对应文本，而图像-图像对比学习方法则是对比图像与其增强版本。作者提出将这些方法统一起来，通过将图像或文本的每一次变换视为底层语义内容的有效视图，然后将这些视图纳入对比学习框架中。

因此，作者的对比学习损失包括三个关键组成部分：图像-文本对比学习、图像-图像对比学习以及文本-文本对比学习，如图1所示。

picture.image

TULIP中的对比损失来源于SigLIP [48]。用

和

表示来自相同底层内容的两个视图，批大小为

。

图像-文本对比学习。对于批次

中的每个图像

，作者使用SigLIP中的标准图像-文本对比学习目标：

图像-图像对比学习。为了构建变换后的图像，作者利用生成模型而不是对比学习中常用的传统固定增强集。作者的生成变换显著优于DINO中使用的标准增强技术，从而得到更鲁棒的表现。作者在第3.2小节中详细介绍了生成变换。给定原始图像嵌入

和变换后的图像嵌入

，作者定义作者的图像-图像对比损失为：

文本-文本对比学习。为了增强文本表示，作者采用语言模型进行生成增强，包括句法释义和同义词替换（参见3.2小节）。给定原始文本嵌入

和变换后的文本嵌入

，作者定义作者的文本-文本对比损失为：

作者的整体对比学习损失如下：

图像编码器。TULIP的图像编码器如图2所示。遵循DINOv2，作者使用EMA教师模型，并结合局部/全局视图分割（教师模型仅看到全局视图，而学生模型看到全局和局部视图）。与DINOv2类似，作者利用教师模型生成的嵌入进行图像对比学习和图像-文本对比学习。在作者的实验中，图像编码器采用SigLIP图像编码器，这是一个ViT模型[16]。路径中显示的重建正则化在3.3小节中进行了讨论。

picture.image

文本编码器。TULIP的文本编码器如图3所示。在文本编码过程中，视图中的全局/局部结构并不明确，因此作者不使用EMA教师，而是利用直接关联权重的文本编码器。对于文本编码器，作者采用SigLIP的语言编码器。重建正则化将在3.3小节中进一步讨论。

picture.image

3.2. GeCo：生成多样化的对比视图

现有的对比学习模型主要关注使用固定的视图集来迫使模型学习语义不变性。虽然固定潜在的视图集很简单，但选择合适的视图却是一项具有挑战性的任务。所选择的特定视图集也会影响模型学习到的特征水平。在DINO中，模型被训练以匹配图像的局部/小块与全局块，从而产生强大的全局语义特征，但往往导致模型忽略物体之间的复杂关系。最近的研究表明，许多生成模型天生就能够在自然 Level 上编码语义，例如，GPT-4V在测量自然语言的语义距离时表现良好[11]，Stable Diffusion则编码图像之间的语义对应关系[26]。这促使作者采用一种基于这些大型生成模型编码的语义信息的视图生成方法，除了基础的一组简单的像素级增强之外。

面向此类生成增强，作者引入了GeCo（GEnerative COntrastive view augmentation），这是一种利用大型生成模型（包括语言和图像）的方法，能够在训练过程中自动生成语义等价（以及语义不同但视觉相似的）增强。GeCo在感知、空间和时间轴上自动改变图像和文本，以创建正负对，这些对被输入到构成TULIP的对比组件中。GeCo生成两种类型的视角对：

• 正面观点是对相同内容持有相同语义，但以不同（但相似）的方式看待的观点。这些观点在语义空间中应“更接近”。例如，轻微旋转相机围绕一个物体并不会显著改变图像的语义，但可以改变局部像素值。负面观点是对语义上不同的内容，但包含许多相似图像特征的观点，例如，在“自行车”图像中添加“汽车”会创建一个语义上不同但包含许多相同视觉特征的新图像。

不幸的是，此类成对数据往往不可用，因此GeCo利用生成模型从现有的图像和文本成对中生成正负视图。GeCo的一般过程如图4所示，包括两个组件：语言增强和图像增强。

picture.image

语言增强。为了增强语言，多种方法（主要针对幻觉减少）追求随机删除单词或单词同义词替换[41]。在这里，作者利用大语言模型（Llama-3.1-8B-Instruct）执行类似风格的增强。作者要求模型直接对文本内容进行释义，以产生正面释义（语义相同）和负面释义（语义被微妙地改变）。通过依赖语言模型来做出这个决定，作者可以利用LLM中潜在的语义理解，并避免预先定义特定的语义相似度 Level 。附录D中给出的 Prompt 针对正面和负面增强有所不同。当生成正面样本时，具体来说，LLM不应改变语义，如物体、计数、布局等，而可以通过句法、同义词等对文本进行释义。当生成负面样本时，作者可以遵循类似的逻辑来改变文本的语义，例如将“5个苹果”

4个苹果”或改变图像的组合成分，如“桌子左边的椅子”

“椅子左边的桌子”。

图像增强。为了增强图像，作者通过软 Prompt 对基于指令的图像编辑生成模型进行微调，以生成图像的正负增强版本。形式上，对于一个图像编辑模型

，其中

是图像，

是向量嵌入，作者学习对应的正视图和负视图的嵌入

（正）和

（负）。为了训练这些嵌入，作者借鉴了多种“自然”的图像增强来源。除了传统的图像增强（例如，简单的颜色抖动、翻转、全局裁剪、高斯模糊等）之外，作者还考虑了进一步的增强。对于正训练，主要增加的是视频数据，作者将相隔

的紧密相关帧视为语义相同，以及多视图数据，作者将同一物体的多个视图视为语义相同。对于负训练，作者使用大规模的语义图像编辑数据集，因为每个图像编辑都编码了图像的语义变换。

picture.image

TULIP支持接收图像和配对文本，并生成增强的正面和负面视图。然后，作者可以使用这些视图进行训练，无论是在训练时间推理期间在线使用，还是在训练过程中缓存增强并重新使用，如图5所示。更正式地说，在图像-图像或文本-文本对比学习中，GeCo接收一个输入（图像或文本）并生成一个增强的正面视图和一个增强的负面视图。遵循3.1小节中的符号（损失

，令

为输入图像（或文本），令

为该图像（或文本）的正面和负面增强视图。定义

为对应于负面视图的索引集合。在方程1中，作者设置：

表示元素

和

之间的关联权重，

是一个指示函数，当

属于集合

时取值为 1，否则取值为 0。因此，

的值取决于

是否属于集合

，如果属于，则

；如果不属于，则

。

这意味着当第

个视图为负时，

（两个元素构成负对）。在图像-文本对比学习中，令

为生成的增强文本。GeCo只为图像和文本生成负增强视图，并设置：

文本嵌入作为初始文本 Token 。正则化的损失格式如下：

和

代表了网络中重建损失与其他目标之间的加权权衡。由于重建在训练过程中可能非常昂贵，为了确保最小的计算开销，作者在两种模态中均计算重建，但在每次迭代中仅使用其中一个模态的潜在向量。例如，在图像-图像对比学习中，作者从图像嵌入中计算重建损失，而在图像-文本对比学习中，则从预先存在的图像嵌入中计算文本重建损失（这是合理的，因为对比目标鼓励每个正对中的向量在收敛时相同）。

总体而言，TULIP 通过一次传递，使用损失函数的加权组合进行预训练：

当且仅当

或

请注意，这里省略了

和

都属于

的成对计算（因为它们之间的对应关系是未知的），并且专注于作者知道图像或文本与真实值不匹配的情况。

3.3 重建正则化

通过仅通过生成增强引入广泛的对比视图可以帮助提高模型在细粒度语义上的性能，但这一过程也引入了模型中的隐藏不变性，即图像的不同增强编码到相同的点。虽然这种不变性有助于表示学习，但往往会导致在高保真视觉中心任务（如颜色识别、方向或深度估计）上的性能降低。为了鼓励模型平衡高频信息与语义表示，作者还将像素级重建目标添加到模型的潜在向量中。其基本假设是，如果模型能够从潜在空间中编码重建图像本身所需的信息，那么它也将编码关键视觉细节（如颜色/纹理），同时在语义空间中保持不变（由于对比目标）。

重建目标如图2所示（图像路径）和图3所示（文本路径）。对于图像重建，作者利用了一种带 Mask 的自动编码器（MAE）风格的模型，并使用嵌入作为信息的“ Bottleneck ”。使用MAE鼓励模型编码形状信息和高熵细节，而不是全局模式（因为全局模式可以很容易地从未 Mask 的 Patch 中推理出来）。对于文本模型，作者利用了一种因果解码器（基于T5），与

实验与结果

在本节中，作者讨论了TULIP的实验设计、训练过程和实验结果。

4.1 实验设计

数据。为了训练GeCo，如第3.2小节所述，作者为作者的扩散模型使用了视频和多视角数据集。对于下一帧预测，作者从WebVid-10M数据集[3]中采样连续帧（在0.2秒内）。对于多视角预测，作者使用MVImgNet[52]，而对于负视角生成，作者结合了InstructPix2Pix[8]的数据集。为了对文本进行改写以进行增强，作者利用了Llama-3.1-8B-Instruct模型[17]。

对于模型预训练，作者使用DataComp-1B数据集[21]训练TULIP的所有变体。为了扩充数据，作者随机替换原始标题的

，使用来自Li等人[30]的重新描述数据。在文本重建过程中，作者发现增加重新描述数据的比例可以提升结果，因此作者将基础标题的

替换为重新描述数据。

优化。作者使用Adam优化器，学习率为

，权重衰减为

，并对梯度进行归一化至2的裁剪。作者将批大小设置为49,152。TULIP在几天的时间内使用最多32个A100 GPU进行训练。

4.2 视觉-语言理解

作者的首次实验主要关注评估TULIP学习到的图像-文本表示的质量，其中作者探讨了零样本分类、文本到图像和图像到文本的检索，以及针对细粒度分类数据集的线性检测。

零样本分类。作者首先在零样本分类任务上对TULIP进行了基准测试（ImageNet [15]（1次/10次））

ImageNet v2 [39]、ImageNet ReaL [7] 和 ObjectNet [4]（遵循Zhai等人[54]的一般协议），结果见表1。一般来说，TULIP在其参数类别内优于现有方法，并且在OpenCLIP等现有开源模型上实现了显著的改进。TULIP文本到图像检索。除了零样本分类，作者还对图像检索基准进行了测试（包括使用COCO [31]和Flickr-30K [37]数据集的文本到图像和图像到文本），其中TULIP在文本到图像建模的大规模应用中显著优于现有基准模型。

picture.image

线性检测。虽然TULIP在大规模物体理解基准测试中表现良好，但作者在这项工作中针对的许多改进都集中在理解细粒度细节上。为此，作者探讨了在特定领域数据上训练线性检测时TULIP的性能。为了理解这种性能，作者在IN-1K [15]、iNAT-18 [49]、CIFAR-100 [29]、RxRx1 [43]、fMoW [14]和Infographic [34]数据集上进行了评估（详细数据集描述见附录C）。如表2所示的结果显示，TULIP在细粒度/细节导向的任务上明显优于现有的视觉和语言表示（例如，在RxRx1上几乎达到SigLIP性能的两倍，且单独使用DINOv2时的性能更高），同时保持了高质量的语言表示（相对于DINOv2提高了24%的相对性能，并在Infographic数据集上优于SigLIP）。

picture.image

组合推理。为了评估TULIP理解图像组成的能力，作者进一步在Winnoground数据集[44]上进行评估。结果如表3所示，明显表明与现有的视觉和语言模型相比，TULIP能够在高水平上执行视觉推理。

picture.image

4.3 视觉与语言模型

开发强大视觉和语言模型的一个动机是将它们作为特征编码器应用于大规模多模态模型，如LLaVA [32, 33]。为了评估TULIP在这些应用中的性能，作者使用LLaVA混合数据集对Llama-3.2 11B进行微调，并使用一系列视觉编码器。然后，作者在多个基准测试中评估其性能，包括BLINK基准测试 [20]（包含14个主要感知任务，包括对应关系、视觉相似性和深度估计）、MMVP基准测试 [46]（测试模型的视觉能力）和LLaVA Bench [32]（测试模型进行对话、细节描述和复杂推理的能力）。

picture.image

表4展示了在BLINK数据集上的结果。作者可以看到，TULIP在所有问题类别中表现强劲，尤其在视觉驱动任务中相对于 Baseline 方法表现更佳，其中TULIP在这些任务上优于 Baseline 方法。表5展示了在MMVP和LLaVA上的结果。虽然DINOv2微调模型在MMVP基准测试上表现良好，但在语言中心任务上存在困难，而CLIP风格的模型在语言中心任务上表现较好，但在视觉感知上存在挑战。TULIP在单个模型中实现了两者的最佳效果，在各自最佳任务上优于DINOv2和SigLIP。

picture.image

消融实验。表5还展示了移除多个组件后TULIP的性能。作者可以看到，在MMVP上取得的最大改进来自图像对比学习以及作者的基础数据训练流程。重建有助于进一步提升视觉和LLaVA基准的性能。GeCo主要改善了视觉中心任务的性能。有趣的是，LLaVA基准的性能似乎已经饱和（无论是从规模还是改进的角度来看），这表明要提升该任务的性能，需要在大语言模型或视觉 Adapter 方面进行改进。

结论

本工作介绍了TULIP，这是一系列多模态自监督图像-文本对比基础模型，在利用学习细粒度视觉特征的同时保持全局语义对齐。通过统一图像-图像对比学习与多模态生成数据增强，TULIP在1B参数量级及以上的多个基准测试中实现了最先进的性能。TULIP只是多视角和生成视角模型的开端。

随着多模态系统的持续发展，未来的工作可以探索更广泛的模态集成和更高效的扩展技术，以推动视觉-语言理解边界的拓展。

参考

[1]. TULIP: Towards Unified Language-Image Pretraining

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image