MIT提出CLIP-Refine | 破解模态对齐魔咒，单GPU轻量训练刷新零样本性能天花板 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

模态差距问题 ：现有的CLIP模型在图像和文本特征对齐方面存在模态差距，限制了其在下游任务中的性能。

零样本性能下降 ：现有微调方法虽然能提升特定任务性能，但会降低零样本迁移性能。

计算成本高 ：预训练阶段优化模态差距需要大规模数据集和高昂计算资源。

本文的核心创新是什么

CLIP-Refine方法 ：提出了一种后预训练方法，通过随机特征对齐（RaFA）和混合对比-蒸馏（HyCD）来缩小模态差距并提升零样本性能。

• RaFA ：通过最小化图像和文本特征与共享先验分布的距离，实现多模态特征分布的匹配。
• HyCD ：结合真实标签和预训练模型输出的软标签进行知识蒸馏，避免灾难性遗忘。

轻量级优化 ：仅需小型图像-文本数据集和单个GPU即可完成后预训练，显著降低了计算成本。

保持零样本性能 ：在减少模态差距的同时，不降低CLIP模型的零样本迁移能力。

结果相较于以前的方法有哪些提升

零样本分类性能 ：在12个分类数据集上显著提升了零样本准确率，优于对比损失和

-mix等方法。 2. 2. 跨模态检索性能 ：在图像到文本和文本到图像检索任务中均取得了最佳性能，特别是在IT任务中表现突出。

特征空间质量 ：通过定量分析，CLIP-Refine有效减少了模态差距，同时提高了特征空间的对齐性和均匀性。

泛化能力 ：适用于多种预训练模型（如CLIP、OpenCLIP、SigLIP等），稳定提升了零样本性能。

局限性总结

模态差距下限 ：尽管CLIP-Refine显著减少了模态差距，但仍存在理论上的下限，无法完全消除。

数据集质量依赖 ：后预训练效果对图像-文本对的质量敏感，低质量或噪声数据可能影响性能。

先验分布选择 ：不同先验分布对性能的影响尚需进一步研究，当前默认使用标准高斯分布。

小批量大小限制 ：虽然HyCD在小批量情况下表现良好，但在极端小批量（如32）时仍可能面临一定挑战。

深入阅读版本

对比语言图像预训练（CLIP）是构建现代视觉语言基础模型的关键组成部分。尽管CLIP在下游任务上展现出卓越的零样本性能，但多模态特征空间仍然存在模态差距，即图像和文本特征簇之间的差距，这限制了下游任务的性能。尽管现有工作尝试通过修改预训练或微调来解决模态差距，但它们在处理大型数据集时面临高昂的训练成本，或在微调过程中导致零样本性能下降。本文提出CLIP-Refine，这是一种在预训练和微调之间的CLIP模型后预训练方法。CLIP-Refine旨在通过在小型图像-文本数据集上进行1个epoch的训练来对齐特征空间，且不降低零样本性能。为此，作者引入了两种技术：随机特征对齐（RaFA）和混合对比-蒸馏（HyCD）。RaFA通过最小化到从先验分布中采样的随机参考向量的距离，将图像和文本特征对齐到遵循共享先验分布。HyCD通过结合真实图像-文本对标签和预训练CLIP模型的输出生成混合软标签来更新模型。这有助于在保持已有知识的同时学习新知识以对齐特征。作者的多项分类和检索任务的广泛实验表明，CLIP-Refine成功减轻了模态差距并提升了零样本性能。

引言

对比语言图像预训练（CLIP，[23, 42]）是构建现代视觉语言基础模型的常用方法。CLIP通过在大型图像-文本对数据集上使用对比损失，使模型能够学习多模态表示，将图像和文本映射到共享特征空间。由于预训练的CLIP模型能够在各种领域中提供跨模态的输入图像/文本数据理解，它们被广泛用作许多应用的基础，包括零样本分类[14, 42, 59]、跨模态检索[16, 22]、文本到图像生成[43, 47]以及视觉问答[32, 33]。

尽管CLIP在广泛领域和任务中取得了显著性能，但其图像和文本对齐仍不完美。例如，CLIP模型倾向于将图像和文本编码到每个模态的不同簇中，因此，即使使用大规模数据集进行充分训练后，图像和文本特征之间仍然存在模态差距[30, 41, 70]。这种模态差距表明CLIP在精确映射图像和文本方面存在困难。事实上，Liang等人[30]已经证明模态差距会显著影响下游任务性能，尤其是在细粒度分类任务中，而Ray等人[45]则表明CLIP模型往往无法从相应的文本描述中检索图像中的局部目标和属性。

为解决CLIP中的模态差距问题，现有文献主要关注在预训练或微调阶段优化CLIP特征空间。在预训练方面，一种方法是采用对比目标与辅助损失（如带数据增强的自监督损失）的多任务学习 [28, 29]。预训练的另一个方向是通过修改编码器架构来减少模态差距，具体做法是使图像编码器和文本编码器之间显式共享权重或特征图 [6, 68]。在微调阶段，已有研究表明，通过 Prompt 微调可以显著提升下游任务性能，该方法通过在目标任务上优化可训练的视觉/文本 Token ，使图像和文本在特征空间中匹配（即减少模态差距）[25, 35, 72]。近期，Yang等人 [66] 引入了 Adapter 参数以跨模态共享信息。这种跨模态共享 Adapter 会进行微调以解决目标任务。

尽管这些预训练/微调方法在提升跨模态对齐能力方面取得了成功，但它们在计算成本和零样本迁移性能方面面临困难。一方面，预训练方法需要使用LAION-400M [49]等百万规模图像-文本数据集从头开始进行训练。由于以往的工作通常不会发布使用此类大型数据集的预训练模型，因此OpenAI [42]或OpenCLIP [8]发布的朴素CLIP模型在预算有限的情况下仍然是一个实用的选择。另一方面，微调方法不需要巨大的计算成本，因为它们的训练数据集远小于预训练数据集。然而，微调预训练的CLIP模型会降低整体的零样本迁移性能，因为它们专注于目标任务 [27]。这是不可避免的，因为微调的主要目标就是提升目标任务性能。因此，作者寻求一种比预训练更轻量级且在微调中避免降低零样本迁移性能的新方法。

本文旨在解决在预训练和微调之间的后预训练阶段（如图1所示）中，CLIP模型图像和文本特征的对齐问题。后预训练的目标是通过仅使用合理的计算资源和数据集（例如单个GPU和COCO Captions [31]），来缩小模态差距并提升现成预训练CLIP模型的零样本迁移性能。这一任务具有挑战性，因为简单的对齐方法，如直接最小化图像和文本特征之间的差距，会破坏特征空间在超球面上的均匀性 [57]；均匀性是对比学习表示的一个重要特性，它指示了输入数据信息量。此外，使用对比损失进行后预训练会导致预训练CLIP模型中的一般知识因受限的小批量大小过拟合而灾难性遗忘。

picture.image

为此，作者提出了一种名为CLIP-Refine的后预训练方法（如图2所示），该方法由随机特征对齐（RaFA）和混合对比-蒸馏（HyCD）组成。作者的思路并非直接最小化特征之间的差距，而是通过优化图像和文本特征分布，使其遵循共享先验（例如标准高斯分布）。为实现这一目标，RaFA最小化图像/文本特征向量与先验随机生成的参考向量之间的差距。在RaFA中，图像和文本对的参考向量是共享的。因此，RaFA通过惩罚图像和文本特征，使其明确遵循相同的分布。通过匹配图像和文本特征分布，特征有望避免过度集中，并在样本间保持均匀性，从而在特征空间中实现多模态对齐和均匀性的良好平衡。相反，HyCD通过图像-文本对的监督，采用改进的自蒸馏损失来避免灾难性遗忘。具体而言，作者应用知识蒸馏，其中教师模型为预训练模型，即最小化教师模型和学生后预训练模型输出之间的KL散度。此外，作者通过混合教师模型的相似度矩阵和表示匹配图像-文本对监督的单位矩阵，鼓励学习新知识。结合RaFA和HyCD，CLIP模型能够在不遗忘已有知识的情况下减少模态差距，同时保持特征的均匀性。

picture.image

作者对零样本分类（12个数据集）和跨模态检索（2个数据集）进行的广泛实验表明，CLIP-Refine在对比损失后预训练 Baseline 的基础上显著提升了零样本性能。通过特征空间的定量和定性分析，作者发现CLIP-Refine不仅减少了模态差距，还提高了超球体的均匀性。这表明后预训练促进了有效的跨模态对齐和特征的良好聚类。

相关工作

CLIP与模态差距。CLIP [23, 42]是一种多模态表征学习技术，通过训练模型将图像和文本模态的输入嵌入到共享特征空间中。这是通过在特征空间中使正确的图像和文本对更接近，同时通过基于InfoNCE的对比损失 [39] 将小批量中的其他对相互排斥来实现的。尽管这种简单的多模态预训练显著推动了各个领域中的多模态研究 [4, 5, 7, 54, 56, 58, 62]，但Liang等人 [30] 揭示了预训练的CLIP模型将图像和文本编码到每个模态的不同簇中，即模态差距，并且CLIP对比损失中的较小温度参数会导致模态差距。Qian等人 [41] 的后续工作从理论上表明对比损失不能完美地减少模态差距。

预训练修改。为了缓解模态差距并提高跨模态对齐，一些工作通过添加辅助损失来修改CLIP的对比损失，包括图像和文本特征之间的几何循环一致性[15]、两种模态输出 Token 之间的细粒度相似性[67]、使用数据增强的自监督损失[28, 29]、监督对比学习[65]、使用LLM生成的正向/负向文本的文本增强对比损失[10]。另一个方向是通过引入共享编码器权重[68]或有限离散 Token 的共享特征空间[6]来显式共享图像和文本模态的信息，从而对预训练进行修改。然而，这些方法需要大规模图像-文本对数据集（例如CC12M[3]和LAION-400M[49]）才能实现实用性能，并在多个GPU上产生高昂的计算成本。相比之下，作者的后预训练方法通过仅使用Flickr8/30K[44]和COCO Caption[31]等小数据集，并使用单个GPU，提高了现成预训练模型的泛化性能。此外，CLIP-Refine与这些预训练方法相兼容，因为它可以用于任何预训练模型。

微调方法?. CLIP [42] 的原始论文报告了在多个细粒度分类任务（如飞机 [36]）中的零样本性能较低，这表明了 CLIP 跨模态对齐的不完善性。受此启发，Zhou 等人 [72, 73] 提出通过在预训练模型固定的情况下更新额外的可训练向量来优化文本 Prompt ，以减少模态差距。这种简单的方法有助于在特征空间中匹配图像和文本（即减少模态差距），并显著提高了目标性能。类似地，Jia 等人 [24] 学习了图像输入（视觉 Prompt ）的额外可训练参数，后续工作 [25, 51] 通过多任务学习目标统一了视觉和文本 Prompt 的微调。另一种方法是直接跨模态共享低秩适应参数，并在微调中更新它们 [66]。从 CLIP 特征空间精炼的角度来看，Oh 等人 [38] 从理论和实证上表明，微调的 CLIP 模型在对齐和均匀性方面保留了次优的特征空间，这些是对比学习中评估特征质量的重要属性 [57]。为了精炼特征空间，他们提供了一种基于 mixup 的微调方法，该方法以跨模态方式在超球面上生成硬负样本

。这些微调技术在减少目标数据集的差距方面取得了成功，但它们并非旨在提高零样本迁移性能。作者的后预训练方法在目标上与微调方法不同：CLIP-Refine旨在通过减少模态差距来提高零样本迁移性能。显然，在CLIP-Refine后，作者可以利用任何微调技术，这有助于提升 Baseline 性能。

方法

作者提出在预训练和微调之间对CLIP进行后预训练，以减轻模态差距（图1）。为此，作者提出了CLIP-Refine（图2），它由随机特征对齐（RaFA）和混合对比学习-蒸馏（HyCD）组成。RaFA通过最小化成对特征与随机参考向量之间的差距，惩罚模型，以使两种模态特征进入单一共享分布。为了协调学习新知识与保留旧知识，HyCD使用固定预训练模型更新模型，其中教师模型的输出与图像-文本对的真值标签混合。算法1展示了CLIP-Refine的整体流程。

picture.image

3.1. 问题设定：预训练后

作者考虑一个称为后预训练的问题设置，旨在提升预训练视觉语言模型的跨模态对齐和泛化性能。该设置允许访问视觉编码器

和文本编码器

，其参数

由CLIP预训练，其中

和

分别为图像空间和文本空间。作者在后预训练图像-文本对数据集

上优化

的参数

和

的参数

。作者基本上假设

远小于预训练数据集，且包含通用领域的图像和文本描述。

3.2. 目标函数

在CLIP-Refine中，作者通过以下目标函数优化

和

：

其中

是随机特征对齐损失，

是混合对比度蒸馏损失。可以通过超参数来平衡

和

，但作者发现它们相等贡献时性能最佳（参见附录）。作者在以下小节中详细描述

和

的细节。

3.3. 随机特征对齐

后预训练的主要目标是最小化模态差距并促进跨模态对齐。为此，最直接的方法就是最小化模态之间的特征差距。设

和

为图像-文本对

的归一化特征向量。一种用于最小化模态差距的简单损失函数可以定义为

距离形式。

然而，最小化该损失函数会降低泛化性能。这可以通过对比表示学习中的迁移性所需的对齐性和均匀性平衡 [57] 来解释。对齐性由特征空间中正对（即图像文本对）之间的差距定义，而均匀性由超球面上所有特征之间的等距定义。也就是说，最小化公式 (2) 增强了正对的对齐性，但通过强制改变特征分布而破坏了超球面上的均匀性。事实上，Wang 和 Isola [57] 已经证明，仅在预训练后使用对齐损失会因破坏均匀性而降低验证性能。

为应对这一挑战，作者提出了匹配特征分布而非直接匹配配对特征的概念。换句话说，作者通过微调预训练CLIP模型的多模态特征，使其遵循图像和文本模态共享的先验分布

（例如标准高斯分布

）。受单模态微调中随机特征正则化[63, 71]的启发，作者将这一概念表述为图像/文本特征向量

与从共享先验

中采样的随机参考向量

之间的最小化问题。

通过这个损失函数，作者可以预期 (i) 通过与每对图像-文本共享的

间接最小化模态差距，(ii) 特征向量遵循模态共享先验

[63] h

有助于避免模型过度拟合

[71] 并重构模型的容量 [52]。此外，作者发现

可以提高 Baseline 的均匀性（表3），这意味着学习到的表示能够很好地迁移到下游任务。在本文中，作者默认使用标准高斯分布

作为

；作者在第4.4.1节讨论了先验选择的影响。

picture.image

3.4. 混合对比-蒸馏

后预训练的另一个重要目标是保留预训练CLIP模型中的过去知识。为此，作者的基本策略是对后预训练模型使用知识蒸馏损失[21]，其中冻结的预训练CLIP模型作为教师。作者根据CLIP-KD[64]的公式定义了基于小批量的知识蒸馏损失，使用KL散度作为损失函数。

其中

是温度参数，

是由预训练的图像/文本编码器生成的特征向量，

是通过在公式 (6) 和 (7) 中交换图像特征和文本特征的顺序来定义的。尽管最小化公式 (4) 保留了过去的知识，但作者发现它干扰了 RaFA，因为它强烈地将模型的参数与预训练的参数绑定在一起。

为了协调RaFA与过去知识的保留，作者提出一种将图像文本对的真实标签与教师输出相结合的技术。具体来说，作者通过alpha混合指示函数

来修改公式(7)，该函数在

时返回1，否则返回0，以及教师输出信号：

其中

是一个超参数，用于平衡获取新知识和保留旧知识；作者默认使用

，并在附录中讨论

的影响。通过这一改进，经过预训练的模型能够进一步通过学习正确的图像-文本对来增强跨模态对齐（即参考教师输出中

坐标所包含的相对知识）。利用

和

，作者计算 HyCD 损失函数如下：

仅提升了预训练CLIP模型泛化性能，而将其与

结合则通过最小化模态差距实现了更大提升，同时未丢失已有知识。

实验

作者使用多个预训练模型在12个分类数据集和2个跨模态检索数据集上评估CLIP-Refine。作者还进行了定性和定量分析，通过模态差距、对齐、均匀性指标和PCA可视化来评估特征空间。

4.1. 设置

Baseline 对比。作者将CLIP-Refine与以下后预训练 Baseline 进行比较。预训练：使用预训练权重进行预测，不进行额外训练。对比损失：使用对比损失[23, 42]进行后预训练。

-mix [38]：使用改进的对比损失和多模态混合进行后预训练；作者使用这种微调方法作为 Baseline ，因为它可以用于细化特征空间，正如原始论文[38]中建议的那样。Self-KD：使用公式(4)进行后预训练。HyCD：仅使用公式(9)进行训练。

：结合公式(9)和公式(2)。

后预训练数据集。作者使用COCO Caption [31] 作为默认的后预训练数据集。作者还使用了Flickr8K/30K [44]、CC3M [50] 和 CC12M [3] 来验证后预训练中的数据集大小效应。

测试数据集。作者使用了12个包含不同图像领域的图像分类数据集：飞机（Air）[36]、鸟类 [60]、加州理工学院101（Cal）[12]、汽车 [26]、DTD [9]、欧洲卫星（Euro）[18]、花卉（Flo）[37]、食物 [2]、ImageNet（IN）[48]、宠物 [40]、SUN397 [61] 和 UCF-101 [53]。作者还针对图像和文本检索任务在 COCO2017-Val 和 Flickr8K/30K 上评估了CLIP-Refine；作者将文本到图像检索表示为 TI，将图像到文本检索表示为 IT。作者采用这些数据集，因为它们通常用于评估 CLIP 模型的零样本迁移性能 [72]。作者对除 ImageNet 以外的所有测试集以及 ImageNet 的官方验证集进行了模型评估。

预训练模型。默认情况下，作者使用了CLIP-ViTB/32 [42]，其预训练权重从OpenAI的官方仓库下载。作者还测试了其他预训练模型，包括OpenCLIP-ViT-H/14、OpenCLIPViT-bigG/14、SigLIP [69] 和 DFN [11]，这些模型的预训练权重来自OpenCLIP [8] 仓库。

预预训练。在所有设置中，作者使用AdamW[34]优化器以

的学习率训练模型一个epoch；作者通过使用由均匀采样构建的ImageNet训练集子集进行零样本分类验证来确定学习率。作者默认使用512大小的mini-batch。对于CLIP-Refine，作者使用

。输入样本使用每个预训练模型提供的默认图像变换进行预处理。作者使用PyTorch-1.13实现训练和评估。作者在一个24核英特尔至强CPU和单个80GB显存的NVIDIA A100 GPU上运行实验。

评估指标。对于零样本迁移性能，作者在分类任务中报告top-1准确率，在跨模态检索任务中报告recall @ k分数；recall @ k表示所有测试输入样本在检索到的top- k候选中正确答案的比例。作者将recall @ k表示为R @ k。为了定量评估预训练后的特征，作者测量模态差距、对齐和均匀性分数。模态差距[30]评估图像和文本特征之间的聚类差距：

模

态

差

距

其中

表示每种模态的所有测试样本的平均特征向量；越低越好。对齐 [57] 的定义如下：

对

齐

：

表示正对在特征空间中的对齐程度；越低越好。均匀性[57]评估特征向量在由径向基函数（RBF）核定义的超球面上的分布均匀程度，

均

匀

性

其中

，越低越好。作者通过三次实验运行来报告每个指标的平均分数。

4.2. 零样本迁移评估

作者首先展示了CLIPRefine的零样本性能。表1和表2列出了在分类和跨模态检索任务上，经过后预训练后的零样本测试性能。对于零样本分类任务，基于对比损失（即Contrastive和

-mix）的后预训练显著降低了所有数据集的top-1准确率。这可能是由于灾难性遗忘造成的，因为Self-KD并未表现出性能下降。灾难性遗忘的一个原因是批大小小于预训练时的批大小；OpenAI的CLIP使用32,768的批大小和数百个GPU [42]，而作者的设置使用512的批大小和一个GPU。由于较小的批中包含的负样本数量有限，对比学习倾向于过拟合并灾难性地遗忘先前的知识。作者将在第4.4.4节中更详细地讨论批大小的影响。

picture.image

相比之下，CLIP-Refine显著提升了所有数据集的零样本性能。HyCD的消融研究表明，性能提升来自于HyCD与RaFA的结合。值得注意的是，

在 Baseline 中表现最差，这表明盲目最小化图像和文本特征之间的差距会导致泛化性能的下降。

picture.image

在零样本检索中，CLIP-Refine取得了最佳性能，其性能差距大于分类任务中的表现。有趣的是，与分类任务不同，作者发现对比学习和

-mix在TI检索任务中提升了预训练模型的性能，而在~IT任务中的表现则有所下降。这表明图像编码器比文本编码器更容易过拟合。这可以通过图像和文本在数据空间中的差异来解释；图像由连续值的像素表示，因此具有高度的自由度，而文本由词汇中的离散 Token 表示，因此自由度有限。

因此，图像编码器倾向于在小批量中对有限数量的负样本过拟合，而文本编码器可以在保持已有知识的同时学习新知识。

4.3. 特征空间分析

在本节中，作者旨在回答作者的基本研究问题：通过CLIP-Refine进行后预训练，作者能够多大程度地缓解模态差距？对于定量评估，作者将模态差距、对齐度和均匀度得分总结在表3中。

在模态差距和对齐度得分上取得了最佳结果。然而，它显著降低了均匀度得分，表明直接最小化

会破坏由CLIP训练良好构建的特征空间。相比之下，CLIP-Refine持续提升了所有得分。这表明，为了提高预训练CLIP模型泛化性能，不仅需要最小化图像和文本特征之间的差距，还需要最小化均匀度，这与文献[57]中的发现一致。从这种意义上说，由于CLIP-Refine惩罚图像和文本特征以遵循共享参考分布

，其中样本倾向于在超球面上均匀分布[1]，因此它可以自然地实现对齐度和均匀度的良好平衡，并合理地帮助减少模态差距。

作为定性评估，图3展示了每种方法在预训练后特征的PCA可视化结果。作者可以看到对比模型使得模态差距相当大。

成功将图像和文本特征聚集到同一簇，但扭曲了每种模态的特征分布。与此同时，CLIPRefine在保持预训练特征形状的同时确实减少了模态差距。尽管模态差距并非完全为零，但这很自然，因为模态差距的下限仍然存在一个常数[41]。

picture.image

4.4. 详细分析

4.4.1. 先验分布

在此，作者通过改变先验分布

来分析 CLIP-Refine。根据先前的相关工作 [63, 71]，作者尝试了标准高斯分布

、均匀分布

、基于预训练文本特征统计的高斯分布

、基于预训练图像特征统计的高斯分布

、基于所有图像和文本特征统计的高斯分布

，其中

是在预训练的CLIP模型上计算得到的图像或/和文本特征向量的均值和方差。

作者还测试了通过改变

在

中变化的

变体。

表示无随机性的 RaFA，即

。

4.4.2. 预训练后数据集

作者评估了在后预训练阶段数据集选择的影响。表5展示了CLIP-Refine使用Flickr8K/30K、COCO Caption、CC3M和CC12M作为后预训练数据集时的零样本分类/检索性能。作者确认大多数CLIP-Refine模型的表现优于预训练 Baseline 模型。

值得注意的是，更大的数据集并不总是能获得高性能；CC3M和CC12M的表现劣于COCO Caption。这表明数据集中图像-文本对的质量是在后预训练阶段一个重要因素。由于CC3M和CC12M包含不匹配和噪声的图像-文本对[17]，而COCO Caption具有更高质量的文本描述，因此在预训练CLIP模型的模态对齐方面表现更优。事实上，当作者通过DataComp[13]基于CLIP-Score的过滤方法筛选出低质量的图像-文本对后，模型实现了显著的性能提升。这表明描述质量至关重要，并且CLIP-Refine具有可扩展性，前提是拥有高质量的图像-文本对。

picture.image

4.4.3. 预训练模型

作者研究了CLIP-Refine在预训练CLIP模型上的泛化能力。表6展示了使用6个预训练模型的零样本性能。作者观察到，CLIP-Refine稳定地提升了预训练 Baseline 模型。这表明，更大更强的模型仍然存在模态差距，通过CLIP-Refine来调整这个差距有助于提高各种预训练模型的泛化性能。

picture.image

4.4.4. 小批量大小

作者对后预训练中的不同小批量大小进行了分析。作者尝试了

这些小批量大小。对于1024和2048这两个小批量大小，作者采用了OpenCLIP [8]的实现方式来进行梯度累积。图4展示了零样本性能与小批量大小的关系。

对比损失随着小批量大小的增加而逐渐提高了准确率。然而，准确率曲线表明，使用可行的小批量大小很难超过预训练 Baseline 。这可能是由于预训练时的小批量大小（即32,768）与小批量大小之间存在较大差异，导致模型在小批量中的负样本预测中忘记了知识。相比之下，CLIP-Refine始终优于对比损失，并成功地在可行的小批量大小下提高了预训练 Baseline 。这表明CLIP-Refine的HyCD即使在负样本较少的小批量大小下也能防止知识遗忘，并能够用新知识修改特征空间。

picture.image

4.4.5. 微调影响

作者展示了CLIP-Refine在微调过程中的可迁移性。作者在ImageNet上对线性分类头进行微调，同时冻结了预训练模型。表7展示了结果。CLIP-Refine的性能优于预训练和对比损失 Baseline 。这强调了CLIP-Refine即使在微调过程中也能生成有用的表示。

picture.image

结论

本文提出了CLIP-Refine，一种针对预训练CLIP模型的后预训练方法，用于对齐图像特征与文本特征之间的模态差距。CLIP-Refine通过惩罚多模态特征使其遵循共享先验分布来解决模态差距问题，具体通过最小化特征与从先验中采样的随机参考向量之间的距离。为了在保持CLIP模型已有知识的同时促进特征对齐，CLIP-Refine还使用由真实图像-文本对标签和预训练CLIP模型输出混合而成的软标签进行知识蒸馏损失训练。

通过大量实验，作者证明CLIP-Refine能够通过解决模态差距和增强一致性来提升预训练CLIP的零样本性能。作者相信，作者的工作不仅提供了一种实用方法，还开辟了一个新的研究领域，即通过后预训练以远低于预训练的计算成本来精炼预训练CLIP模型。

参考

[1]. Post-pre-training for Modality Alignment in Vision-Language Foundation Models

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image