DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

在本文中，作者提出了DetailCLIP ：一种面向细节的CLIP ，以解决基于对比学习的视觉语言模型的局限性，尤其是在处理面向细节和细粒度任务（如分割）方面。

尽管CLIP及其变体在图像和文本表示的整体对齐方面表现出色，但它们通常难以捕捉精确分割所必需的细粒度细节。

为了解决这些问题，作者提出了一种新的框架，该框架采用自蒸馏和像素级重建损失的层次比较，并增强了一个基于注意力的标记删除机制。

这种方法选择性地保留语义相关的标记，使模型能够专注于与作者的模型特定功能（包括文本处理、标记比较和图像重建）对齐的图像关键区域，确保学习高级语义和详细视觉特征。

作者的实验表明，DetailCLIP在分割准确性方面超过了基于CLIP的现有模型和传统的自监督学习（SSL）模型，并在各种数据集上具有卓越的泛化能力。

DetailCLIP在视觉语言建模方面取得了重大进展，为需要高级语义理解和详细特征提取的任务提供了强大的解决方案。https://github.com/KishoreP1/DetailCLIP。

1 Introduction

计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中，CLIP（对比语言图像预训练）[38] 脱颖而出，作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色，无需直接监督就能理解并关联到视觉内容到文本描述。

然而，尽管 CLIP 在概括性和高级语义理解方面表现出色，但其依赖对比损失的特性在适应更细粒度任务（如图像分割）时带来了明显的挑战。细粒度任务（如分割）要求对整个场景有全面的了解，并在像素 Level 精确划分物体边界。然而，对比学习中学习的全局表示往往无法捕捉这种详细 Level ，这导致在细节任务中使用 CLIP 性能不佳。

此外，传统的自监督学习（SSL）方法，由于其能够从无标注数据中学习，在细粒度任务中的应用通常是不够的。这些方法，包括对比学习或基于聚类的技术[32]，主要关注学习对高层任务（如分类或检测）有用的表示。然而，它们往往无法捕捉精细细节和空间关系，这对于精确边界划分和详细特征提取至关重要。这一限制在遮挡图像建模（MIM）方法中尤为明显，如 MAE[16]，SimMIM[47] 和 iBOT[56]，虽然它们在学

DetailCLIP引入了一个注意力-聚焦机制，用于保留图像中最相关且详细的部分。这种机制与相应的详细导向任务和文本描述有着紧密的联系。在图1中可以看出，该机制突出了任务的关键区域，确保了模型专注于最相关的细节。通过结合文本上下文，DetailCLIP增强了模型理解和强调与当前任务最相关的图像关键部分的能

picture.image

作者提出了一种新的基于注意力的分词删除机制，该机制可以选择性地保留与对应文本描述以及详细定向任务具有强烈语义联系的分词，同时这种针对性的关注使得模型能够强调图像的最具相关性的区域，从而显著提高其捕捉细粒度细节的能力。
作者的模型实现了一种自蒸馏策略，该策略通过使用 Mask 图像来比较局部特征。这种方法有助于模型有效地学习低级语义特征，同时保持对图像内容的深入理解。
除了局部对比，作者的模型还采用 Mask 图像的像素级重构技术。这种技术确保模型可以准确重构和保留复杂的视觉细节，从而在需要高精度的任务中取得优胜。
通过解决现有基于CLIP的分词和传统自监督学习方法的局限性，作者的模型实现了一种在高层次语义理解和精确细节提取之间取得平衡的稳健方式。这使得它在零样本任务和应用中需求精雕细琢的细节调整方面效果特别显著。

2 Related Work

Self Supervised Learning

近年来，自监督学习（Self-Supervised Learning，简称SSL）已成为视觉预训练领域的 dominant 力量，得益于其能够从大规模无标签图像数据集中提取有意义视觉特征的能力。各种预训练策略为 SSL 的成功提供了燃料，这些策略关注于不同的预训练任务。在这些策略中，对比学习， Mask 图像建模（Masked Image Modeling，简称MIM）， Mask 频率建模（Masked Frequency Modeling，简称MFM），以及自监督知识蒸馏（Self-supervised Knowledge Distillation，简称KD）引起了广泛关注。

对比学习是一种流行的自监督学习技术，它将同一图像的不同视图放在共享的嵌入空间中，同时区分它们与其他图像视图 [35, 7]。尽管这种方法对学习全局特征有效，但它通常在需要详细精度的任务上面临挑战，例如图像分割。这是因为对比学习主要关注将整体图像表示进行对齐，这可能导致忽视细粒度的像素级细节。

另一方面， Mask 图像建模（MIM）在需要详细特征提取的任务上展现出更大的潜力。MIM涉及 Mask 图像的部分，并训练模型来恢复或预测缺失的部分，鼓励模型理解可见和隐藏区域之间的复杂关系。

CLIP-Based Approaches

自监督学习与视觉语言预训练的集成推动了一系列基于CLIP的模型的开发，每个模型都试图在视觉和文本数据之间建立桥梁。这些模型建立在原始CLIP框架之上，通过创新来提高表示的质量并改善图像和文本之间的对齐。

例如，SLIP [33] 通过将自监督学习和图像到图像对比学习相结合，增强了CLIP，从而产生了更丰富和更健壮的视觉表示。

MaskCLIP [12] 通过引入masked image建模，细化了视觉特征，通过专注于特定图像区域，确保它们更紧密地与相伴随的文本对齐。A-CLIP [48] 通过实现一个基于注意力的标记移除策略，选择性地保留与文本语义相关的标记，从而增强了视觉和文本对齐的精度。

虽然这些方法通过提高表示学习和效率来增强原始CLIP模型，但它们主要关注的是图像和文本之间的全局对齐。这种对全局特性的强调使得它们在细节导向的任务上效率较低，在这些任务中，捕捉和保留细粒度的视觉细节至关重要。在这些模型中，标记移除通常是无意识的或仅基于文本信息[12, 48]。相比之下，DetailCLIP通过采用基于注意力的机制，结合文本信息和细粒度任务，确保在细节敏感的应用中取得更好的性能。

3 Method

Preliminary and Background

CLIP是由Radford等人开发的领先的视觉语言模型。它的核心概念是利用大规模对比学习方法对视觉和文本表示进行对齐。这通过联合训练图像编码器和文本编码器来增加匹配图像-文本对之间的相似性，同时减少不匹配的配对相似性。CLIP的训练目标基于在图像和文本嵌入之间的余弦相似性上应用对称交叉熵损失。损失函数鼓励正确配对具有更高的相似性。更确切地说，假设和分别是第i个图像和第j个文本在一个批次中的嵌入。图像和文本之间的余弦相似性由式（1）给出：

Logits乘以一个可学习参数进行缩放：

令为批次中图像-文本对的数量。图像到文本匹配的损失函数定义为：

类似地，文本到图像匹配的损失函数：

最后，CLIP的整体损失是两个损失的平均值：

DetailCLIP Framework

如图2所示，作者的架构可以分为以下步骤，这些步骤将在后续部分中详细讨论。 3.2.1 级比对

picture.image

作者采用教师-学生框架，在这种框架中，学生模型被训练以预测由教师模型生成的图像的细粒度和高粒度特征。教师模型为学生模型提供“目标”特征。对于每个输入，作者考虑两个视角：将原始视角输入教师模型，而将它们的数据 Mask 版本用作学生模型的输入。关于 Mask 过程的更多细节，请参阅第3.2.3节。学生模型的任务是预测被 Mask 的标记和由教师模型生成的全局特征。

类似于DINO[5]等之前使用的方法，作者使用教师模型参数和学生模型参数的指数移动平均（EMA）进行更新。具体而言，如果表示教师模型参数，表示学生模型参数，那么的更新规则为，其中从0.996逐渐增加至1.0，采用与早期工作[10, 12, 48]中定义的余弦调度方法相似的战略。这种策略确保了EMA模型在训练过程中保持稳定并有效捕捉最有相关性的特征[15]。

作者使用两种主要的损失函数来训练学生模型，以确保全局特征和细粒度特征学习得到有效捕捉。

全局损失（CLS标记） ：全局损失应用于[CLS]标记，衡量学生模型中[CLS]标记的概率分布与教师模型中[CLS]标记的概率分布之间的差异：

其中：

是学生模型中[CLS]标记的预测概率分布。
是教师模型中[CLS]标记的目标概率分布。
表示Kullback-Leibler（KL）距离。

细粒度损失（Patch） ：细粒度损失同样利用KL散度，比较学生模型中标记块的分布与教师模型中的标记块的分布：

其中：

是相应于被 Mask 块的索引集。
是学生模型中第个被 Mask 块的预测概率分布。
是教师模型中第个被 Mask 块的目标概率分布。
表示KL距离。

3.2.2 Pixel-Level Reconstruction

如图2所示，在移除标记后，作者采用自编码方法(-)（MAE [16]）来从部分观测的输入中重构原始信号。

通过仅处理可见的图案，编码器大大减少了需要处理的数据量，从而提高了模型的效率。接着，解码器需要从编码器产生的潜在表示中重构原始图像。它通过使用编码的可见图案和一组表示 Mask 区域的标记来实现这一目的。与编码器相比，解码器较小且较轻，因为只是在预训练阶段需要使用。此外，使用较小的解码器，使得大部分计算工作集中在训练编码器上，从而使编码器更加健壮和强大。

这种过程非常适合精细粒度任务，因为它迫使编码器从有限的可见图案中提取详细信息，从而增强其识别和表示复杂特征的能力。通过专注于这些可见图案，编码器擅长捕捉在精度要求高的任务（如分割或详细物体识别）中的关键细微之处。解码器在重构图像的 Mask 区域方面承担的责任确保了这些细微之处保持并准确恢复，从而增强了模型处理复杂视觉数据的能力。

在预训练过程中，模型学习从 Mask 输入中重构原始图像。在此过程中使用的损失函数（）是重构图像和原始图像之间的均方误差（MSE），该误差只计算在 Mask 图案上。

其中

是 corresponding to the masked patches 的索引。
是第 i 个 Mask 图案的重建图案。
是第 i 个 Mask 图案的原图案。
表示欧几里得范数（或范数）。

3.2.3 Token Removal

图像模型中 Token 删除，尤其在 Vision Transformers (ViT) 中，是一种通过选择性地删除对最终决策过程贡献较少的 Token 来优化注意力机制的方法。 Token 删除方法使得模型可以动态地降低或忽略较不重要的区域，从而降低计算负载并使注意力集中在图像的最相关区域，最终提高性能和效率。

已提出许多 Token 删除的方法，如随机 Token 删除 [22] 和自注意力 Token 删除 [48]。在作者的工作中，作者介绍了一种新技术，该技术考虑了作者的模型的特定功能，包括文本信息处理、区域比较和图像重构。如4.2节所示，作者的 Token 删除策略同时处理了细粒度和粗糙粒度的细节，从而超过现有方法。

如图2所示，作者的 Token 删除过程如下。首先，将图像视图输入到教师编码器模型 ()。教师编码器生成的注意力值用于遮盖占50%最低值的 Token 。具体来说，对于每个 Token ，使用以下公式计算注意力值：

是所有层中 Token Head 的总数。
是第 i 个 Token Head 的 Query 。
是第位置的 Token Head 的键。
是 Query 和键的维度。

如图1所示，通过移除教师编码器计算的 Token 值的一半来遮盖图像块（AV）会导致图中显示的图像。

3.2.4 Integrated Loss Function

在本节中，作者引入了一个综合损失函数，该函数将多任务学习中必不可少的各种损失项融合在一起。综合损失函数定义为：

在这个方程中，超参数、和决定了每个损失项的相对重要性。在作者的实验中，除非另有说明，否则这些权重设置为1。综合损失函数的目的是使模型同时学习来自前几节介绍的四个任务，确保训练过程的平衡和集成。

此外，在 ablation study 中，作者探讨了不同超参数选择的 impact，展示了改变这些权重如何影响整体模型性能和特定任务的成果。

4 Experiments

Setup

作者的计算设置旨在支持本研究中进行的广泛实验。它由四个节点组成，每个节点都配备了四台配备有80GB NVIDIA A100 GPU的计算机。

4.1.1 Training Data and Augmentation Strategy

作者的模型是在YFCC100M数据集[40]的1500万张图像子集[38]上进行训练的，该子集中仅包含英文的标题和描述。对于每个图像，作者在训练时随机选择一个有效的描述词--要么是标题，要么是描述，这采用了SLIP[33]中使用的方法。

为了增强模型的鲁棒性，作者使用类似于SLIP的数据增强策略。作者将图像随机缩放和裁剪，缩放后的尺寸在原始尺寸的50%和100%之间。这种增强策略应用于在线训练分支中的图像，使模型能够从同一图像的多样视角中学习。

对于教师部分，作者采用了稍有不同的方法。作者使用了一个比在线视图更大的随机裁剪子图，这使得作者能够准确计算注意力值。

4.1.2 Architecture and Training Setting

图2展示了DetailCLIP框架的结构，该框架由六个关键部分组成：两个视觉编码器()和，一个文本编码器，一个视觉解码器，以及两个头（称为和）。

为确保与现有模型进行公平比较，作者的视觉编码器(和)基于广泛认可的视觉 Transformer （ViT-B/16）[13]结构。该模型具有12层，每层宽度为768，有12个注意力头。

对于文本编码器，作者采用了包含12层的Transformer结构，宽度为512，有8个注意力头[38]，并遵循CLIP模型[38]的设计原则。

解码器（）本身由一系列如MAE论文[16]中的Transformer块组成。解码器处理整个输入集，包括同时被注意力 Mask 和保留的输入点。作者将位置嵌入添加到集合中的每个标记中，以便在训练过程中保持空间信息。作者框架中的共享投影头（和）实现为3层MLP，类似于DINO[5]中使用的采用L2正则化瓶颈的方法。共享投影头的输出维度设置为8192，类似于iBOT论文[56]中的方法，以在训练中实现强大的特征表示和对齐。

对于作者实验，作者使用AdamW优化器[30]，学习率设置为，权重衰减率为0.5。训练使用4096的大批量。

Experimental Analysis

4.2.1 Detail-Oriented Visual Tasks

为了全面评估作者提出的DetailCLIP框架的有效性，作者设计了一系列专注于细节处理的视觉任务实验。具体而言，作者实现了一系列不同的任务，这些任务侧重于模型在复杂视觉环境中捕获细微细节的能力。

语义分割在ADE20K上的应用： 为评估DetailCLIP的分割能力，作者在ADE20K数据集[54]上进行了一系列实验，使用了不同的解码策略。首先，作者使用UperNet[45]解码器，这是语义分割的很好架构，来评估其划分物体边界和实现高分割精度的能力。接下来，作者采用线性解码器进行分割任务，以探索模型的适用性。这种更简单的方法允许作者评估DetailCLIP在最小架构复杂度下如何保持性能。这些实验共同提供了DetailCLIP在细节导向分割任务上的优势。

作者在输入分辨率512x512像素的UperNet或线性解码器上使用UperNet或线性解码器，进行端到端训练160k次。作者使用平均交并比(mIoU)指标评估模型的性能。

在COCO数据集上的目标检测和实例分割： 此任务需要同时进行物体定位和分类，因此它们是复杂任务，需要高精度。对于作者的评估，作者采用了Cascade Mask R-CNN模型[4, 18]，如iBOT[56]，它擅长在COCO数据集[27]上生成边界框和实例 Mask 。本次研究中使用的评估指标是边界框的Average Precision()和 Mask 的。

评估任务结果： 表格1强调了DetailCLIP在各种细节导向视觉任务中相较于现有模型的显著优势。采用ViT-B架构的DetailCLIP在多个基准测试中优于其他模型。例如，在带有UperNet解码器的ADE20K数据集上，DetailCLIP实现了48.8的mIoU，比最接近的竞争对手MaskCLIP的47.5高1.3个点。同样，在线性解码器设置中，DetailCLIP的mIoU达到39.3，比SLIP的性能高出3.2个点，突显了作者的模型保持高性能的优越能力。

此外，在MS COCO数据集上的目标检测任务，DetailCLIP的边界框达到了48.9的，比之前的模型高出3.1个点，最近的竞争对手ACLIP为45.8。 Mask 精度为42.5的，进一步强调了作者的模型在效果上的优越性，比最佳替代方案高出0.8个点。这些显著的改进证明了DetailCLIP在提高高层次语义理解和细微细节提取方面的有效性，为该领域树立了新的里程碑。

视觉比较分析： 图5展示了作者模型的结果与其他基准的比较。请参阅附录。这个比较涵盖了分割和目标检测任务，展示了DetailCLIP的改进性能。

4.2.2 Image Classification

零样本在文本图像检索上的表现： 文中也提出在3个基准数据集上进行零样本文本图像检索：Flickr30K [50], MS-COCO [27]和ImageNet-1K [11]。作者的研究结果显示，仅使用纯文本，不添加任何前缀或后缀，在所有评估的模型中都能获得持强的性能。

表格2 全面评估了不同模型在文本图像检索任务上的表现，重点关注Flickr30K和MS-COCO数据集，还有在ImageNet-1K上的零样本评估。

在25个周期时，DetailCLIP在大多数指标上表现最佳，在Flickr I2T (62.8)和T2I (42.2)上取得最佳结果，在COCO I2T (38.3)上与A-CLIP持平，同时在IN-1K上的零样本评估 (43.9) 上也取得最佳结果，非常接近A-CLIP的表现。对于50个周期，DetailCLIP保持了其优越性能，尤其是在COCO数据集中，与A-CLIP并列获得最佳的I2T得分 (39.8)，并在T2I上以24.9分的成绩超越了A-CLIP。这些结果表明，DetailCLIP在需要文本和图像之间进行详细匹配的任务上表现特别出色。DetailCLIP在两个数据集的I2T和T2I检索任务上都超过了其他模型，表明其在文本图像相关的任务上非常有效。

在多样基准上的零样本分类性能评估： 作者评估了作者的提出DetailCLIP方法在13种不同的分类任务上的零样本分类性能，这遵循了SLIP [33]建立的评估协议。这个严格的评估框架允许作者直接评估和比较DetailCLIP的性能与其他领先模型。

表3中的结果显示，DetailCLIP在所有竞争模型中均表现优异。具体来说，DetailCLIP在26种评估情况中取得了最高性能，在另外5种情况下取得第二好成绩。值得注意的是，DetailCLIP也同时在25个周期和50个周期的平均得分上取得了最高成绩，这突显了其在多样性基准上的稳健性和泛化能力。

picture.image

这些结果表明，DetailCLIP在零样本分类任务上特别有效，尤其是与其他各种数据集上的最先进模型进行比较。

4.2.3 Ablation Study on Loss Weight Optimization

在这项消融研究中，作者研究了不同权重配置对第10式中引入的综合损失函数的影响。作者的目标是确定超参数 , , 和的最优值，以有效地平衡各种损失。

通过分析结果，作者发现基准配置，其中所有权重都设置为1，达到了最高的准确率43.9%，这表明等权重分配给所有损失项可以提供稳健的性能 Baseline 。当减少到0，即忽略重构损失时，准确率稍微下降到42.9%，表明尽管这个损失项不是关键的，但它仍然对整体模型性能产生积极影响。将增加到2，导致准确率略微下降到43.2%，这意味着过于强调重构损失会稍微降低模型在的其他任务上的有效性。将和的权重降低到0.5，得到43.3%的准确率，表明适度降低权重不会严重影响性能。然而，消除这些( 和)会导致准确率进一步下降到42.6%，这进一步强调了它们在模型学习过程中的重要作用。

5 Conclusion

在本文中,作者介绍了一种名为DetailCLIP的新框架,旨在克服传统基于CLIP的模型的一个局限性,即在细微粒度和粗粒度任务上的不足。尽管现有的模型如CLIP在全局上对图像和文本表示进行对齐方面表现出色,但它们通常无法捕捉到像图像分割和目标检测等任务所需的精细细节。

为了解决这个问题,作者将创新技术集成到DetailCLIP中,包括patch Level 的比较、像素 Level 的重建和基于注意的 Token 删除机制。这些特性使得模型能够专注于图像的最关键区域,从而显著增强了其在细节导向任务上的表现。

作者的广泛实验证明,DetailCLIP在需要高度细节的任务上,如ADE20K数据集上的分割和MS COCO数据集上的目标检测, consistently优于最先进模型,在这些关键指标如mIoU和平均精确度上设定新的基准。

此外,DetailCLIP的优点不仅限于精细粒度任务,它还表现在粗粒度任务,如零样本分类方面也表现出色。

参考

[1].DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks.

DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 ！

1 Introduction

2 Related Work

Self Supervised Learning

CLIP-Based Approaches

3 Method

Preliminary and Background

DetailCLIP Framework

3.2.2 Pixel-Level Reconstruction

3.2.3 Token Removal

3.2.4 Integrated Loss Function

4 Experiments

Setup

4.1.1 Training Data and Augmentation Strategy

4.1.2 Architecture and Training Setting

Experimental Analysis

4.2.1 Detail-Oriented Visual Tasks

4.2.2 Image Classification

4.2.3 Ablation Study on Loss Weight Optimization

5 Conclusion

参考