如何白嫖超大规模模型的性能？ | ComKD-CLIP让你无痛白嫖大模型性能！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

对比语言图像预训练（CLIP）在对比学习技术的帮助下，在图像与文本之间的语义信息的整合方面表现出色。它在各种多模态任务上取得了显著的性能。然而，在资源受限的环境中，部署大型CLIP模型受到限制，而较小的模型往往无法达到满足实际应用所需性能评估的指标。

在本文中，作者提出了一种新颖的方法，名为ComKD-CLIP：综合知识蒸馏对比语言图像预训练模型，其目标是将大型教师CLIP模型中的知识全面地蒸馏到较小的学生模型中，同时确保可比较的性能而参数量显著减少。

ComKD-CLIP由两个关键机制组成：图像特征对齐（IFAlign）和教育注意（EduAttention）。

IFAlign使学生模型提取的图像特征与教师模型提取的图像特征密切匹配，使学生模型能够学习教师提取图像特征的知识。EduAttention探讨了教师模型和学生的提取模式之间的关系，使学生模型能够学习教师模型如何整合文本-图像特征。

此外，ComKD-CLIP可以通过利用教师模型对文本-图像特征融合的结果来进一步提升ifalign和EduAttention的知识蒸馏，确保学生模型准确地吸收了教师模型的知识。在11个数据集上进行的实验结果证明了作者提出的方法的优越性。

Introduction

对比语言图像预训练（CLIP）[1] 已经崛起为领先的视觉语言模型预训练方法，由于其通过对比学习有效地学习了图像和文本语义信息的融合。这使得 CLIP 在各种多模态任务上表现出色，例如图像识别，视觉问答和图像描述生成[11, 12, 13]。但是，大型的 CLIP 模型在资源受限的环境中无法部署，小型的 CLIP 模型性能通常达不到应用需求。这些限制严重限制了 CLIP 模型的实际可用性。

知识蒸馏（KD）[10] 已经介绍到 CLIP 以解决这些问题。CLIP-TD [13] 将 CLIP 的视觉和语言分支的知识分别蒸馏到现有的 VL 任务架构中。TinyCLIP [23] 通过模仿亲和性和权重继承来提高小型模型性能，利用大型模型的知识。CLIPPING [14] 提出了一种从学生作为基础的层间对齐，使得学生模型能够充分吸收教师模型的知识。PromptKD [15] 使用无标签的域数据进行基于提示的知识蒸馏，极大地提高了小型模型性能。CLIP-KD [29] 提出了一些蒸馏策略来检查 CLIP-KD 的有效性。然而，这些方法基于文本图像特征融合的结果来蒸馏教师模型的知识，忽略了融合过程中嵌入的知识。这一忽视极大地阻碍了学生模型吸收教师模型知识的能力。

为确保学生模型能够完全吸收教师模型中的知识，作者力求在特征融合过程中提取大模型中的嵌入知识，并利用融合结果来完善这些知识的精炼。因此，作者提出 ComKD-CLIP：对比语言图像预训练模型的全面知识蒸馏。ComKD-CLIP 由两个关键模块组成：图像特征对齐（IFAlign）和教育注意力（EduAttention）。在特征融合阶段：IFAlign 确保学生模型提取的图像特征与教师模型提取的图像特征非常接近。

这种对齐使得学生模型能够吸收教师模型如何提取图像知识。同时，EduAttention 探索教师模型提取的文本特征和學生模型提取的图像特征之间的交叉关系。通过这种策略，EduAttention 使得學生模型能够理解和模拟教师模型在图像和文本特征融合过程中的能力，从而丰富其自身的多模态理解。此外，为了使學生模型完全吸收教师模型中的知识，ComKD-CLIP 通过利用特征融合结果来完善从 IFAlign 和 EduAttention 蒸馏的知识。如图1（a）所示，作者提出了 ComKD-CLIP 的简略图。作者还将在 11 个数据集上的部分最先进的方法的性能进行了比较。实验结果表明，在 11 个多样识别数据集中，作者的方法在 8 个数据集中表现最好。

picture.image

作者提出方法的主要贡献可以总结如下：

提出了一个 IFAllign 模块，该模块使得学生模型在文本图像特征融合过程中能够吸收教师模型关于提取图像特征的知识。
提出了一个 EduAttention 模块，该模块使得学生模型在文本图像特征融合过程中能够吸收教师模型关于整合文本图像特征的知识。
利用特征融合的结果完善了从 IFAllign 和 EduAttention 蒸馏的知识，以激发小型模型完全吸收大型模型知识。作者在 11 个数据集上的广泛实验表明，作者所提出方法具有优越性能。

Related Work

Contrastive Language-Image Pre-training (CLIP)

CLIP（Convolutional Language Model）可以同时理解和融合文本图像数据，在多模态任务中表现出色。SLIP（Single-image Text Refinement）通过将CLIP与自监督学习相结合，使其在多任务学习中得以应用。MaskCLIP[12]进一步创新，引入了遮挡自蒸馏技术，将完整图像的表示转移到预测其遮挡镜像的表示，这种方法显著提升了CLIP的性能。

AttCLIP [29] 将注意力机制引入到CLIP，使模型能够针对与相应文本信息高度相关的标记选择性地关注。这种方法不仅简化了有效多视学习，而且节省了训练时间。CLIP-Decoder [1] 通过将文本和图像的独立编码器集成到CLIP中，丰富了CLIP的多模态表示学习，在多标签分类任务中取得了显著进展。

MoPE-CLIP [15] 提出了一种新的模块化截断错误度量，允许有效地利用教师模型知识。这为CLIP模型的预训练阶段提供了一个统一解决方案。

总体而言，这些进步突显了CLIP在多模态任务上的优势。然而，大型CLIP模型的部署在资源受限的环境中仍然受到限制，而小型模型往往无法满足实际使用的基准标准。

因此，主要挑战在于在不影响性能的情况下压缩CLIP模型，从而促进它们在各种计算环境中的广泛应用。

Knowledge Distillation (KD)

KD的目标是让小学生的模型从大型教师模型中吸取知识，从而实现与大型模型相当的性能。KD在多种视觉任务上取得了显著的成功，包括图像分割，目标检测，和姿态估计。最近，许多研究行人都努力将KD引入CLIP，受到了在资源受限环境中大型CLIP模型所面临操作挑战的迫切需求，以及小型模型在实际应用中表现不佳的推动。[10]。CLIPPING [14]引入了一种新颖的分层对齐策略，将学生模型作为基础，使得学生模型能够有效地从教师模型中吸取知识。PromptKD [15]则采用了一种独特的方法，利用无标签的域数据来促进基于提示的知识蒸馏在CLIP范式中的应用，极大地增强了较小CLIP模型的性能。TinyCLIP [23]同样针对CLIP蒸馏，通过创新地使用亲和模仿和权重继承技术，实现了令人称赞的结果。

然而，以前的研究主要集中于根据特征融合结果来蒸馏教师模型的知识，而忽视了特征融合过程中所包含的复杂知识。与现有的蒸馏方法相比，作者提出的独特方法独树一帜，它蒸馏了大型CLIP模型中潜在的知识，通过使用特征融合结果来精炼知识，从而增强学生的吸收能力，进而显著提高他们的性能。

Approach

Preliminaries

CLIP是一种广泛使用的视觉语言模型（VLM），包含独立的图像编码分支和文本编码分支。它将图像与文本对齐并融合，以学习联合多模态嵌入空间。在图像编码分支中，使用了一个标记的视觉识别数据集作为输入。每个来自数据集的图像由图像编码器处理，得到归一化的图像特征。与视觉识别数据集对应的是个类别名称。在文本编码分支中，输入数据是源自模板"a photo of a "的文本描述。每个，在经过文本编码器处理后，得到归一化的文本特征，其中是文本特征的维度。所有文本特征构成了分类权重矩阵。基于这些数据，可以使用公式1计算分类输出概率。

其中表示输出对数，是温度参数。

KD（Knowledge Distillation）最早由Hinton等人提出 [14]，的目标是将一个大且预先训练的教师模型传递知识给一个较小的轻量级学生模型。学生模型吸收教师模型的知识以实现高效部署。这个过程使用KL散度损失来对齐两种模型的特征分布。KL散度损失的定义如下：

其中和分别表示教师和学生模型预测的输出。表示softmax函数，是温度参数，它可以调整概率分布的平滑度。

Pipline

如图2所示，作者提出的 ComKD-CLIP 框架包含两个主要阶段：大型 CLIP 教师模型的预训练和随后的小型 CLIP 学生模型的训练。在初始阶段，如图2（a）所示，大型 CLIP 教师模型在标记域的数据集上进行预训练，，以增强其性能，与现代方法如 PromptSRC [13] 和 PromptKD [15] 相符。创新点在于，作者通过 ConCat 策略将可学习的提示嵌入教师模型中的图像和文本编码分支。标记域数据集的图像和文本分别通过图像编码器和文本编码器处理，分别产生图像特征和文本特征。最终输出 logits 通过和的矩阵乘积计算得出。训练教师模型需要最小化预测概率分布和真实标签之间的交叉熵损失，从而优化模型的参数。这一严谨的预训练阶段确保教师模型获得的知识可以有效地传递给学生模型。

picture.image

如图2（b）所示，学生 CLIP 模型直接利用教师模型的预训练文本特征，从而显著降低了使用文本编码器分支的训练成本。同时，学生模型中设计了一个轻量级的 CLIP 图像编码器分支，以降低资源成本并保持竞争力的性能。学生模型在处理来自无标记域数据集的输入数据时，引入了 IFAlign 模块。该模块用于将学生模型的图像特征与教师模型的图像特征对齐，从而帮助学生模型吸收教师模型如何提取显著图像特征的知识。在对齐特征之后，引入了 EduAttention 模块，以探究学生模型提取的图像特征和教师模型提供的文本特征之间的交叉关系。这种探索使得学生模型可以学习教师模型集成文本-图像特征的细微策略。此外，作者利用 KL 散度来最小化教师模型和学生模型之间的 logits 差异。这种优化确保学生模型提炼出的知识更精细，更接近于教师模型，从而提高学生对教师知识的掌握程度。

ComKD-CLIP

IFAlign IFAAlign的示意图如图2(c)所示。为了使学生模型提取的特征图像与教师模型提取的特征图像尽可能地接近，作者调整了提取的特征的平均值和方差统计量。计算过程可以如下表述：

其中和分别表示学生模型提取的图像特征的平均值和方差；和对应教师模型提取的特征。和分别表示学生和教师模型具有提示的特征图像。学生图像编码分支中的可学习投影器被设计用于有效地和成本有效地调整特征维度，以确保精确对齐。之后，作者在损失下对学生模型提取的图像特征的平均值和方差与教师模型提取的特征进行对齐。这种配准可以帮助学生模型吸收如何由教师模型提取显著图像特征的知识。

在本文中，作者将教师模型提取的特征（图像特征和文本特征）的平均值与学生模型提取的特征的平均值之间的差异（记作）以及教师模型提取的特征的标准差与学生模型提取的特征的标准差之间的差异（记作）结合起来，作为对齐损失。这种结合使得学生模型可以充分吸收教师模型如何提取图像特征的知识。

EduAttention 如下所示，它如图1(e)所示。在此模块中，采用了注意力机制，探索学生模型提取的图像特征与教师模型提供的文本特征之间的交叉关系，有助于学生模型学习教师模型用于将文本-图像特征整合的细微策略。该模块的具体计算过程可以形式化为如下：

其中，表示学生模型提取的图像特征，表示教师模型提取的文本特征，表示与之间的交叉关系，是一个超参数，且表示全连接层。

为了实现IFAlign和EduAttention模块所吸收的教师模型知识的集成，作者将乘以一个可学习的参数，并将其与提取的图像特征进行逐元素加和操作，得出最终的图像特征。该模块的具体计算过程可以形式化为如下：

其中，最初设置为0，并逐渐学习分配更多的权重。

Distilled Knowledge Refinement: 在学生模型吸收了教师模型如何提取图像特征以及文本-图像特征的知识后，作者试图根据教师模型产生的特征融合结果来优化吸收的知识。如图2所示，作者利用KL散度来最小化教师模型产生的特征分布与学生模型产生的特征分布之间的差异。该过程的具体计算可以形式化为如下：

在这段英文文本中，""和""分别表示教师模型和学生模型预测的对数似然值，这是通过相应的图像特征和文本特征使用公式（1）计算得到的。是温度参数，用于调整概率分布的平滑度。

最后，作者将学生模型的对齐损失与特征分布损失合并为小CLIP模型的损失函数，具体的损失公式如下：

请注意，我没有更改或更改任何 Markdown 公式，而是保留了它们。

Experiments

Settings

本研究中，作者采用了PromptSRC[14]和PromptKD[15]的方法，对从基类到新类的一般化能力进行了评估，并对跨数据集进行了评估。作者使用了11个多样化的图像识别数据集，包括以下任务：

通用目标识别（ImageNet[13]和Caltech101[14]）。
细粒度分类（OxfordPets[15]、StanfordCars[16]、Flowers102[17]、Food101[18]，及Guillaumin和Van Gool 2014[19]）。
场景识别（SUN397[20]）。
动作识别（源自UCF101[21]）。
通过DTD[23]进行纹理分类。
卫星图像（与 EuroSAT[14]）。

对于域泛化的基准测试，ImageNet[13]作为源数据集，ImageNetA[15]、ImageNet-Sketch[17]和ImageNetV2[15]作为域外测试数据集。

实现细节：作者使用ViT-L/14 CLIP模型作为作者的教师模型，使用ViT-B/16 CLIP模型作为作者的学生模型，用于作者的ComKD-CLIP框架。遵循PromptKD配置，作者将提示深度设置为9，图像和语言提示长度均固定为4。作者使用随机梯度下降（SGD）进行优化，其中温度超参数设置为其默认值1。在第一层的文本提示使用"a photo of a {classname}"的短语嵌入。作者报告了基类和新类准确性以及它们的调和平均（HM），均在三个运行中平均。所有实验均在单个Nvidia A100 GPU上进行。

Base-to-novel Generalization

参考[15][14][15]，作者将训练和测试数据集分为基础和新型类别。作者的老师模型通过PromptSRC方法[14]进行预训练，使用一个未标注的集合指导学生模型的训练。经过蒸馏后，作者在测试集上评估学生模型在两种类别上的表现，作为在数据集中的方法学泛化度量。如表1所示，作者将提出的ComKD-CLIP与包括CLIP[15]，Coop[16]，CoCoOp[17]，MapLe[14]，PromptSRC[14]，PromptKD[15]在内的最新的state-of-the-art方法进行比较，这些方法在11个识别数据集上。与这些state-of-the-art工作相比，ComKD-CLIP在所有11个数据集上都表现出极高的竞争力结果。

picture.image

Cross-dataset Evaluation

类似于文献[15]中的PromptKD，作者的教师模型在ImageNet上进行了预训练。然后，作者使用目标数据集的未标注训练集来训练学生模型。在经过预训练后，它们的性能在测试集上进行评估，并未对特定数据进行微调。作者将跨数据集性能与先前的方法进行比较，结果如表2所示，作者提出的ComKD-CLIP在10个数据集中，有8个数据集上比先前的某些最先进的方法表现更好，相较于先前的方法，平均提高了0.74%。

picture.image

Domain Generalization Experiments

作者在ImageNet [13]数据集上训练一个源模型，并随后在各种离散数据集（out-of-distribution datasets）上评估其鲁棒性，以检验在域变换（domain shifts）下的性能。这种方法帮助作者在不同的和预期之外的环境中探索模型的适应性，从而识别其在实际应用中的优势和潜在漏洞。作者在表3中总结了ComKD-CLIP的结果，并将其与在离散数据集上进行域变换的一些最先进的方法进行了比较。结果表明，ComKD-CLIP在源数据集ImageNetV2, ImageNetSketch和ImageNetA上的性能超过了某些最先进的methods，具有更高的平均性能。这表明ComKD-CLIP在具有域变换的数据集上具有更强的泛化能力。

picture.image

Ablation Study

开始Ablation Study部分。

The effectiveness of IFAlign & EduAttention

首先，作者试图探索IFAlign模块和教育注意模块的有效性。具体而言，作者从ComKD-CLIP中分别移除IFAlign模块和教育注意模块，并测试相应的实验结果。如表4所示，移除IFAlign模块将极大地降低ComKD-CLIP的性能。同样，移除教育注意模块也会降低模型的性能。值得注意的是，当移除IFAlign模块和教育注意模块时，ComKD-CLIP的性能最差。这些实验结果充分证明IFAlign模块和教育注意模块可以有效促进学生模型吸收教师模型提取图像特征和结合文本图像特征的方式。

picture.image

接下来，作者试图在IFAlign中使用不同的对齐方法寻找最佳的对齐策略。作者分别使用均值对齐（）、方差对齐（）和均值加方差对齐（）方法对IFAlign中的图像特征进行对齐。实验结果如表5所示。明显可以看出，在使用IFAlign中对齐图像特征的均值加方差方法（）时，ComKD-CLIP具有最佳性能。这主要是因为均值加方差可以同时从中心位置和离散性的角度促进对齐，从而帮助学生模型学习如何像教师模型那样提取图像特征。

picture.image

Knowledge Refinement Method

最后，作者试图探索IFAlign模块和教育注意力模块提取的知识的最佳细化策略。具体地，作者使用KL散度、L1和均方误差（MSE）方法来细化提取的知识。相应的COMKD-CLIP性能如图6所示。可以看出，KL散度可以更好地细化提取的知识，使得COMKD-CLIP性能最佳。这可能是因为KL散度可以使学生模型的对数概率分布更好地近似教师模型的对数概率分布，从而更好地细化学生模型模型提取的知识。

Conclusion

在本研究中，作者提出了ComKD-CLIP：综合知识蒸馏对抗语言图像预训练（CLIP）模型的创新方法。这种新颖的方法利用ImgAlign和EduAttention在文本图像特征融合过程中有效地提炼出大型CLIP模型中复杂的知识。

此外，ComKD-CLIP通过利用大型模型的特征融合结果来优化提炼出的知识。

这种策略使较小的模型能够吸收来自较大模型的细微知识，从而使较小模型具有实现可比性能的能力。

在十一个数据集上的广泛实验彻底验证了所提出方法的优势。

ComKD-CLIP在资源受限的环境下显著提升了较小的CLIP模型性能，并增强了CLIP技术的实用性。

参考

[1].ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-training Model.

点击上方卡片，关注「AI视界引擎」公众号

如何白嫖超大规模模型的性能？ | ComKD-CLIP让你无痛白嫖大模型性能 ！

Introduction

Related Work

Contrastive Language-Image Pre-training (CLIP)

Knowledge Distillation (KD)

Approach

Preliminaries

Pipline

ComKD-CLIP

Experiments

Settings

Base-to-novel Generalization

Cross-dataset Evaluation

Domain Generalization Experiments

Ablation Study

The effectiveness of IFAlign & EduAttention

Knowledge Refinement Method

Conclusion

参考

如何白嫖超大规模模型的性能？ | ComKD-CLIP让你无痛白嫖大模型性能！