备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
视觉-语言模型(VLMs),如CLIP,已显示出卓越的泛化能力,并且可以通过 Prompt 微调快速适应下游任务。然而,在涉及非训练类别的分类任务中,即所谓的开放词汇设置,微调后的VLMs往往对训练类别过度拟合,导致置信度评分与未见类别实际准确度之间出现偏差,这在很大程度上削弱了它们在实际部署中的可靠性。
现有的置信度校准方法通常需要训练参数或分析训练数据集的特征,这限制了它们在没有对应训练数据的情况下泛化未见类别的能力。
此外,VLM特定的校准方法仅依赖于训练类别的文本特征作为校准指标,这本质上也限制了它们校准训练类别的能力。为了解决这些挑战,作者提出了一种有效的多模态校准方法——对比感知校准(CAC)。
基于原始CLIP的无监督适应性和经验分析得出的结论,即未见类别的类内和类间区分能力差是根本原因,作者根据原始和微调后的CLIP之间的对比差异来计算校准权重。
这种方法不仅适用于校准未见类别,还克服了先前VLM校准方法的局限性,这些方法无法校准训练类别。
在包含11个数据集和5种微调方法的实验中,CAC在训练和未见类别上均实现了最佳的校准效果,同时没有牺牲准确性和推理速度。
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
鉴于CLIP强大的零样本适应性,开放词汇集已成为评估微调VLM性能的标准,其中 Prompt 在类别子集上训练,并在训练集和未见过的类别上进行评估(Lee等人,2023年;Tan等人,2024年)。
不幸的是,微调后的视觉语言模型(VLMs)通常会过度拟合训练类别,忘记了在预训练期间达到的良好校准预测和图像文本对齐(Zhou等人,2022b;a)。对于未见过的类别,它们通常产生语义不平衡的表示,导致图像文本错位以及置信度得分与实际准确度之间存在显著差异。
现有的校准方法(Joy等人,2023;Oh等人,2023;Zadrozny & Elkan,2001)通常依赖于训练或分析训练数据集的特征,限制了它们校准训练数据集外类别的能力。此外,由于依赖于训练类别的文本特征,并忽视了图像文本对齐的关键特性,最先进的(SOTA)VLM校准方法——距离感知校准(Wang等人,2024)——未能校准训练类别,且难以处理具有良好对齐特征的方法。
为了从根本上解决微调后的CLIP模型的不匹配问题,作者进行了广泛的实证分析,确定了由于下游任务适应导致的未见类别上的低内类和跨类判别能力是主要原因。此外,作者的实验表明,在大规模数据集上训练的原生CLIP模型倾向于展现出更优的置信度校准性能,这与Minderer等人(2021年)和Tu等人(2023年)的研究结果一致。上述发现以及对比度量与置信度校准之间的联系激发了作者开发对比感知校准(CAC)以实现有效的置信度校准。
CAC通过利用原生CLIP中良好对齐的信息重新加权logits,提高了微调后的CLIP的内类和跨类判别能力。具体而言,通过利用原生和微调后的CLIP生成的logits之间的相似性,CAC重新调整了微调后的CLIP在训练和未见类别上的图像-文本特征关系,从而提高了置信度校准,并克服了先前方法局限于训练或未见类别的局限性。值得注意的是,作为一种后处理校准技术,CAC不会影响模型的准确性和推理速度,同时提供更可靠的预测。
由于CAC的设计针对CLIP且具备强大的图文对齐能力,它可以应用于任何类别集和CLIP的任何微调方法。为了评估其置信度校准的有效性,作者在11个数据集上对CAC在训练和未见过的类别上进行了评估,并将其应用于5种不同的 Prompt 学习方法。利用原始CLIP的图文对齐能力,CAC在置信度校准方面始终表现出最佳性能,无论是训练还是未见过的类别,都优于当前最佳校准方法MIR(Roelofs等人,2022年)和SOTA VLM特定的校准方法DAC(王等人,2024年)。此外,CAC还能持续提升各种微调方法的校准性能,即便是对齐良好的方法如PromptSRC(Khattak等人,2023b)也是如此。
总的来说,本文的主要贡献包括:
- 为了探究在未见类别上微调CLIP的误校准问题,作者通过实证分析确定,内部类别和类别间区分能力不足是根本原因,这为未来的研究提供了可靠的参考。
- 得益于对比学习模型的推理机制,作者建立了对比度量与置信度校准之间的联系,使作者能够利用图像-文本对齐技术来解决先前单模态校准方法的不完全校准问题。
- 基于分析,作者提出了一种新的ContrastAware Calibration(对比感知校准)方法,解决了先前方法如校准不佳和无法处理整个类别等局限性。
- 在11个数据集上的实验结果,测试了5种微调方法的校准效果,显示CAC优于现有的校准方法。特别是,即使是校准良好的PromptSRC方法,CAC也能带来显著的提升。
训练数据的数量对于下游任务而言,对VLMs的所有参数进行微调以适应这些任务是不切实际的。受NLP领域中 Prompt 学习成功案例的启发,许多研究者提出了通过端到端训练学习 Prompt 来适应VLMs。作为开创性工作,CoOp(Zhou等,2022b)首次引入了可学习的 Prompt ,将特定任务的知传递给VLMs。为了提高CoOp中可学习语言 Prompt 的泛化能力,CoCoOp(Zhou等,2022a)和VPT(Jia等,2022)通过融合图像特征和可学习语言 Prompt 生成视觉条件 Prompt 。KgCoOp、ProGrad(Zhu等,2023)以及其他基于 Prompt 的方法是针对VLMs的另一种基于 Prompt 的方法。MaPLe(Khattak等,2023a)和PromptSRC(Khattak等,2023b)通过在视觉和文本编码器上联合进行 Prompt 学习,执行视觉-文本 Prompt 学习。这些微调方法仅训练 Prompt ,导致对未见类别的高度置信偏差。为解决这一问题,提出的方法利用原始CLIP的良好校准置信度特性来校正微调VLMs的置信度,从而提高其输出的可靠性。
置信度校准。置信度校准旨在使模型预测的置信度得分与其实际性能相一致。实现这一目标的一种常见策略是在模型训练后应用校准技术。这些技术可以大致分为两大类:基于缩放的方法和基于分箱的方法。在基于缩放的方法中,温度缩放(Tomani等,2022)被广泛应用,其中学习一个单独的温度参数来调整logits。ATS(Joy等,2023)针对每个数据点分别调整温度。随着VLMs的日益流行,最近的研究也考察了这些模型的校准问题。距离感知校准(Wang等,2024)基于文本特征估计未见过的类logits的缩放权重,专注于文本模态的变化。因此,当遇到图像-文本特征良好对齐的微调VLMs时,其在处理置信度校准方面的能力有限。在本文中,作者提出了一种新型的置信度校准方法,利用CLIP的图像-文本对齐。
- 相关研究
视觉语言模型中的 Prompt 学习。由于视觉语言模型(VLMs)参数量大且可用性有限,作者的方法主要基于CLIP及其 Prompt 学习方法。因此,在介绍所提出的校准方法之前,作者首先回顾必要的知识,包括CLIP的核心概念、 Prompt 学习以及期望校准误差(ECE)指标。
CLIP是一种旨在将视觉和文本数据对齐到公共嵌入空间中的模型。CLIP由两个编码器组成:一个表示为
的图像编码器和一个表示为
的文本编码器。在训练阶段,这些编码器分别从输入图像
及其对应的文本标题
中提取特征表示
和
。其中,
代表词嵌入层,其任务是将单词转换成向量表示。
在零样本分类阶段,CLIP从图像
和一组手工设计的文本标题
开始,这些标题格式为
张
的照片,其中
张照片的模板是手工设计的,而
指定了从
个候选图像类别中的一个类别。图像和标题分别通过各自的编码器进行处理以提取特征,从而允许计算类别预测概率,计算方法如下:
在此背景下,
表示温度系数,而
表示特征之间的余弦相似度。
Prompt 学习。为了有效地将VLMs(可变长度模型)适应下游任务, Prompt 学习方法旨在生成更具适应性的分类器,而无需对文本编码器
进行微调。例如,一些研究(周等,2022b;a)采用可学习的 Prompt
来替代手工设计的语言 Prompt 模板,其中
代表 Prompt 向量,
指定 Prompt 的长度。设
代表类别名称的词嵌入。相应的预测概率计算如下:
在本文中,符号“
”表示拼接操作。对于每个下游任务,可学习的 Prompt 词
在少样本学习阶段通过交叉熵分类损失进行优化。因此,更新语言 Prompt 词
将相应地调整决策边界,利用为下游任务生成的分类器。
预期校准误差。为了从有限样本中估计预期准确性,作者将预测结果分为
个区间桶(每个桶的大小为
),并计算每个桶的准确性。设
表示预测置信度位于特定区间
内的样本索引集合。
的准确度为2.9。
和
分别代表样本
的预测类别标签和真实类别标签。然后,作者定义类别
的平均置信度为:
表示样本
的置信度,其计算方法为
。从形式上讲,一个完美校准的模型对于所有
都满足
。因此,期望置信误差(ECE)定义为所有分桶的准确度和置信度之间的差异,其计算方法如下:
- 分析
在本节中,作者介绍了对比度量及其计算方法,通过考察未见类别特征表示,探讨了微调后的视觉语言模型(VLM)中置信度校准不佳的原因。接着,作者分析了对比学习模型中输出logits与对比度量之间的关系,这构成了作者方法的基础逻辑。
4.1. 对比度量
对比度是一种衡量模型区分正负样本能力的指标,在对比学习中得到广泛应用(Le-Khac等人,2020;Ko等人,2022)。具有强大判别能力的模型通常表现出更高的对比度得分,反之亦然。具体而言,给定一个相似度矩阵
,其中
代表样本数量,
代表类别数量,
表示样本
与类别
之间的相似度,对比度指标的计算通过以下三个组成部分来完成:
正相似度。对于每个样本
,提取其与真实标签
的相似度分数为
正。
,平均正相似度定义为:
均
值
负相似度。对于每个样本
,计算错误标签中的最大相似度分数为
,平均负相似度定义为:
均
值
差异计算。对比指标是正相似度和负相似度平均值的差值:
对于视觉语言模型(VLMs)而言,对比度反映了模型区分真实标签和其他类别的能力,它作为衡量模型在当前数据集上图像-文本对齐性能的指标。
4.2. 实证研究
尽管 Prompt 学习方法(周等,2022a;姚等,2023)冻结了原始CLIP的参数,但它们的可学习 Prompt 往往会导致训练类别的过拟合。例如,KgCoOp(姚等,2023)学习针对训练类别的 Prompt ,而忽略了视觉 Prompt ,导致未见过的类别的文本表示与原始CLIP的视觉表示之间不平衡,显著降低了其准确表示未见过的类别的能力,并产生了偏见的对比分数(哈塔克等,2023a;b;王等,2024)。作者假设,当微调的VLMs的表示偏离预训练的图像-文本对齐时,它们的类别分数往往偏向某些类别,或在不同类别间表现出类似的分数,失去了预训练的区分同类和异类样本的能力,导致误校准。为了进一步研究这个问题,作者进行了实验,证实了作者的假设,揭示了高类别内相似性和高类别间差异分别对应上述两种情况,代表性数据集包括FGVCAircraft(马吉等,2023)和Food101(博萨德等,2014)。
观察1:由类间相似性引起的过度自信。对于FGVCAircraft,由于类间相似性较高且类边界难以区分,微调的VLMs往往将图像错误分类到几个主要类别中,导致过度自信但错误的预测,如图1(a)所示。由于虚假类别的相似度比真实类别更高,产生了负的对比分数。这种过度自信在具有重叠类间特征的细粒度分类任务中尤为明显。
观察2:由类内差异引起的信心不足。在Food101中,尽管类间相似度低但存在显著的类内差异,微调的VLMs通常会对未见过的类别产生多个高置信度的预测,从而导致整体置信度降低,如图1(b)所示。尽管如此,该模型仍然可以识别出正确的类别,保持对比得分正值。
总结来说,作者发现低对比度通常表明过度的自信,而增加对比度则使模型从过度自信转变为不自信,最终实现适当的校准。作者在各种微调方法上进行了类似的实验,所有实验都产生了极其相似的结果。作为代表性单模态和跨模态微调方法,
和MaPLe的结果分别展示在图1(c)和图1(d)中。总体而言,较高的对比度评分通常与较低的ECE值相关联,尽管这两个指标之间的关系在不同数据集之间可能有所不同。通过广泛的实验分析,作者得出结论,对比度和ECE对于未见过的类别之间存在负相关关系,这使得对比度成为扩展ECE的可靠指标。此外,结论表明,与VLMs的良好对齐通常表现出更好的置信度校准,这与(Minderer等人,2021年;Tu等人,2023年)中的观察结果一致。
4.3. 对数几率与对比
对于像CLIP这样的VLMs,它们通过对比学习进行训练和预测,用于计算对比的相似度矩阵
对应于CLIP为每个样本输出的logits。
这些符号与初步章节中提供的定义一致。当对比度低时,CLIP的logits通常指示两个或更多具有相对较高得分的类别。相反,较高的对比度通常对应一个得分显著较高的类别,而其他类别的得分则远低于此。这一特性通常适用于其他基于CLIP的模型,并有助于建立VLMs输出的logits与对比度指标之间的关系。通过将logits与对比度指标相联系,作者将作者的结论转化为对比学习模型的实际解决方案,为作者的方法提供了基础逻辑。
- 对比感知校准
在本节中,作者首先介绍了一种独特的尺度权重计算方法,称为对比感知权重(CAW),该方法专门针对图像-文本对齐模型设计,基于第4.2节的结论。接着,作者提出了一种更为精细的校准方法,即对比感知校准(CAC),作为作者的方法。最后,作者简要概述了在推理过程中的CAC校准流程,并分析了其优势。
5.1. 对比感知权重
在第4.2节和现有研究中(Minderer等人,2021;Tu等人,2023)所示,原始的CLIP在大型图像-文本对上进行训练,在不同数据集上表现出相对较高的对比度,导致其预测结果相对于微调后的CLIP更为保守。这一观察结果激发了作者利用原始CLIP作为参考,以调节微调后CLIP的置信度偏置对数。具体而言,作者计算原始CLIP和微调后CLIP的对数之间的
距离,将其视为置信度偏置指标
。公式表示如下:
的影响:由于基于 CLIP 的模型在计算 logits 之前对文本和图像特征进行了归一化处理,
距离可能较小。因此,有必要放大函数的输入,其中
用于缩放
,从而使函数能更有效地捕捉输入的变化。
α效应:由于微调后的VLMs可能在不同的数据集上存在低估和高估的问题,作者修改了函数的最大值为α(>1),使CAW具备了处理低估的能力。
总之,方程(5)的设计在对比度和误校准程度之间架起了一座桥梁,提供了一个可靠的指标来评估CLIP的置信度校准。通过应用放大和其他操作,方程(6)将
转换为一个合适的缩放因子,最终得到CAw。
5.2 对比感知校准
在上一节中提出的CAW已经可以作为微调CLIP的有效置信度校准权重。然而,不同的数据集和微调方法需要不同 Level 的校准。例如,KgCoOp需要更强的校准,而PromptSRC通常只需要进行轻微的调整。因此,作者使用分段函数来放大置信度不足情况下的权重,并在过度自信的情况下减少权重,最终形成CAC方法:
表示总类别数,
表示原始和微调后的CLIP模型输出的logits,即
和
表示的
。特别是,根据作者的分析,基于对比学习的VLMs的logits等同于对比度量,因此
可以作为衡量原始和微调的VLMs之间置信度差异的指标。为了更好地利用其与ECE的负相关性,作者设计了以下函数将
转换为CAW:
该函数解决了直接使用
作为置信权值所引起的一些问题,例如单调趋势的逆转、微小的数值差异以及不完整的值域。该函数的各个组成部分具有以下作用:
选择
的原因:由于ECE(边缘对比度)与对比度之间存在负相关,作者选择了递减函数
,其取值范围为[0, 1],并且符合所需的单调性要求。
代表最终的校准权重,
代表100AW的输出,而
和
代表用于缩小或放大
的区间的边界点。通过以下两个设计模块,CAC比CAW实现了更灵活的置信度校准:
阈值优势:当7小于或大于这些阈值时,模型往往表现出显著的低自信或高自信。因此,作者选择手动定义的阈值来调节特定场景下的缩放权重。·平方的优势:对于位于范围[0,α]内的值,平方可以保持数值稳定性,同时不会大幅影响数值。与通过手动定义的常数进行缩放不同,这种方法消除了对超参数微调的需求,使其更加高效和可靠。
最终,所提出的CAC是一种针对CLIP且具有良好图像-文本特征对齐的鲁棒置信度校准方法。通过使用原始CLIP的logits对微调后的CLIP进行缩放,CAC实现了参数效率、强大的泛化能力和无需训练的部署,解决了先前方法依赖训练参数或分析训练数据特征的局限性。
5.3 校准推理
给定输入图像
,作者首先收集该图像的CAC评分,记作
,然后利用此评分计算修正后的对数概率,具体计算方法如下:
其中,
代表由微调后的CLIP计算得到的logit。作为一种事后置信度校准方法,CAC专门调整CLIP的温度系数
,在不影响模型原始精度和推理速度的前提下,提升了模型的可靠性。值得注意的是,利用原始CLIP的开词汇分类能力,CAC可以自动适应任何输入类别和微调方法,使得在多种微调方法中,对训练和未见过的类别都能实现自动校准。
总之,作者方法的优势如下:
· 专为CLIP定制:CAC针对CLIP进行了特别设计,利用原始CLIP在视觉和文本模态之间的对齐,以实现有效的置信度校准。 · 同时针对训练和未见类别进行扩展:相较于先前的方法,CAC对训练和未见类别的置信度进行校准,解决了其仅处理训练或未见类别的局限性。 · 强大的实证基础:CAC的设计基于实验洞察,确保其具有强大的可解释性和可靠性。 · 简单的即插即用:CAC消除了对额外训练或对训练数据进行广泛分析的需求,为增强VLMs中的置信度校准提供了一个简单高效的方法。
- 实验
6.1. 实验设置
评估范式。遵循VLM领域中的开放词汇设置(Zhou等,2022a;Khattak等,2023a),数据集被划分为训练集和未见集。模型在少量样本设置下对训练集进行训练,作者通常报告训练集和未见集上的校准性能,这与DAC(Wang等,2024)不同。
比较方法。作者主要关注与以下5种当前代表性的 Prompt 学习方法进行基准测试:CoCoOp(周等,2022a)、KgCoOp(姚等,2023)、MaPLe(卡塔克等,2023a)、ProGrad(朱等,2023)和PromptSRC(卡塔克等,2023b)。由于像CoOp这样的模型仅考虑文本模态,且准确率较低,使其校准的重要性降至最低,因此作者专注于测试和校准其优化版本,即CoCoOp和KgCoOp。对于训练类别的校准,作者选择了三种代表性的校准方法:直方图分箱(HB)(Zadrozny & Elkan,2001)、等调回归(IR)(Zadrozny & Elkan,2002)和多等调回归(MIR)(Roelofs等,2022)。对于未见类别的校准,作者比较了专为CLIP设计的SOTA方法DAC(王等,2024)。实验中使用的数据集见附录A。
实施细节。在主要结果中,作者使用CLIP(ViT-B/16)作为预训练的视觉语言模型(VLM)贯穿整个实验过程,并报告了3次运行的平均结果。对于比较的方法,作者使用它们的官方实现。在本论文的主要实验中,作者将
和
设为对比感知权重的默认参数。作者选取
和
作为分段函数的阈值。这些参数选择的合理性将通过消融实验进行验证。关于预训练模型、超参数和实现细节的附加信息见附录A。
评估指标。在评估开放词汇置信度校准时,作者使用了4个标准指标:期望校准误差(ECE)(Guo等人,2017年),最大校准误差(MCE)(Guo等人,2017年),自适应校准误差(ACE)(Nixon等人,2019年)以及邻近信息期望校准误差(Xiong等人,2023年)。所有校准误差均以
表示。
6.2 主要结果
CAC对VLMs输出的未见类别进行校准的有效性如何?如表1所示,CAC在所有数据集上均实现了最佳性能,突显了图像-文本对齐校准的优势。值得注意的是,CAC在KgCoOp和ProGrad等 Prompt 学习方法上表现良好,显示出显著的性能提升,而DAC在性能优化方面则呈现相反的趋势。此外,对于PromptSRC等已经超越原始CLIP校准性能的方法,CAC进一步将其ECE从4.29降低到3.47,证明了原始CLIP logits中固有的强大校准能力。总的来说,DAC与CAC在多种方法和四个指标上的比较,验证了基于经验基础的图像-文本对齐的有效性。
CAC对VLM输出进行校准的有效性如何?如表2所示,CAC超越了现有的校准方法,在列车类别中实现了最先进的校准性能。值得注意的是,一些传统的校准方法在VLM领域表现不佳,ECE值反而上升,突显了为VLM设计专门校准方法的重要性。与当前最先进的方法MIR(Roelofs等人,2022年)相比,CAC在所有数据集上均展现出显著更好的性能,即使在已经校准良好的微调方法PromptSRC上,改进幅度也介于0.19至0.99之间。总的来说,由于CAC的设计基于经过良好校准的原始CLIP,它具有在开放词汇设置中校准任何类别的功能,确保了校准的稳健性和可靠性。作者在附录C中提供了详细的实验结果。
6.3. 消融研究
在本节中,作者首先进行了消融实验,以探究CAC中每个模块的影响。随后,作者对每个模块最佳参数选择的内在原理进行了详细分析。最后,作者比较并分析了分段函数参数的影响,确认CAW是实现良好置信度校准的关键因素。
每个组件在CAC中的作用。作者通过系统地消除设计的模块,并在以下测试数据集上评估它们的性能,来评估CAC中每个组件对校准性能的影响:
在没有α的情况下:如前所述,当α被移除时,CAC难以处理信心不足的数据集,导致性能不佳。因此,包含α,以扩展值域,是至关重要的。
在未使用
的情况下:如表4所示,去除
阻碍了模型有效区分对比差异的能力,导致校准效果变差,这与作者最初的设计理念相符。然而,在计算logits时省略归一化处理可能会导致数值爆炸,从而进一步加剧校准错误。因此,基于
的放大仍然是最佳选择。
在未使用EXP函数的情况下:作者在相同设置下进行了比较实验,将EXP函数替换为单调递减的
函数。由于当
趋近于零时,
的值趋近于无穷大,它无法很好地处理如PromptSRC这样的对齐方法,从而证明了使用EXP函数的合理性。
没有分段函数:由于分段函数主要是为需要大量置信度校准的dataset而设计,因此其在整体性能上的消融效果相较于其他模块来说并不显著。结果显示,大多数dataset从更强的缩放中受益,这验证了分段函数在作者设计中的必要性。
不同
值的影响。直观上,将CAW值调整到合适的范围会产生最佳的置信度校准结果,而过高或过低的值会导致性能不佳。表3验证了作者的假设,显示适当的
值可以实现最佳的校准性能。总的来说,这项实验强调了正则化的
距离通常相对较小,需要适当的放大才能获得最佳结果。
不同
值的影响。如表5所示,作者测试了4个不同
值的效果,其中
的默认设置为1.10。当
时,模型无法处理过度不自信,导致校准性能下降。随着
的增加,CAC缓解过度不自信的能力得到提升。然而,当
时,对过度不自信的情况大多被忽视,导致CAC校准转变为过度自信,这破坏了其在过度不自信与过度自信之间的平衡,并导致结果不理想。总的来说,正如作者的设计意图,
在模型处理过度不自信和过度自信的能力中起着关键作用。
分段函数阈值对置信度校准的影响。对于过自信阈值
,作者将默认缩放系数设为0.90。如表6所示,低于
的值表示模型输出与原始CLIP之间存在显著差异。对于缺乏自信的阈值
,作者假设当微调后的CLIP的分数与原始CLIP的分数紧密一致时,其预测更为可靠;因此,作者选取1.00作为缺乏自信的阈值。作者还测试了两种替代阈值,0.95和1.05,结果显示差异极小,表明大多数与原始CLIP预测相似的输出都存在缺乏自信。总之,分段函数阈值的最小影响凸显了CAW是实现优秀置信度校准的关键因素,进一步验证了其有效性。作者还在附录B中分析了模型主干对置信度校准的影响。