破解ViT过度自信难题 | Meta提出CalAttn模块,用CLS Token范数动态调节温度,ECE降至1.25%

向量数据库大模型机器学习

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

    1. 视觉Transformer(ViT)在风险敏感型应用中的概率校准问题。尽管ViT在准确率上达到最佳水平,但存在校准偏差,即模型预测概率不能准确反映真实正确性。
    1. 传统解决方案——后处理温度缩放——的局限性。该方法采用单一全局标量,需在单独验证集上调优,存在两个主要问题:(i)假设所有输入难度相同,忽略样本特定不确定性;(ii)与训练过程解耦,主干网络无法接收校准相关梯度。
    1. ViT是否天生校准良好的争议。通过系统性重新评估表明,经过最优全局温度缩放后,CNNs与ViTs之间的校准差距基本消失,说明ViT并不具备固有的校准优势。

本文的核心创新是什么

    1. 提出了校准注意力(CalAttn),一种新颖的即插即用模块,直接从ViT的CLS Token动态学习自适应的实例级温度。该模块包含小于0.1%参数的两层MLP,将CLS Token映射到一个正温度。
    1. 发现并利用CLS Token的L2范数作为内在难度指标。首次提供定量证据表明,最终CLS Token Embedding的L2范数与模型置信度呈中等相关性(皮尔逊相关系数r=0.45),较大范数对应较容易、过度自信的样本,较小范数对应较难样本。
    1. 设计了端到端训练方法,将校准整合到训练目标中。CalAttn在训练和推理过程中对logits进行缩放,使用交叉熵加上小Brier惩罚与主干网络联合训练,使置信度适应单个样本,并将校准整合到训练目标。

结果相较于以前的方法有哪些提升

    1. 在多个数据集和模型上显著降低校准误差。在CIFAR-10/100、MNIST、TinyImageNet、ImageNet1K上的实证评估表明,CalAttn在ViT-224、DeiT和Swin Transformer等模型中显著降低校准误差——最多减少4倍。
    1. 引入的额外参数极少。CalAttn引入的额外参数少于0.1%,是一个轻量级解决方案。
    1. 学习到的温度更加合理。学习到的温度紧密聚集在1.0附近,与标准温度缩放方法通常需要的较大全局值形成鲜明对比,表明CalAttn能更好适应不同样本的难度。
    1. 在多种校准指标上表现优异。不仅在传统ECE指标上表现良好,在平滑ECE(smCE)、自适应ECE(AdaECE)和类别ECE(ClasswiseECE)等更细粒度的可靠性指标上也取得显著改进。
    1. 有效降低高置信度错误。在0.90置信度阈值测量高置信度假阳性( HCFP@0.90 )时,CalAttn在CIFAR-100 Backbone网络中将HCFP降低18%-71%,同时适度提升AUROC,缓解了最危险的自信过度错误。

局限性总结

    1. CalAttn专为视觉Transformer(ViT、DeiT、Swin)设计,依赖于全局Token(如[CLS])或等效GAP特征的存在。尚未探索将其扩展到卷积神经网络(CNN)、混合CNN-ViT模型或非视觉模态。
    1. 对于没有显式全局Token的架构,如某些CNN架构,CalAttn的应用可能需要额外修改,例如通过学习空间池化方案。
    1. 论文未探讨CalAttn在文本和多模态Transformer中的应用前景,这可能是一个未来研究方向。
深入阅读版本

导读

概率校准在风险敏感型应用部署视觉Transformer(ViT)时至关重要。然而,传统解决方案——后处理温度缩放——采用单一全局标量,并需要在单独的验证集上进行调优。作者提出了校准注意力(CalAttn),这是一种新颖的即插即用模块,旨在直接从ViT的CLS Token 动态学习自适应的实例级温度。在CIFAR-10/100、MNIST、TinyImageNet、ImageNet1K上的实证评估表明,CalAttn在ViT-224、DeiT和Swin Transformer等模型中显著降低了校准误差——最多减少4倍——同时引入的额外参数少于0.1%。值得注意的是,学习到的温度紧密聚集在1.0附近,与标准温度缩放方法通常需要的较大全局值形成鲜明对比。校准注意力提供了一种直接、高效且与架构无关的策略,用于在当前最先进的视觉Transformer中生成可信且校准良好的概率。

1 引言

分类器在预测概率能够反映真实正确性的情况下被认为是校准的:在所有以80%置信度做出的预测中,实际上大约应有80%是正确的。当置信度指导下游决策时,校准至关重要——尤其是在医疗诊断[1]、自动驾驶[2]和金融交易[3]等风险敏感领域。

置信度至关重要。尽管现代深度神经网络——包括卷积神经网络(CNN)和视觉Transformer(ViT)——在准确率上达到了当前最佳水平,但它们往往存在校准偏差[4, 5]。常见的解决方案是温度缩放,这是一种后处理技术,通过将logits乘以一个在验证集上拟合的单个全局标量

来实现[4]。虽然这种方法有效,但它存在以下问题:(i)假设所有输入的难度相同,忽略了样本特定的不确定性,以及(ii)与训练过程解耦,因此主干网络永远不会接收到与校准相关的梯度。

尽管在大型基准测试上表现出色,ViTs(ViT [6]、DeiT [7]、Swin [8])与CNNs一样存在相同的校准问题。早期报告暗示ViTs可能天生校准良好[7, 9],但作者的系统性重新评估(第3节)表明并非如此。经过最优全局温度缩放后,CNNs与ViTs之间的校准差距基本消失,印证了[5]的结论。这再次凸显了上述提到的全局缩放的两种局限性。

一种用于学习样本级不确定性的隐藏线索。虽然已有研究推测视觉Transformer(ViTs)可能编码不确定性线索[9],作者首次提供了定量证据表明,最终[CLS] Token Embedding 的

范数

与模型置信度呈中等相关性(皮尔逊相关系数

;图2)。较大的范数对应于较容易、过度自信的样本,而较小的范数则 Token 较难的样本。利用这一线索,作者引入了校准注意力(CalAttn)——一种包含小于0.1%参数的两层MLP

,它将

映射到一个正温度

。CalAttn在训练和推理过程中都会对logits进行缩放,并使用交叉熵加上一个小Brier惩罚与主干网络联合训练。因此,它(i)使置信度适应于单个样本,并(ii)将校准整合到训练目标中。

picture.image

CalAttn在训练中的应用。现有方法主要依赖全局温度缩放[4],该方式忽略了样本间的不确定性,并将校准与训练过程割裂。ViT-Calib[9]将校准扩展到Transformer模型,但缺乏利用内部困难信号的机制。CalAttn通过利用[CLS] Token 范数的预测价值,解决了上述两种局限性。一个轻量级的两层MLP预测特定实例的温度

,用于在训练和推理过程中缩放logits。该 Head 与主干网络使用交叉熵和Brier惩罚进行端到端训练,实现了低开销的动态自校准。

本文的贡献总结如下:

    1. 作者在CIFAR-10/100和Tiny-ImageNet上使用七种校准损失对CNN和ViT进行校准性能基准测试,结果表明ViT在调优后并不具备固有的校准优势。
    1. 作者提出

作为内在难度指标,并使用它来驱动实例 Level 的温度缩放。 3. 3. 作者介绍了 CalAttn,这是首个与 ViT 兼容的训练时校准模块,该模块在实现最先进可靠性的同时,具有可忽略的开销。

2 方法

为解决上述局限性,作者的目标是用一个与模型参数联合学习的实例级、图像自适应温度来替换posthoc缩放中使用的单一全局温度。图1概述了Calibration-Attention,完整的符号说明在附录A中提供。

picture.image

2.1 预备知识

视觉Transformer的logits。给定一个RGB图像

,视觉Transformer会先添加一个学习到的[CLS] Token ,并在经过

个编码器块后,生成一个全局嵌入

。一个线性层

会输出类别logits

,这些logits通过温度为

的softmax函数转换为概率。

全局扩展的局限性。温度缩放[4]在保留集上拟合单个标量

,并在测试时部署

。由于

是常数,它无法协调单个样本的异方差'置信度, Backbone 网络永远不会看到校准梯度。

2.2 校准注意力 (CalAttn)

一个每样本的温度头。在Transformer编码器之后,第一个token产生一个全局分类嵌入

,通常称为CLS token。校准注意力

通过一个轻量级两层MLP将这个嵌入映射,以预测一个自适应的、每样本温度:

其中

,以及

。参数初始化为

,确保 softplus

。因此,CalAttn 初始时与 Baseline 模型匹配,仅在经过校准改进时才会偏离。

最终校准概率分布计算如下:

通过自适应标量

进行缩放,能够保持原始类别排序,动态地降低过度自信的预测(

)或增强欠自信的预测(

)MLP设计。选择用于CalAttn的小型两层MLP的决策基于以下几个关键洞察:

    1. z中的隐式难度信号。经验上,CLS嵌入的幅度和几何形状编码了样本难度的信息。CalAttn直接利用这种内在表示来预测自适应校准尺度。
    1. 以最小成本实现高表达能力。具有单个隐藏层的MLP(多层感知机)在采用GELU激活函数的情况下,能够通用逼近标量函数。通过适度的宽度

,该模块仅增加

个参数,相当于典型Transformer模型(如DeiT-Small)参数的不到0.1%,确保了计算开销可以忽略不计。 3. 3. Softplus平滑正则化。Softplus确保严格正的缩放

,提供平滑且稳定的梯度,并避免ReLU等非平滑替代方案[10]中常见的数值不稳定性。小偏移量

进一步保证这一点。 4. 4. 校准对齐梯度动态。对于组合交叉熵和Brier损失(式5),关于缩放参数的梯度为2:

ŷ

ŷ

该梯度项在预测错误但过于自信时(从而增加

)为正,在预测正确但不够自信时(减少

)为负,直接使置信度与准确度保持一致以减少校准误差。

异方差噪声视角。CalAttn也可以从统计角度进行论证。假设原始logits与每张图像的潜在噪声水平

成反比,即

。因此,贝叶斯最优softmax会采用温度缩放

。CalAttn通过优化可微的校准感知目标函数,端到端实现了这一理想场景。

其中

是 one-hot 真实标签向量,

。此外,Brier 项作为预期校准误差(ECE)[11, 12] 的可微 Agent 。作为唯一能够修改置信度同时保持类别排序的标量,学习到的温度

自然收敛到最优温度(证明见附录 E):

因此,CalAttn有效地用表4所示的单阶段、完全可微分的校准方案取代了传统的两阶段后处理温度搜索。

picture.image

2.3 CLS token是一个很好的"温度计"

全局摘要 Token 。在ViT风格的架构中,一个类 Token 被添加到 Patch 序列的前面,并在每一层关注所有 Patch 。经过

个编码器块后,第一个 Token 的嵌入

是一个紧凑且信息丰富的摘要:一个线性头产生logits

。经验上,

的范数和方向与(i)图像难度,(ii)类间边距以及(iii)分布偏移相关[13, 14, 5]。

逻辑尺度与置信度。对于线性分类器,池化 Token 的幅度是逻辑尺度的一个 Agent :

经验上(图2绘制了CIFAR-10/100的L2范数

与softmax置信度的关系),作者观察到一种清晰的单调趋势:

值较大的易分类图像倾向于过度自信;而

值较小的难分类图像则倾向于不足自信。单个后验温度

不可避免地只能校准这一光谱的狭窄部分,导致两端校准不准确。中等程度单调趋势(Pearson

,Spearman

)证实ViTs已经编码了样本难度;CalAttn通过公式2利用这一信号。

2.4 温度推理

picture.image

在测试阶段,作者执行一次前向传递:计算

,对logits进行划分,应用softmax。无需额外的调优或集成传递(参见算法1)。CalAttn的简洁性、微小的占位面积以及在ECE上的显著下降(表1)使其成为可信视觉Transformer的实用即插即用模块。

picture.image

3 实验

3.1 实验设置

数据集。CIFAR-10和CIFAR-100(50k/10k张图像,

)作为高方差、小数据集的设置,其中校准非常困难。为了扩展难度范围,作者还评估了ImageNet(Tiny)和MNIST的200类子集。

架构。卷积神经网络:ResNet-50/110、Wide-ResNet-26-10和DenseNet-121(约4M-23M参数)。Transformer:ViT_224[6]、DeiT-Small[7]和Swin-Small[8],以及Calibration-Attention均采用相同的主干网络并配备单个CalAttn模块。

训练。所有模型均使用SGD进行350个epoch的训练,权重衰减设置为

,动量为0.9。学习率在前150个epoch设置为0.1,接下来的100个epoch设置为0.01,剩余的epoch设置为0.001。作者保留了每个 Backbone 网络原始的数据增强和优化超参数。CalAttn在所有实验中均使用Eq. (5)中的

。未引入任何额外的技巧或搜索策略。

Baseline 。作者重新实现了七种流行的校准损失:权重衰减(WD)[4]、布里叶得分(BS)[15]、MMCE [16]、标签平滑(LS)[17]、FocalLoss-53 [18]、双Focal损失(DFL)[19]以及

[4, 20]。每个模型最终在5%的验证集上使用最优的后处理温度

进行微调,遵循Guo等人[4]的温度缩放概念,但采用Mukhoti等人[18]的网格搜索程序。具体而言,通过在验证集上对

进行网格搜索来选择

,基于最佳后温度缩放ECE。作者遵循先前公开的SOTA工作[22, 16, 18, 17, 19]中的随机种子设置。

指标。作者报告了四种互补的可靠性分数和可靠性图:ECE、AdaECE(自适应分箱)、Classwise-ECE(按类错误)和smCE [23](平滑ECE)。传统ECE依赖于离散分箱,这可能导致边界伪影、高方差或不连续性。smCE通过使用附录B中定义的基于连续核的方法来解决这些问题,其中

是一个1-Lipschitz函数类。这产生了一个更鲁棒、可微分的度量,以便进行公平的比较。

3.2 主要校准结果(ECE)

Transformer并非魔法。当两个系列都达到其最优

时,ViT/DeiT/Swin的ECE浮动在2.4-3.5%,仅略优于Wide-ResNet等激进CNN Baseline 。

CalAttn带来了最大的增益。在额外参数小于0.1%(表7)的情况下,ECE在已调优的Transformer Baseline 模型上降低了42-54%(CIFAR-100)和35-48%(CIFAR-10),并超越了所有

picture.image

针对CNN的校准损失。作者还对MNIST数据集进行了消融研究,比较了

加上和没有 CalAttn 的情况,结果显示其表现更优。

的敏感性 作者在CIFAR-100上对

进行扫描,分别针对CE+Brier(表14)和CE+Brier+CalAttn(表15)。虽然基础损失函数表现出轻微的变化,但CalAttn的性能在整个范围内基本保持平稳——

与最佳ECE结果相差0.6个百分点,表明CalAttn不依赖于

的微调。因此,作者固定

以避免额外的超参数搜索,并保持结果中的比较透明。

picture.image

picture.image

高置信度错误案例分析。作者以0.90置信度阈值测量高置信度假阳性(HCFP@0.90)和AUROC(表16)。CalAttn在CIFAR-100 Backbone 网络中始终将HCFP降低18%-71%,同时适度提升AUROC,表明它缓解了最危险的自信过度错误,而不仅仅是降低平均ECE。

picture.image

3.3 细粒度可靠性:AdaECE、smECE和Classwise-ECE

经典预期校准误差(ECE)通过固定直方图聚合可靠性;空置或高度倾斜的区间可能掩盖严重的局部校准问题。为获得更精确的评估,作者在表2中报告了平滑ECE(smCE),在表5中报告了自适应ECE(AdaECE),在表6中报告了类别ECE(ClasswiseECE)。平滑ECE。在CIFAR-100数据集上,CalAttn将smCE在ViT_224上从2.17%降低至1.45%(降幅33%),在DeiT_Small上从1.75%降低至1.17%(降幅32%)。最佳综合得分由Swinsmall+CalAttn以1.64%获得。自适应ECE。在CIFAR-10数据集上,ViT_224+CalAttn达到1.10%,将调优 Baseline 减半(降幅49%)。DeiT和Swin在两个数据集上均观察到35%-60%的可比增益。类别ECE。CalAttn在CIFAR-100上收敛至0.26%-0.29%,与最强大的CNN Baseline (Wide-ResNet,使用专用损失时为0.20%)持平或超越,同时新增参数少于0.1%(表7)。

picture.image

picture.image

3.4 可靠性图和Out-of-Distribution数据漂移的鲁棒性

校准增益的视觉证据。图3和图4补充了定量表1-2。对于每个主干网络,普通的模型(顶部行)表现出典型的Transformer *逆。

置信区间逐渐变得过度自信,低置信区间变得不足自信。添加CalAttn(紫色边框图)使直方图变得平滑,并在任何温度搜索之前将ECE和MCE分别缩小约

。这种效果在所有数据集上都是一致的,并且能够抵抗具有校准损失的CNN。OoD数据偏移的鲁棒性在附录I中提供。

picture.image

picture.image

3.5 对CalAttn输入特征和头类型的消融实验

作者研究了输入到CalAttn的特征向量的选择如何影响校准,同时保持所有其他设置(例如MLP深度、学习率、损失函数)不变。CLS(原始)。CalAttn接收最终的[CLS] Token

。Patch-mean。将[CLS] Token 替换为所有patch Token 的平均值,提供全局空间摘要。这种简单的改变将DeiT-S上的CIFAR-100 ECE从6.87%提高到

。Concat。将[CLS] Token 和patch-mean向量连接起来,将特征维度加倍到

,并按比例扩展后续层。尽管增加了容量,但这种变体在ViT-224上过拟合(ECE上升到11.56%),仅保留作为诊断 Baseline 。

总体而言,patch-mean变体在原始CLS设置下将CIFAR-100 ECE降低了3.6%,在CE+BS设置下降低了5.2%,且准确率没有损失。对于Swin模型,CLS/GAP特征仍然最优,这表明最佳校准线索取决于 Backbone 网络的池化策略。因此,作者推荐使用patch-mean对token级ViTs/DeiT进行校准,使用CLS/GAP对层次化的Swin模型进行校准。完整的数值结果在附录J中提供。作者还对不同类型的头进行了消融实验:在表13中展示了标量Head和Dirichlet α-Head的结果。

picture.image

3.6 在ImageNet-1 K上的结果

作者进一步在ImageNet-1K上评估CalAttn,进行350个epoch的微调,并与最近的校准 Baseline [25]进行比较。使用Swin-S作为 Backbone 网络,CalAttn将ECE从4.95%(CE+BS)降低至1.25%,相对下降75%——同时将高置信度误差(AECE)降低了20%,并在最强 Baseline 0.1 p.p.的范围内保持了top-1准确率。完整结果在附录J.1中提供。作者在附录J.2中也使用标准后处理温度缩放协议将CalAttn与最近的SATS[26]进行了比较。

  1. 讨论

4.1 解释 CalAttn 的收益

从隐藏温度计到可用温度。表1-6显示,在任何事后搜索之前,CalAttn将每个校准指标降低了40-55%。图3和图4中的可靠性图可视化了这一机制:过度自信一侧的bin被冷却(s>1),而不足自信一侧的bin被轻微锐化(s<1),从而产生几乎完美的对角线。由于该操作是保持秩的重缩放,因此top-1准确率保持不变(附录中的表8)。

picture.image

异方差视角。这种改进与第2.2节的噪声方差视角一致:CLS范数已经与每张图像的噪声相关;CalAttn只需从该线索中学习到正确的转换函数,并将其应用于最优温度。

4.2 Transformer与CNN校准

在最优标量

下,Transformer的所谓"校准溢价"几乎消失:在CIFAR-100数据集上,微调后的ViT-224的ECE指标为3.3%,与后处理缩放的Wide-ResNet-26-10(2.8%)相当。这种差距仅在允许实例级缩放时重新出现,表明仅靠架构本身并不能保证更好的校准效果;适应性才是关键。

4.3 CalAttn的时间行为

第一阶段 - 全局对齐(第0-30个epoch)。平均尺度从40缩小到4,变异系数(CV)则从0.35急剧下降至0.05。因此 Head 行为类似于经典温度缩放,迅速发现一个与后验最优值

高度匹配的值。

第三阶段 - 异方差自适应(第150-350个epoch)。当 Backbone 网络基本收敛后,CV稳步上升至

:CalAttn现在分配不同的温度,冷却过度自信的实例

并锐化欠自信的实例

。图5证实尺度分布变宽而CLS范数分布几乎保持稳定;因此 Head 在不扰动表征的情况下提取了额外的校准增益。

picture.image

总结。CalAttn首先复制最佳的全局

,然后学习实例级的偏差,这些偏差跟踪样本难度。因此,

在后期阶段的上升是理想的:它量化了 Head 异方差表达性,并与150个epoch后观察到的额外ECE降低相关(参见表1)。关键在于,平均值低于1表明其logits不仅仅是过度自信;某些类别受益于锐化,这是全局温度缩放无法捕捉到的。

5 相关工作

视觉Transformer及其衍生模型。开创性的视觉Transformer(ViT)表明,纯Transformer编码器——在自然语言处理领域长期占据主导地位——在训练于足够大的图像语料库时,能够媲美强大的CNN Baseline 模型[6]。其高昂的数据需求很快通过更强的正则化和知识蒸馏得到缓解;DeiT在ImageNet上达到了ResNet-50的准确率,且仅使用标准硬件和无需额外数据[7]。平行的研究工作解决了全自注意力机制的二次成本问题。Swin Transformer引入了移位窗口注意力和层级金字塔结构,成为用于密集预测的FPN的Transformer对应模型[8]。进一步的改进探索了分词[27]、轻量级混合[28]和位置先验[29]。然而,在这个快速扩展的家族中,推理流程仍然以固定的softmax层结束;因此,可信赖的置信度依赖于事后的校准。

Transformer分类器的校准。经典校准可追溯至Platt缩放[30],其现代继承者全局温度缩放(TS)仍然是社区的工作马[4]。早期研究集中于CNN,但Transformer校准的问题直到最近才获得关注。Minderer等人[5]报告ViT通常比CNN校准得更好,但仍受益于调整的

并在分布偏移下反转。已提出几种损失来规避全局温度 Bottleneck 。自适应焦点变体增加未校准样本的权重[18];标签平滑可以添加轻微的正则化信号[31]。双Focal Loss(DFL)扩大前两个logit之间的差距以减少过度自信[19];焦点校准损失(FCL)将Focal Loss与可微分的ECE替代品混合[11]。尽管有效,但这些目标依赖于固定的超参数,并且仍然对每张图像应用相同的尺度。集成方法也被提出以提高模型的校准和鲁棒性[32-35]。CTKD[36]和MKD[37]在教师-学生蒸馏期间调度动态温度以平衡硬目标和软目标。CSM[25]是一种基于扩散的重新标注策略,用于混合标签样本的校准。

CalAttn所解决的差距。现有方法要么 (i) 在训练后应用单一全局温度 [4, 16, 18, 26],要么 (ii) 规定静态损失超参数 [19, 11]。这两类方法均未明确建模样本间存在的异方差不确定性。作者的CalAttn模块从隐藏的CLS表示中学习实例级温度,可无缝集成到任何ViT风格 Backbone 网络中,并与任务损失联合训练——从而弥合了预测精度与可靠不确定性之间的剩余差距。CalAttn专为视觉Transformer(ViT, DeiT, Swin)设计,依赖于全局 Token (如[CLS])或等效GAP特征的存在。

6 结论

后验温度缩放仍然是解决神经网络误校准的主要方法,但其单一全局参数无法捕捉样本难度的广泛变化。CalAttn专为视觉Transformer(ViT、DeiT、Swin)设计,依赖于全局 Token (例如[CLS])或等效的全局平均池化(GAP)特征。作者尚未探索将其扩展到卷积神经网络(CNN)、混合CNN-ViT模型或非视觉模态。将CalAttn应用于没有显式全局 Token 的架构——例如通过学习空间池化方案——或应用于文本和多模态Transformer具有广阔的应用前景。

参考

[1]. Calibration Attention: Instance-wise Temperature. Scaling for Vision Transformers

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论