在线高斯自适应革新 OTTA 视觉语言模型！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

在线测试时自适应（OTTA）视觉语言模型（VLMs）近年来受到广泛关注，旨在利用观察到的数据流来改善未来的预测。遗憾的是，现有方法依赖于数据集特定的超参数，这极大地限制了它们对未见任务的适应性。

为此，作者提出了在线高斯自适应（OGA）这一新颖方法，该方法使用高斯分布来建模视觉特征的似然性，并将零样本先验纳入具有固定超参数的可解释最大后验（MAP）估计框架中。作者证明OGA在大多数数据集和运行中优于最先进的方法。

此外，作者还表明，将OTTA与流行的少样本技术相结合——这是先前研究中的一个实用但被忽视的设置——具有很高的益处。此外，作者的实验研究表明，常见的OTTA评估协议，即在每个数据集上平均最多三次运行的表现，由于所有OTTA方法在运行间观察到的巨大可变性，是不够的。

因此，作者主张采用更严格的评估实践，包括增加运行次数，并考虑额外的定量指标，如作者提出的预期尾部准确性（ETA），它是运行最差的I/O%的平均准确率。作者希望这些贡献将鼓励OTTA社区采用更严格和多样化的评估实践。

代码可在https://github.com/cfuchs2023/0GA上找到。

引言

视觉-语言对齐已成为一种强大的范式，可用于预训练模型，这些模型能够处理各种下游任务，且在少量或没有 Token 数据的情况下也能胜任。如CLIP[19]这样的对比方法通过联合优化视觉编码器和文本编码器来学习可迁移的视觉表示，从而对配对图像和标题的表示进行对齐。这使创建图像分类器成为可能，而无需重新训练模型，只需使用类别的文本描述。随后，分类过程仅仅依赖于测量文本特征与图像特征之间的相似度，从而实现零样本预测。这已经在广泛认可的监督学习基准，如ImageNet[3]上展示了令人印象深刻的零样本性能。这一成功激励了对适应视觉-语言模型（VLMs）以处理未见任务的方法的研究，从而绕过了重新训练模型的需求，无论是通过 Prompt 优化[20, 32]、低秩适应[26]还是在嵌入空间中的 Adapter 。这些后一种方法特别引人关注，因为它们不需要访问模型权重——被称为黑盒方法——这使得它们适用于基于API的应用。

自然地，测试时自适应（TTA）范式在视觉-语言社区中引起了广泛关注，旨在利用未标注数据进一步改进这些性能。值得注意的是，TTA通过需要为每张图像编码大量增强视图的方法[20, 27]或依赖于需要相对较大数据批次以发现实例之间模式的自归纳设置[8, 15, 28]得到应用。当TTA在在线设置中被采用时，这些限制可以得到克服，在这种设置中，数据以至少一个小批量的形式到达，并且有保留从一批到下一批信息的能力。最近的工作，如TDA[9]和DMN[31]，利用迭代更新以接收数据的缓存模型。然而，它们的性能强烈依赖于复杂预测规则中的某些关键超参数，这些超参数必须针对每个下游任务进行特定调整。这一观察并非新发现，最近在一项关于少量样本设置中相关基于缓存方法[30]的研究[21]中被强调。为了缓解这一重要的实际部署问题，作者提出了在线高斯自适应（OGA），该模型用多元高斯分布来模拟观察到的视觉特征的似然性，并将它们与零样本先验相结合，从而产生一个原则性和可解释的最大后验（MAP）预测规则（无需调整超参数）。如图1和表1所示，作者的方法实现了优越的性能。

picture.image

此外，作者的研究显示，尽管在线测试时自适应（OTTA）方法在视觉语言模型（VLMs）中越来越受欢迎，但它们缺乏严格且相关的评估框架。例如，TDA[9]和DMN[31]最多使用三个随机种子来评估性能，尽管图1和表1展示了随机运行间测量的准确率存在显著差异。作者提出通过更多运行来测量平均准确率，以减轻数据流生成随机性引起的比较变异性。此外，作者认为平均准确率指标不足以准确比较方法，因为它未能考虑尾部风险，即方法可能在少数运行中表现出显著较低的准确率。这种行为可能会使该方法在实际应用中不受欢迎。因此，作者建议报告另一个指标，作者称之为预期尾部准确率（ETA）。ETA代表低于下10%百分位的平均准确率，捕捉了最坏情况下的性能。

贡献。作者将作者的贡献总结如下：

作者提出了一种名为在线高斯自适应（OGA）的OTTA方法，该方法通过多元高斯分布来建模观测到的视觉特征的概率，并将这些概率与零样本先验结合，形成一种优雅的最大后验（MAP）预测规则，该规则在所有数据集上具有固定的超参数。作者的方法表现出强劲的性能，适应黑盒框架，并且计算效率高。
与先前的研究相似，作者报告了将OTTA方法应用于零样本视觉语言模型（VLM）时的性能。在大多数数据集和运行中，OGA优于最先进的方法。此外，作者还在流行的少样本方法之上进行了方法比较，这是一种将离线少样本学习与高效的在线自适应相结合的非常便捷的方式，这在OTTA中迄今为止被忽视。
最后，作者主张在该领域采用更严格的评估程序，强调需要进行多次运行以考虑变化性，并引入期望尾部准确率（ETA）作为评估最坏情况场景性能的指标。
相关研究工作

VLMs的微调。区分微调方法的主要设计选择是他们调整的参数集，包括输入文本 Token [7, 13, 20, 32]、隐藏层[26]、文本或视觉编码器输出处的附加参数[5, 25]、作为记忆库的 Adapter [9, 30, 31]。其他方法直接在嵌入空间中操作，例如使用模式寻找算法[27]。文献中有时被称为黑盒方法的这类方法之一，无疑是基于缓存的微调方法。这些方法源自Tip-Adapter的早期工作[30]，该方法明确地将零样本预测的logits与从记忆库中导出的相似度得分相结合。黑盒方法的其他显著进展包括最近在少样本学习和归纳设置中高斯建模的成功[23, 28]。这两种方法都在嵌入空间内直接细化类表示，将它们建模为多变量高斯分布的平衡混合。受相关领域最近发展的启发，作者提出使用多变量高斯分布来建模观察到的视觉特征的似然性。然后，作者使用从这些似然性以及零样本先验中获得的后续概率，得出一个既可解释又符合数学原理的最大后验（MAP）预测规则。

测试时自适应的VLMs。当前TTA方法的主要区别在于它们处理输入数据的方式。其中一组方法在测试时对单个图像进行数据增强，例如TPT[20]，它依赖于为每个图像进行 Prompt 优化。MTA[27]避免了 Prompt 调整，并优化了一个受均值漂移启发的目标函数。然而，这些方法显著增加了计算需求。在归纳学习中，无监督学习的另一分支，VLMs直接自适应于测试数据。例如，EM-Dirichlet[15]直接在预测空间中优化Dirichlet分布的最大似然估计器。ZLaP[8]提出基于每个实例表示的相似性图传播零样本标签。TransCLIP[10, 28, 29]建议在类似于期望最大化目标函数的Kullback-Leibler散度项中添加基于文本的正则化。这些方法的一个主要缺点是它们依赖于相对较大的批量大小，并且需要在批量内多次抽取同一类的样本，以有效地利用实例之间的关系。

在线测试时自适应变长模型（VLMs）。OTTA方法将输入数据视为一个流，从一批数据中保留信息到下一批数据。一项初步工作是[13]，尽管它不适合黑盒框架，并使用了一种计算成本高昂的策略，结合了 Prompt 调整和增强。近期的研究通过维护一小部分精选样本的缓存来迭代改进预测规则，为这些问题提供了一个非常高效的解决方案。值得注意的例子是TDA[9]和DMN[31]，它们都使用类似的极小熵滤波策略来填充它们的缓存，并且预测规则直接受到了Tip-Adapter的启发。然而，这些方法依赖于难以为每个新基准调整的超参数。相比之下，作者的方法简单实用，仅使用一个可解释的超参数来加权学习到的似然度。

前言

为了理解近期针对视觉语言模型（VLMs）的适应方法，作者首先定义了分类流程的核心组件。在基础层面，VLM将图像和文本描述编码到一个共享的嵌入空间中，从而实现比较和对应。这些描述被 Token 为文本输入

，其中

（K为类别数量），随后通过文本编码器转化为单位超球面上的归一化嵌入

。图像

（其中

）由视觉编码器处理，生成嵌入

，其中

是嵌入空间的维度。这些嵌入也被归一化，位于单位超球面上，便于直接比较图像和类别描述。利用这个共享嵌入空间，文本和视觉表示之间的余弦相似度

成为分类任务的基础。

零样本预测。在零样本设置下部署视觉语言模型（VLMs）是执行下游任务最简单和最直接的方法之一，它利用了文献[19]中描述的预训练过程。为了对图像进行分类，使用余弦相似度来衡量图像嵌入与每个类别嵌入之间的相似度，从而生成logit得分。

这些对数似然可以通过softmax函数转化为概率预测，该函数计算给定测试图像

的类别

的后验概率。

其中

是控制概率分布锐度的 softmax 温度参数。图像

可以通过选择具有最高后验概率的类别来进行分类：

。

少样本适应。当可用的样本很少时，它们可以用来在文本嵌入空间中学习更丰富的类别表示。这可以通过以下方式实现：（i）通过微调输入 Prompt （以最小化在少量可用样本上计算的交叉熵损失），如在 CoOp [32] 等 Prompt 微调方法中；或者（ii）通过更新一组称为 Adapter 的额外参数 [30]，通常直接在模型的输出处更新，如 TaskRes [25]。相应地，作者有：

在本文中，

表示可训练的文本 Token ，

是固定的类别 Token ，

是按类别学习的参数，

是一个缩放超参数。请注意， Prompt 微调在微调过程中会带来沉重的计算负担，并且可能难以优化，因为每次文本输入的梯度更新都需要在整个模型中进行反向传播。值得注意的是，作者的方法与少样本学习社区中的这些进展是正交的。实际上，作者表明所提出的OGA和其他OTTA方法可以应用于这些进展之上（参见表3中的CoOp和TaskRes），提供了一种非常方便的方法，其中少样本监督学习是离线进行的（可能涉及大量计算），进一步的适应则通过在线使用高效的OTTA方法来完成。

缓存模型。首次使用缓存进行VLMs自适应的成果之一是Tip-Adapter [30]，它存储了少量样本。在其无需训练的版本中，它直接利用缓存进行最终预测，通过结合零样本相似性和缓存相似性来计算自适应的logits。

在本文中，

表示存储在缓存中的第

类第

个样本，

和

为超参数。该自适应函数后来被TDA[9]在线设置中使用。请注意，与Tip-Adapter不同，TDA依赖于伪标签而不是真实标签，因为它专注于零样本自适应。基于Tip-Adapter的这些方法的一个主要缺点是它们依赖于关键超参数（

和

），这些参数必须为每个下游任务仔细调整[21]。这是通过在验证集上进行密集搜索来实现的，需要额外的 Token 样本，这降低了它们对新任务的适用性。作者的OGA方法通过下一节中解释的原理性MAP预测规则解决了这一限制。

在线高斯自适应

本节介绍了作者提出的改进预训练视觉语言模型零样本能力的方法，该方法基于一组已知类别的高置信度样本所捕获的知识。在在线环境中，这些样本会沿着数据流持续收集，用以填充并更新缓存内存。在实践中，作者选择零样本预测熵最小的样本，即那些被零样本分类器可靠标注的样本。选定的样本随后被用来估计图像特征类别条件似然性的模型，即作为多元高斯分布。似然性随后与零样本预测相结合，作为先验，使用从贝叶斯公式导出的预测规则来估计新样本的类别后验。此过程中的主要步骤——即类别后验估计、高斯参数估计和可靠样本的在线选择——将在下文详细阐述。

高斯建模。高斯混合模型（GMM）已被成功应用于视觉语言模型（VLMs）的无样本和少量样本自适应[23, 28]。作者采用此框架来对基于类别的图像特征似然进行建模。因此，对于与图像

相关的特征

，作者有

，它遵循具有共享协方差

的多元正态分布。形式上，

是精度矩阵

的估计值，即伪贝叶斯自适应规则。作者提出的自适应规则来源于贝叶斯法则给出的类别后验概率。这个后验概率可以表述为：

在没有关于类别概率的先验知识的情况下，通常将先验概率

选择为

，以将特征分布建模为多元正态分布的平衡混合。然而，在VLMs（可变长度模型）的情况下，作者提出利用零样本预测中获得的知识，通过使用软标签

作为先验，这导致

有趣的是，作者可以指出，等式（7）为每个样本提供了一个最大后验概率（MAP）估计器。为了更好地控制初始零样本预测被高斯似然度修改的程度，作者引入了一个超参数

。

作者在所有数据集中使用相同的固定值

，并在作者的消融研究中探讨其对结果的影响（见图3）。

picture.image

高斯参数更新。每当缓存内存更新时，作者也会更新高斯参数。首先，第

类的质心

被更新为缓存样本的平均值。然后，使用缓存样本更新共享协方差矩阵。

在缓存中，

代表样本总数，

代表类别

的第

个缓存样本。请注意，由于作者每个类别存储的样本数量相对较少（通常不超过8个），用于估计

的样本总数可能低于或与嵌入空间维度

的数量级相当。因此，当作者缓存中的样本数量少于

时，作者使用 [12] 中提到的 BayesRidge 估计器，其表达式如下：

当缓存中的样本数量超过

时，作者转而使用

的逆作为

。更详细的信息可以在表5的消融研究中找到。

picture.image

在线样本选择。与[9]类似，样本根据其零样本熵被选中以填充缓存。更具体地说，作者计算单个样本的零样本标签作为其零样本软熵，即

，如果这个熵低于与其伪标签匹配的类别中至少一个缓存样本的熵，作者就用这个新的样本替换具有最高熵的缓存样本。随着模型遇到新的数据，这个过程为每个类别构建一个低熵缓存。

实验设置

数据集。作者遵循先前研究[32]的设置，使用ImageNet[3]以及10个其他数据集：SUN397[24]用于场景的细粒度分类，Aicraft[14]用于飞机类型的分类，EuroSAT[6]用于卫星图像，StanfordCars[11]用于汽车模型，Food101[1]用于食品项目，Pets[18]用于宠物类型，Flower102[16]用于花卉种类，Caltech101[4]用于各种一般目标，DTD[2]用于纹理类型，以及UCF101[22]用于动作识别。

零样本模型。作者在所有实验中使用了CLIP与ViT-B/16视觉架构。

数据流生成。作者从每个数据集的测试集中生成独立同分布（i.i.d.）的数据流，然后以32个批次的规模在整个数据流上运行该方法。对于每个数据集，方法在相同的100次运行中进行比较。在作者的消融研究中，作者在表6中提供了针对批次大小为1、64和128的作者方法进一步的实验结果。

picture.image

竞争对手。作者将作者的方法与OTTA领域内两种最新的最先进工作进行了比较，分别是TDA（CVPR*24）[9]和DMN（CVPR '24）[31]。为了保证公平性，作者对每种方法都使用了相同大小的总缓存，即8K个样本，其中K是类别的数量。对于TDA，每个类别的正面缓存大小为5，而负面缓存大小设置为3。

数据增强。作者注意到，在特定环境中，作者的竞争对手使用了许多计算成本较高的增强方法。鉴于作者不打算包含这样的高成本计算，因此在进行竞争对手方法测试时，作者也没有使用增强方法，以便在相同的计算成本下进行比较。请注意，作者还报告了非在线TTA方法MTA[27]的结果，该方法为了信息目的依赖于每张图像的多个增强。

Prompt 词。首先，作者展示了在零样本模型基础上应用（i）手工制作的 Prompt 词（见表7a（补充材料））和（ii） Prompt 词集成（见表7b（补充材料））时的结果。然后，作者比较了在少量样本适应模型基础上运行的方法，包括（i） Prompt 词调整方法

[32] 和（ii） Adapter 方法 TaskRes [25]。这一全面的基准测试突显了OTTA方法及其在特定场景下，尤其是OGA的广泛适用性。作者旨在激发其他研究工作在未来的研究中采用类似的广泛基准测试方法。

超参数。作者的方法依赖于超参数

（见公式（8））。为了实现泛化，作者在所有数据集上使用相同的固定值

。作者将在第7节中探讨其影响。

评估指标。作者报告了100次运行的平均准确率，以减轻由于数据流生成过程中的随机效应导致的比较变异性，这在以前的研究[9, 31]中并未考虑，尽管如图1和表1a所示，结果存在变异性。此外，作者认为后者指标不足以准确比较方法，并且对尾部风险不稳健，在少数运行中，方法可能显示出较低的准确率。这可能导致在实践中的方法不受欢迎。因此，作者引入了一个指标，作者称之为期望尾部准确率（ETA），即在最差的10%情况下的平均准确率，即，

在本文中，

表示第

次运行的准确率，而

代表下10%分位数，并报告这一附加指标。需要注意的是，作者的方法并未包含针对这些最坏情况准确率的具体设计选择，作者只是提倡更好的性能报告实践。

结果与讨论

在零样本领域。表1a显示，在100次运行的平均值上，OGA在11个数据集中有9个的表现优于OTTA竞争对手。对于剩下的两个数据集，作者的方法仍然位列第二。请注意，每种方法都是使用每个数据集相同的100次运行进行测试的，并且作者对所有数据集都使用了相同的固定超参数。总体而言，这证明了作者方法的有效性。现在，作者根据作者提出的指标ETA来分析结果。注意，在表1a和1b中，在几个数据集（ImageNet、SUN397、StanfordCars、Pets）上，作者方法的ETA值高于作者竞争对手的平均准确率，即作者方法最差的10%的运行结果仍然高于竞争对手的平均水平。

此外，还提供了每种方法和每个数据集100次运行的标准差。作为参考，作者提供了tl，它依赖于增强技术，即MTA[27]。

作者报告了每种方法和每个数据集在10次最差运行中的平均准确率，即 ETA（公式11）。

此外，表1a显示所有方法的估计时间（ETA）均低于CLIP在Aircraft数据集上的零样本性能，表明它们相当频繁地达到低于零样本的性能。这种分解展示了ETA在提供对结果更深入洞察方面的价值。作者还报告了一种非在线的最新时态测试（TTA）方法MTA[28]的准确率，该方法依赖于输入图像的多种增强，并且不保留样本信息。这展示了将TTA问题置于在线环境中可能带来的高度益处，一个引人注目的例子是在EuroSAT上的准确率提高了超过15个百分点。同时，图2显示了OGA在每个数据集上比TDA和DMN实现更高准确率的运行百分比。观察发现，对于5个数据集（ImageNet、SUN397、StanfordCars、Pets和UCF101），作者的方法在所有100次测试运行中均比TDA实现更高的准确率。与DMN相比，作者的方法在6个数据集（ImageNet、SUN397、Aircraft、StanfordCars、Food101、Pets）的所有运行中都实现了更高的准确率。最后，作者在相同的设置下比较了三种方法，但使用了表7b（补充材料）中的 Prompt 集合并，如表2所示。在这个实验中，作者的方法在11个数据集中有8个排名第一，在剩下的3个数据集中排名第二。因此，作者的方法对用于零样本预测的 Prompt 变化具有鲁棒性，这一点在下一段中得到进一步证实。

picture.image

基于少量样本的适应性的改进方法，该方法向定义类别的文本中添加可学习的 Token （参见方程式？(b) TaskRes [25]是一种流行的 Adapter 方法，它向每个类别的文本嵌入中添加偏差（参见方程式？）。

在基于少样本学习的方法之上。在表3中，作者报告了使用两种流行的少样本适应方法的实验结果。对于CoOp（表3a），一种 Prompt 学习方法，作者的方法取得了最大的提升，在1次样本设置下，平均比11个数据集中的8个表现更好，在4次样本设置下，比11个数据集中的10个表现更佳。对于TaskRes（表3b），一种 Adapter 方法，作者的方法同样实现了最高的整体准确率提升，在1次样本设置下，11个数据集中的8个排名第一。在4次样本设置下，作者的方法在11个数据集中的6个上实现了最高准确率。有趣的是，作者观察到在几乎所有的数据集中，少样本适应方法都降低了OTTA方法的变异性。最后，作者看到在绝大多数情况下，OTTA方法优于少样本适应模型，这证明了在适应模型之上使用OTTA方法的好处。

消融研究

似然加权超参数

。作者的方法在所有实验和数据集上使用相同的固定超参数

（见公式8）。它控制高斯似然分布偏离均匀分布的程度。因此，当

时，作者的MAP退化为零样本先验。随后，预期在高斯建模不佳时（例如，在运行初期），

的更高值是有害的。图3展示了作者选择超参数本质上是在减轻早期过渡效应（当缓存为空或填充了质量较差的样本时）和终点准确性之间进行权衡。这一有趣的观察结果可能为通过设计一个基于缓存状态的自适应规则来改进作者的方法铺平道路。

在表4中，作者展示了不同缓存大小的结果，即每个类别中缓存样本的最大数量。这说明了缓存大小在多样性与含有错误标签样本的污染之间是一种权衡。

picture.image

精确矩阵估计。作者表明，根据缓存中的样本数量使用不同的估计器是有益的。为此，作者仅使用Ridge估计器或仅使用（伪）逆矩阵来运行作者的方法，并在表5中展示结果。

批大小。在所有实验中，作者以每批32个样本的批次处理数据流。在表6中，作者展示了作者的方法能够逐个样本地处理数据流，并且随着批次的增加，这种方法更有益。这后者的原因在于，当批次大小增加时，基于缓存的策略在预测之前更新缓存，填充高质量样本的速度更快。请注意，与32个样本批次中的竞争对手相比，作者的方法在单个样本批次中仍然实现了更高的平均准确率。

结论

在本研究中，作者提出了在线高斯自适应（OGA）方法，用于VLMs的在线测试时自适应。作者的方法通过收集数据流中的低熵样本，对视觉特征的类条件似然性进行建模，并使用多元高斯进行估计。作者使用严格的评估协议，该协议受到运行间测量精度显著变化的影响，将作者的方法与最先进的方法进行了比较。

通过每个数据集进行100次运行，并使用作者提出的预期尾部准确性（ETA）指标，该指标能够捕捉最坏情况下的性能，作者证明了作者的方法在数据集之间具有固定超参数的强大性能。最后，作者展示了在少量学习方法（无论是 Prompt 调整还是 Adapter ）之上应用OTTA方法的高度益处。作者希望作者的工作能够鼓励OTTA社区采取更严格和多样化的评估实践。

未来工作。正如作者在消融研究中所指出的，一个值得探索的有趣方向似乎是设计一个自适应规则来调整作者的超参数

（方程式8），该规则取决于缓存的状态，以及零样本先验或少量样本适应性的强度。

参考

[1]. Online Gaussian Test-Time Adaptation of Vision-Language Models .

在线高斯自适应革新 OTTA 视觉语言模型 ！

参考