SLDC:融合潜在空间转换与知识蒸馏的分布漂移补偿策略提升视觉Transformer类别增量学习性能!

大模型机器学习算法

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Image

近期研究显示,对预训练视觉Transformer(Vision Transformers, ViTs)进行序列微调(Sequential Fine-Tuning, SeqFT),并结合类别特征近似分布进行分类器精炼,是一种有效的类别增量学习(Class-Incremental Learning, CIL)策略。然而,该方法易受分布漂移(distribution drift)的影响,这是由共享主干网络参数的顺序优化所导致。这使得先前学习类别的特征分布与更新后模型的分布之间产生不匹配,最终导致分类器性能随时间逐渐下降。

为解决这一问题,作者提出一种潜在空间转换算子,并引入序列学习漂移补偿 (Sequential Learning with Drift Compensation, SLDC)。SLDC旨在通过任务间特征分布对齐,缓解漂移带来的负面影响。

首先,作者提出SLDC的一个线性变体,通过求解一个正则化最小二乘问题,学习一个线性算子,用于映射微调前后的特征。随后,作者进一步扩展为一种弱非线性SLDC变体,该变体假设理想的转换算子位于纯线性与完全非线性变换之间。该方法通过可学习的弱非线性映射实现,兼顾了模型的灵活性与泛化能力。为进一步降低表示漂移,作者在两种算法变体中均引入知识蒸馏(Knowledge Distillation, KD)机制。

在标准CIL基准上的大量实验表明,SLDC显著提升了SeqFT的性能。值得注意的是,通过结合KD以缓解表示漂移,以及SLDC以补偿分布漂移,SeqFT在所有评估数据集上均达到了与联合训练(joint training)相当的性能水平。

代码:https://github.com/raoxuan98-hash/sldc.git

  1. 引言

近年来,利用预训练模型(Pre-trained Models, PTMs)丰富的表征能力(Zheng et al. 2023; Li et al. 2024; Zhou et al. 2025)将持续学习(Continual Learning, CL)应用于这些模型,引起了越来越多的关注。研究表明,对预训练视觉Transformer(Vision Transformers, ViTs)的Backbone进行顺序微调(Sequential Fine-Tuning, SeqFT),随后利用类别级深度特征的近似分布对分类器进行优化,是一种有效的类别增量学习(Class Incremental Learning, CIL)策略(Zhang et al. 2023, 2024; Marouf et al. 2024)。值得注意的是,与引入任务特定轻量级 Adapter 模块以缓解新任务干扰的方法不同(Li et al. 2024; Wang et al. 2025),SeqFT在计算效率上更具优势,因为它无需进行任务识别(Zhang et al. 2024; Marouf et al. 2024)。

然而,共享参数的顺序优化不可避免地引入了表示漂移(representation drift),导致先前类别的学习分布与更新后模型的分布之间产生不匹配。

与以往通过知识蒸馏、模型集成和梯度投影等方法缓解分布漂移的工作不同(Zhao et al. 2024;Xiao et al. 2023;Lu et al. 2024),作者的工作从一个新颖的视角出发,专注于在表示漂移发生后补偿其负面影响。为此,作者致力于建模连续任务之间特征空间中发生的变换。具体而言,捕捉特征映射函数在任务适应过程中演变方式的隐空间转换算子定义为:

定义 1(隐空间转移算子)。隐空间转移算子是一个映射

,其中

为(此处)基于神经网络的特征提取器(例如 ViT 的 Backbone),分别将输入空间

中的输入映射到任务

和任务

下的

维特征空间。

理想情况下,当近似分布为多元高斯分布时,算子

能够将前一特征空间中的的一阶矩(均值)和二阶矩(协方差)传播到新的特征空间,从而在表示漂移的情况下仍能实现分类器的一致性优化。然而,学习精确的算子

通常需要访问整个输入空间

(例如归一化的 RGB 空间),而在无需示例的持续学习(exemplar-free CIL)设置中,先前数据无法被保存,因此该条件不可满足。为克服这一限制,作者提出一种实用的近似策略,仅利用当前任务数据

以及冻结的模型

来估计

因此,本文提出了带有漂移补偿的顺序学习(Sequential Learning with Drift Compensation, SLDC)方法。首先,作者提出了

-SLDC 方法,该方法通过在

上求解模型

的深度特征之间的正则化最小二乘问题,学习一个线性算子。实验结果表明,该线性算子能够适当补偿分布漂移,但在预测优化后的深度特征时仍会产生较大的预测残差,这表明需要引入非线性映射。然而,直接采用多层感知机(multilayer perceptrons, MLPs)等流行的非线性变换会导致过拟合,且生成的分布精度反而低于线性算子所得到的结果。

受这些经验观察的启发,作者假设理想的算子近似介于纯线性变换与完全非线性变换之间。相应地,作者通过构建一种弱非线性变换来学习转移算子,提出了

-SLDC 方法。在

-SLDC 方法的基础上,进一步通过知识蒸馏(Knowledge Distillation, KD)约束模型的表示更新,发展出增强蒸馏的 SLDC 变体方法

值得注意的是,评估结果表明,将知识蒸馏(用于保留先前知识)与SLDC(用于补偿分布漂移)相结合,使得基于PTM的CIL方法的性能几乎与联合训练(即同时使用所有训练数据训练模型)相当,后者可被视为CIL最优性能的经验上限(Sun et al. 2025)。在两个PTM和四个不同数据集上,SLDC在10任务CIL场景中实现了与联合训练近乎持平的性能,准确率差异在

之间,充分证明了所提方法的有效性。其主要创新贡献包括:

  1. 提出了一种基于学习的转移算子(transition operator)的新型持续学习(CIL)方法,该算子能够建模特征空间在连续任务间的演化过程。
  2. 基于线性与弱非线性变换,分别设计了两种新型可学习的转移算子:

-SLDC 与

-SLDC,以及其增强型蒸馏变体

-SLDC。所yinqin-Transformers可有效实现,并与现有方法无缝集成。

方法论 基于SeqFT的CIL:预训练ViT与分类器精炼

CIL形式化。训练数据集的序列为

,其中第

个数据集为

。每个

包含

个输入样本

及其对应的标签

,其中

表示共享的输入空间,

表示任务

的标签空间。具体而言,对于

,有

。截至任务

所观察到的类别累积集合记为

ViT 架构。ViT 定义为

,其中

为预训练的 Backbone,

为线性分类器,

表示所有可训练参数(Dosovitskiy et al. 2021)。在本文中,作者采用

的配置,并使用低秩适应(LoRA)(Hu et al. 2022; Zhang et al. 2024)对 ViT 的 Backbone 进行微调,因此

表示 LoRA Adapter 的参数。

对于任意标签子空间

(例如

),ViT 的 softmax 输出为

其中

。在任务

中,模型通过最小化任务特定的交叉熵损失进行训练。

其中

表示批量大小(batch size)。

后训练分类器精炼。在任务

的训练过程结束后,对于每个新类别

,作者假设其在 PTM 映射

下的深度特征服从高斯分布,其深度特征分布近似为

其中

表示样本

在类别

下的特征。令

表示截至任务

的所有高斯分布的集合。在学习每个新任务后,通过

生成的合成样本以事后(post-hoc)方式对分类器进行优化,以改善跨任务的决策边界。

其中

,且

表示分类器在

上的 softmax 输出。

SLDC 用于分布漂移补偿

线性

的推导。

通过求解归一化特征之间的最小二乘问题来估计线性转移算子。具体而言,设

分别为

的列向量

-归一化版本。通过求解正则化的最小二乘问题,得到用于近似

的线性算子

其中

为正则化系数,

为单位矩阵。此外,在某些情况下,特定任务的样本数量

过少,难以对线性算子进行稳健估计。为避免此问题,作者基于样本复杂度采用一种启发式重加权过程对

进行正则化。

其中

分别为权重系数和温度系数。

获得

后,通过以下方式对先前任务类别

的高斯分布进行补偿:

当新任务到达时,此过程会递归应用。在附录中的陈述1中,证明了上述更新公式遵循高斯分布线性变换的闭式解。

弱非线性

-SLDC 的推导。尽管

-SLDC 中的任务特定线性算子

在一定程度上能够缓解分布漂移问题,但预测特征与实际特征之间仍存在残余误差。虽然非线性 MLP 可以缓解欠拟合问题,但其容易产生过拟合,且生成的变换后分布精度低于线性变换。

基于这些经验观察,作者假设基于SeqFT的CIL方法在预训练ViT模型下的理想转移算子

介于纯线性与完全非线性变换之间,即

为弱非线性。

受该假设的启发,提出了

,通过定义弱非线性变换来实现。

具体而言,

是满足

的可学习贡献系数。特别地,作者将

实例化为一个可学习矩阵,将

实例化为一个具有 ReLU 激活函数的两层 MLP。为了优化

,定义了一个正则化优化目标:

其中

是控制非线性

贡献的正则化项。

在实际应用中,

的优化过程通过梯度优化器实现端到端训练,具体的训练细节将在实验部分介绍。具体而言,在陈述3和陈述4中,基于神经正切核(Neural Tangent Kernel, NTK)理论(Jacot, Gabriel, and Hongler 2018),给出了关于转移算子特性的若干理论结论。

在获得弱非线性变换

后,采用蒙特卡洛采样来估计先前类别

的更新高斯分布。具体而言,对于每个类别

,作者从其原始高斯分布

中生成

个合成样本。

然后这些样本通过弱非线性变换进行补偿。

此后,对于

,均值

和协方差

通过使用 (13) 中的变换样本重新计算 (3) 和 (4) 进行补偿。最后,在执行分类器精炼之前,

中旧类别的分布被更新后的分布所替换。

蒸馏增强型SLDC变体。通常情况下,对于ViT主干网络的无约束优化会使SeqFT在CIL任务中的性能对多个超参数(如批量大小、学习率和调优轮数)非常敏感。针对这些问题,通过引入基于特征的蒸馏损失,提出了

的蒸馏增强型变体,即,

此外,还考虑了一种正则化损失,以保持特征向量的

-范数。

因此,优化

-SLDC 中的 ViT 主干网络的总体损失为

其中,

为平衡系数。特别地,作者将

分别称为增强型

SLDC 变体。在后续章节中,作者也将 SeqKD 称为增强型 SeqFT。

通过辅助无标签数据改进算子估计。在某些场景下,数据集规模有限以及样本多样性不足可能导致转移算子的近似不准确。为应对这一挑战,本文提出辅助数据增强(Auxiliary Data Enrichment, ADE),通过利用来自任意来源的无标签辅助数据来提升预测性能。关键在于,ADE 不需要标签数据,且与无范例持续学习(exemplar-free continual learning, CIL)框架保持一致,因为它不保留任何来自先前任务的任务相关数据。

相关工作

基于应对表征漂移的策略,现有的基于ViT的持续学习(CIL)方法可分为四类。

第一类方法为每个新任务优化特定任务的 Adapter (adapter),并在推理阶段根据测试样本的特性选择合适的 Adapter (Wang et al. 2025; Li et al. 2024)。通常,这类方法将预测过程分解为两个层次阶段:即任务身份预测(task identity prediction)和使用相应 Adapter 进行的类别内标签预测(within-task label prediction)。然而,这些方法严重依赖任务身份预测的准确性,由于需要多次前向传播,导致计算开销较高,并且 Adapter 的存储需求随任务数量呈线性增长。

第二种方法通过使用降低学习率、知识蒸馏、模型合并或梯度投影等技术,在多个任务间共享主干网络(backbone)或轻量级 Adapter (adapter),以缓解灾难性遗忘问题(Zhang et al. 2023;Gao et al. 2023;Marouf et al. 2024;Lu et al. 2024)。例如,带有分类器对齐的慢学习方法(Slow Learner with Classifier Alignment, SLCA)通过降低ViT主干网络的学习率来保留预训练知识(Zhang et al. 2023)。后续改进方法如持续模型平均(Continual Model Averaging, CoMA)和持续Fisher加权模型平均(Continual Fisher-weighted Model Averaging, CoFiMA)通过融合当前模型与历史模型的参数来提升SLCA的性能(Marouf et al. 2024),其核心思想是按比例对当前模型与历史模型进行加权平均,从而增强SLCA的稳定性与表现。

进一步在SLCA中引入轻量级 Adapter ,仅需极少的参数优化即可达到与原始方法相当的性能(Zhang et al. 2024)。然而,这些方法仍难以避免因持续优化带来的表征漂移(representation drift)问题。

第三种方法结合了多个共享 Adapter 与实例级特征适配。Learning to prompt (L2P) 使用固定的 Prompt 池(prompt pool)和可学习的 Query 向量(query vectors),根据样本特征动态选择 Prompt (Wang et al. 2022b)。DualPrompt 在 L2P 的基础上引入了额外的任务特定 Prompt (task-specific prompts)(Wang et al. 2022a),而 CODA-Prompt 则采用输入相关的键值机制(input-dependent key-value mechanism),以实现更细粒度的 Prompt (Smith et al. 2023)。

第四类方法冻结预训练模型(PTM),仅利用预训练特征。首次会话适应(First Session Adaptation, FSA)仅在首个任务中优化PTM,并通过增量线性判别分析(Incremental Linear Discriminant Analysis, LDA)实现无示例类增量学习(exemplar-free CIL)(Panos et al. 2023)。RanPAC通过使用非线性ReLU映射将ViT特征投影到10,000维空间,进一步提升了FSA的性能(McDonnell et al. 2023)。LayUP通过拼接多个特征层的输出,进一步增强了RanPAC的性能(Ahrens et al. 2024)。

除了基于PTM的CIL方法外,还有一些方法旨在缓解CIL过程中的分布漂移问题(Yu et al. 2020;Gomez-Villa et al. 2024)。例如,AddGauss通过使用非线性映射调整类别协方差矩阵来缓解任务新近性偏差(Rypes´c et al. 2024)。同时,DPCR利用线性任务特异性语义漂移投影和类别信息投影来量化特征空间中的语义漂移(He et al. 2025),DS-AL则基于递归最小二乘法构建了一个分析型增量分类器(Zhuang et al. 2024)。值得注意的是,SLDC方法借鉴了AddGauss的思路,研究了在基于PTM的CIL研究背景下,线性、弱非线性和非线性变换的有效性。

实验评估

基准测试。为了全面评估持续学习(CIL)性能,作者在四个广泛使用的基准数据集上进行了实验,即 CIFAR-100(Krizhevsky 和 Hinton 2009)、ImageNet-R(Hendrycks 等 2021)、CUB-200(Wah 等 2011)和 Cars-196(Krause 等 2013)。每个数据集均被均匀划分为 10 个互不重叠的任务,且不强调任何特定类别。CIFAR-100 包含 100 类自然图像,每类有 500 个训练样本。ImageNet-R 包含 200 类图像,训练集和测试集分别包含 24,000 和 6,000 个样本。特别地,ImageNet-R 对预训练模型(PTMs)具有挑战性,因为其图像要么来自 ImageNet-21K 的困难样本,要么是风格多样的新图像。CUB-200 包含 200 种鸟类,每类约 60 张图像,训练集与测试集均匀划分。Cars-196 包含 196 种汽车类型,总计 8,144 张训练图像和 8,040 张测试图像。遵循既定的实验协议,

CIFAR-100 和 ImageNet-R 作为标准的持续学习(CIL)基准,而 CUB-200 和 Cars-196 用于评估细粒度分类能力。所有实验均采用 PILOT 框架(Sun et al. 2025)进行,并使用一致的随机种子以确保公平比较。

指标。作者报告两个关键指标:即在每个增量任务后遇到的所有类别上的平均分类准确率,记为 Inc-Acc(%),以及完成最后一个任务后的分类准确率,记为 Last-Acc(%)。第一个指标用于评估在持续增量学习(CIL)过程中记住旧类别与学习新类别的平衡性,而第二个指标则展示了在完成所有任务学习后,对所有类别整体的性能表现。

CIL Baseline 方法。作者提出的SLDC方法与先进的基于PTM(Pre-trained Model)的CIL(Continual Image Learning)方法进行了对比,包括BiC(Wu et al. 2019)、LwF(Li and Hoiem 2017)、

(Gao et al. 2023;Zhang et al. 2024)、RanPAC(McDonnell et al. 2023)以及CoMA/CoFiMA(Marouf et al. 2024)。具体而言,SeqKD表示增强型知识蒸馏的SeqFT(Sequential Fine-Tuning)。由于

方法分别基于SeqFT和SeqKD实现,因此报告了相对于SeqFT和SeqKD的相对提升。值得注意的是,yinqin-Transformers还可进一步与其他技术(如CoMA和CoFiMA)结合使用,其中通过在模型参数上采用EMA(Exponential Moving Average)来缓解表征漂移问题。作为上限参考,报告了联合训练(joint training)的性能,即模型在所有增量任务上同时进行训练。此外,MLPDC(基于MLP的分布补偿方法)也作为SLDC-based补偿的 Baseline 方法。

实现细节。采用两种预训练模型(PTM):一种是基于 ImageNet-21K 监督预训练的 ViT-B/16(Ridnik et al. 2021),另一种是基于 ImageNet-1K 使用 MoCoV3 自监督方法预训练的 ViT-B/16(Chen, Xie, and He 2021)。LoRA Adapter 的秩(rank)设为 4,使用 Adam 优化器进行优化,学习率设为

,权重衰减为

。对于

-SLDC,

设为

。在

-SLDC 中,

分别初始化为单位矩阵和一个包含 ReLU 激活函数的三层 MLP,其中

的隐藏维度与 ViTs 中的 [cls] token 的维度一致。

的默认值为 0.5,系数

设为 (0.9, 0.1)。更多训练细节见附录。为通过高斯采样重新估计

-SLDC 中的类别相关均值与协方差,每类使用

个样本,其中

表示特征维度。在

-SLDC 的基于特征的蒸馏中,设

主要对比结果

picture.image

Image

  1. Vanilla SeqFT 面临严重的遗忘问题,表现为其在 CUB-200 和 ImageNet-R 上的 Last-Acc 值较低,分别为

(见表1)。相比之下,SLDC 方法在不正则化 Backbone 优化的情况下显著提升了准确率。例如,

-SLDC 在 MoCo-V3 架构下将 CUB-200 的性能提升至

,实现了

的绝对提升。 2. 当不采用 ADE 时,

-SLDC 在细粒度数据集上始终优于线性

–SLDC 和非线性 MLPDC,在 Cars-196 上取得了显著提升(77.53% vs. 61.01%,采用 MoCo-V3),在 CUB-200 上同样表现更优(78.98% vs. 70.42%)。 3. SeqKD 显著提升了 SeqFT 的性能,在使用 Sup-21K 数据集时,CUB-200 上的 Last-Acc 提升了

。值得注意的是,知识蒸馏与 SLDC 配合效果尤为出色:

-SLDC(增强版

-SLDC)几乎达到了

-SLDC 的性能,例如在 CUB-200 上使用 MoCo-V3 时,准确率分别为

。 4. -SLDC 和

-SLDC 在所有数据集和预训练模型上均表现出稳健的性能。在 Sup-21K 预训练条件下,其在 Cars196 上相较于 MLPDC(非线性补偿)提升了

,在 CIFAR-100 上提升了

,支持了作者的假设:合适的算子位于线性和非线性极端之间。 5. ADE 显著提升了 SLDC 方法在细粒度数据集上的性能。例如,使用 Sup-21K 预训练时,

-SLDC 表现不稳定,CUB-200 上的 Last-Acc 降至

(而 SeqFTs 为

),Cars-196 上则为

(而 SeqFTs 为

)。然而,

-SLDC + ADE 在 Cars-196 上相较于其无 ADE 的对应方法实现了惊人的

提升。这证实了 ADE 在任务数据有限时能够有效缓解近似误差。

消融研究

picture.image

Image

picture.image

Image

长序列持续学习(CIL)的有效性。在此,作者将评估扩展至20个任务,以评估SLDC方法在长序列CIL场景下的有效性。图2展示了在MoCo-V3架构上采用与不采用知识蒸馏(distillation)的对比结果,而Sup-21K架构的对应结果见附录中的图9。以下是一些值得注意的观察结果:

1)当既不使用知识蒸馏也不使用ADE(Adaptive Distillation Enhancement)时,

-SDLC方法始终优于

-SLDC。将知识蒸馏与ADE技术结合使用,可显著提升所有SLDC变体的性能。

2)MLPDC在Cars196和CUB200数据集上表现尤为不佳。

3)

-SLDC在Sup21K架构上实现时仍存在不稳定性,但通过引入知识蒸馏或ADE技术可有效缓解该问题。

picture.image

Image

混合CIL数据集的有效性。为了评估SLDC方法在异构CIL场景下的鲁棒性,作者构建了一个混合CIL基准测试,其中每个评估数据集(CIFAR-100、Cars-196、CUB-200和ImageNet-R)均被视为一个独立的增量任务。图3展示了在MoCo-V3和Sup-21K预训练策略下,有无蒸馏情况下的对比结果。主要发现如下:1)在所有设置中,SLDC方法均优于SeqFT和MLPDC Baseline 方法。2)在此设置下,

方法之间的性能差距显著缩小。这表明,在处理更大规模的任务特定数据集时,

-SLDC能够达到与弱非线性版本相当的稳定性。在实际实验中,作者尝试了不同数据集的顺序,评估结果保持一致。

picture.image

Image

-SLDC 中的影响。本部分分析温度参数

-SLDC 中的影响。以采用蒸馏的 MoCo-V3 架构为研究目标,作者评估了四种

值([0.5, 1.0, 2.0, 5.0]),结果如图4 所示。作者的实验揭示了两个关键发现:(1) 当不使用 ADE 时,在细粒度数据集 Cars-196 和 CUB-200 上,

能取得最佳性能;(2) 当使用 ADE 时,将

降低至 1.0 以下,有助于更有效地利用无标签数据集。这些发现表明,最优温度参数的选择取决于是否采用 ADE。

picture.image

Image

的影响。在此,作者通过在 [0.1, 0.5, 1.0, 2.0] 范围内选取值来研究

-SLDC 中正则化系数

的影响。为简化起见,图5 报告了在 MoCo-V3 架构(带蒸馏)上的实验结果。

-SLDC 的性能在

的测试范围内表现出显著的稳定性。这表明,控制转移算子假设空间的先验假设比正则化系数的具体选择具有更重要的影响。

picture.image

Image

样本选择对ADE的影响。本节探讨ADE过程中样本选择的影响。作者在三个ADE数据集(CIFAR-10、SVHN和ImageNet)上进行评估,样本量范围从512到2048不等。如图6所示,作者的分析揭示了不同基准数据集之间存在显著差异。对于细粒度的CUB-200数据集,所有ADE变体均提升了SLDC性能,且更大的ADE样本量带来了逐步提升的结果。相比之下,ImageNet-R数据集表现出稳定性能,无需使用ADE,表明ImageNet-R中的训练样本已足够实现鲁棒性能。

结论

本文对基于预训练ViT的持续图像学习(CIL)进行了深入研究,指出在序列优化过程中,有效近似潜在空间转移算子对于缓解分布漂移带来的负面影响至关重要。为此,本文提出了线性

-SLDC 与弱非线性

-SLDC 方法,以及其增强型蒸馏版本

-SLDC 与

-SLDC,旨在将先前类别的分布与更新后的特征空间对齐。大量实验验证了所提方法的有效性。值得注意的是,蒸馏(用于限制过度优化)与SLDC(用于补偿分布漂移)之间的协同作用显著缩小了CIL与联合学习之间的性能差距,使CIL在实际应用中更具可行性。

然而,作者观察到,在使用 Sup-21K 架构时,

-SLDC 在某些细粒度数据集上表现出不稳定性,需要引入辅助的无标签数据以稳定其性能。此外,SLDC 方法在多模态模型中的适用性仍是待解决的问题,这将是作者在未来工作中计划探索的方向。

参考

[1]. Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论