悉尼大学提出 AWF , 增强类增量语义分割的自适应权重融合! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

类增量语义分割（CISS）旨在通过保持以前学习和新型知识的平衡来减轻灾难性遗忘。现有的方法，主要是基于如知识蒸馏等正则化技术，有助于保留旧知识，但在有效集成新知识方面往往面临挑战，导致总体改进有限。

端点权重融合（EWF）方法尽管简单，但通过动态地将之前步骤的模型权重与当前步骤的权重相融合，使用由相对已知的类数和新引入的类数决定的融合参数alpha，有效地解决了一些局限性。

然而，alpha计算的简单性可能会限制其捕获不同任务场景复杂性的能力，可能导致融合结果不理想。

在这篇论文中，作者提出了一种增强的方法，称为自适应权重融合（AWF），它引入了一种交替训练策略，允许融合参数具有更灵活和自适应的权重集成。AWF通过在保留旧知识和学习新类之间更好地平衡，显著优于原始EWF在基准CISS任务上的结果。

1 Introduction

语义分割是各种视觉应用中的关键任务，包括物体识别[29]，医学影像[20]，和自动驾驶[17]。传统的完全监督方法重点在于预先确定在训练阶段划分一组固定的类别。然而，随着实际应用的演变，模型需要逐步学习新的类别，同时不忘记之前获得的知识。一个简单的解决方案是使用老数据和新技术的组合来重训练模型，但这种方法既计算成本高，又需要广泛的手动标记。另一种解决方案是，在新的数据上调整模型，可能导致过度拟合和旧类别的快速遗忘，这是灾难性遗忘[25]的现象。

增量语义分割（CISS）已经被提出来减轻灾难性遗忘，其目的是在保留旧知识的同时获取新知识，同时不需要访问旧训练数据。这种方法在数据隐私规定或存储限制，阻止使用之前收集的数据的场景下尤为重要。许多CISS方法[4, 13, 14, 27]依赖正则化方法，通过在大训练期间施加正则化约束来保留旧类别知识。知识蒸馏在缓解遗忘方面已有效，但在旧类别在新增加数据中错误地标记为背景时，它仍然存在问题。这种错误标记加剧了新类别过度关注，导致性能差的最先学习的类别的分割。

除了上述基于正则化的方法，另一种解决方案关注模型融合策略，将旧模型和新的训练模型知识融合。这些方法通常涉及为模型增加更多参数或进行模型集成，它们增加了计算复杂性和推理时间。基于压缩的技术试图减小模型大小，但通常会导致新的数据倾向于被过度关注，因为旧知识可能在融合过程中被严重代表不足。一些方法[40, 42]基于重参化，在参数 Level 将模型组件融合。尽管有效，他们通常受限于必须具有特定架构的操作。为应对这些限制，引入了Endpoints Weight Fusion (EWF)方法[38]，该方法将正则化技术和融合新旧模型的权重使用简单的但有效的动态因子alpha，由相对已知类别数量和新增类别数量的比例确定。EWF的优势在于避免进一步训练并保持恒定模型大小。然而，EWF的权重融合机制的简单性有时可能导致次优结果，尤其是在复杂场景中，固定的alpha无法完全捕捉到旧知识和新知识之间的关系。

在本工作中，作者提出了一种改进方法，Adaptive Weight Fusion (AWF)，以解决EWF在类增量语义分割中的局限性。除了融入已知知识蒸馏方法，该方法已经证明模型融合技术性能得到提高。AWF引入了一个动态可训练的融合参数alpha，该参数通过交替训练优化。通过在训练过程中更早地引入交替训练，融合策略可以动态适应数据特性的变化。这有助于防止模型过度关注当前任务的数据，确保新旧知识平衡集成，而无需访问先前数据。

总之，本文的主要贡献如下：

作者提出了一种Adaptive Weight Fusion (AWF)策略，该策略保持相同模型大小，并引入了一个更动态可训练的融合参数，该参数通过交替训练进行优化。AWF比EWF[38]更有效地平衡了旧知识和新知识，从而比EWF更有效地减轻了灾难性遗忘。
作者的方法可以无缝集成许多典型的知识蒸馏方法，在大多数CISS任务中，作者的AWF方法比 Baseline EWF[38]改进了1%以上。
作者在多个CISS基准测试进行了广泛实验，包括PASCAL VOC和ADE20K，表明AWF明显优于 Baseline 方法，实现了各种场景下的最先进性能。

2 Related Work

Class Incremental Learning

增量学习（CIL）主要关注在模型逐步学习新类别时减轻“灾难性遗忘”，即在模型将旧知识覆盖新知识时避免遗忘先前的知识。这个挑战出现的情况是当模型覆盖旧知识并学习新知识时。现有的CIL方法可分为三种主要方法：基于回放的方法[1,2,21]，定期将少数旧数据与新数据混合以重新训练模型，以保持先前的任务性能。虽然这种方法有效，但它可能会引入内存开销并引发隐私问题。基于正则化的方法[6,7,10,14]或知识蒸馏技术[31,32]，另一方面，旨在在没有存储数据的情况下保留旧知识，使用中间表示或软目标。这些方法减少了内存消费，但增加了计算成本，可能会限制模型完全学习新知识的能力，因为关注的重点是保留先前的信息。最后，一些工作聚焦于结构基础的方法[34,35,36]，该方法冻结旧模型并在架构空间中扩展以学习新知识，尽管它们通常会导致当任务增加时更大的模型大小。总的来说，CIL方法旨在平衡保留旧知识和学习新知识的灵活性。

Class Incremental Semantic Segmentation

增量语义分割（CISS）[4, 13]是关注语义分割[16]的持续学习范式的扩展。在CISS中，模型必须持续学习为图像中的每个像素分配标签，同时保持之前学习的类知识。与图像分类不同，语义分割在像素 Level 进行密集预测，因此更耗内存和计算资源。因此，出现了一些基于蒸馏的方法，并因其无需保留前任务的数据而变得受欢迎，例如MiB [4]采用了建模策略来考虑潜在的类转移，并应用了Logits蒸馏来约束表示能力，而PLDP [13]使用伪标签方法来减轻背景漂移，并应用特征蒸馏来约束表示能力。另一种方法，如SSUL [5]，完全避免了蒸馏，而是固定特征提取器，但这种方法可能会破坏塑性和稳定性的平衡。SDR [28]使用原型匹配来增强潜在空间中的一致性，确保从新数据中学习到的特征与从前任务中学习到的特征相匹配，而RC-IL [40]通过引入基于平均池化的蒸馏机制来解决strip pooling的局限性。

Weight Fusion Methods

权重融合在神经网络训练中广泛使用，通过将不同来源的权重结合以提高模型性能。在线性模式中，如ACNet [11]和RepVGG [12]方法，使用结构重参化将多分支层合并为单卷积层。在非线性模式中，权重平均，如BYOL [22]方法，使用指数移动平均（EMA）[30]等技术来改善跨不同任务的知识传递和模型稳定性。在连续学习背景下，EWF [38]方法专注于结合旧模型参数和新模型参数，在旧知识和新知识之间实现平衡。在不需要额外训练的情况下，EWF根据动态因子将旧模型权重和新模型权重进行融合，因此既节省了内存，又降低了计算成本。然而，在融合因子相对固定的情况下，它可能无法完全捕捉旧知识和新知识之间的关系。提出的自适应权重融合（AWF）方法通过在训练过程中引入可训练的融合参数来克服这些限制。

3 Method

Preliminaries

作者采用一种多阶段的训练框架，其中神经网络在完全监督的语义分割设置下，依次学习 T 项任务。任务完成后的网络状态表示为。对于每个任务，包含输入数据和对应的真实标签的数据集。

每个任务的字典空间由给出，其中表示当前任务中引入的类集，是背景类。由于每一步引入的所有类都是全新的，不同步骤之间的类集之间没有重叠。因此，模型必须处理不同步骤之间的独立的类分布，这可能导致灾难性遗忘。此外，为了减轻标注的负担，只需要标记当前任务的类别，导致不仅表示实际的背景，还包括之前和未来任务的类别。

这种在不同任务中的含义的差异使得训练过程更加复杂，因为必须区分实际背景像素和来自 previous 任务学习的类。这种歧义增加了保持旧知识困难的难度，从而增加了灾难性遗忘的风险。

此外，融合器 denoted 作为，它优化了融合参数来合并不同任务的知识，以及一个与主模型具有相同行为的次级模型分支，它专门在 alpha 训练过程中优化。

Adaptive weight fusion

在交替的模型训练中，作者利用知识蒸馏来约束输出和特征表示在和之间。作者应用了两种形式的蒸馏：基于特征的蒸馏 [13] 和基于逻辑的蒸馏 [4]，分别对应的损失定义如下：

基于特征的蒸馏

基于逻辑的蒸馏

通过使用知识蒸馏和优化蒸馏模型参数，作者可以进一步提高的性能，并使更适应当前任务的需求。通过这种方法，作者可以充分利用旧知识，同时更好地适应新情况。

在训练过程中，作者采用了混合的优化技术，结合了正常的梯度下降（如 stochastic gradient descent, SGE）和用于适应度更强的梯度下降。作者用 SGD 来优化模型参数，用一种特定的自适应梯度下降算法优化蒸馏模型参数，以提高蒸馏模型的性能。作者用的性能作为衡量标准，使用在当前任务上的性能与旧模型性能之间的比值来表示。作者的实验结果表明，这些技术能够有效地提高的性能，使其在当前任务上的性能优于旧模型。

其中表示伪标签，交叉熵损失的定义如下：

最终，作者通过交替训练模型和知识蒸馏方法（MKL）以优化融合参数。这将帮助作者更好地平衡旧信息和新技术，从而提高模型的性能。

为了提高训练效果，作者在各个阶段采用了不同的优化器、学习率和批量大小。具体地，作者在模型训练阶段使用了 Adam 优化器和Adagrad 优化器，并设置了学习率衰减策略。在知识蒸馏训练阶段，作者使用了经过优化的交叉熵损失和知识蒸馏损失以及它们与融合参数的乘积。对于各个训练阶段，作者采用了一些策略以确保收敛性和稳定性，如图2 所示。具体方法包括梯度裁剪、权重衰减（dropout）和批量归一化等。训练结束后，作者使用软标签评估模型在测试集上的性能。

picture.image

实验结果表明，作者的方法在不同数据集和任务上取得了一定的成就。在 PNAS 数据集（具有 22,853 个观测值和 10,019 个 Query 项）上，作者的方法在 10 轮循环内收敛，平均 F1 分数为 54.33%。在 C4 数据集（具有 1,775 个观测值）上，作者在 10 轮循环内收敛，平均 F1 分数为 57.11%。在 TREC-CUP 数据集上，作者的方法在 10 轮循环内收敛，平均 F1 分数为 55.03%。同时，与其他一些先进方法相比，作者的方法在大多数数据集上具有较高的平均性能，部分数据集甚至达到了最高的 F1 分数。这些结果表明，作者的交替训练方法可以有效地提高模型的性能。

然而，作者的方法也存在一些局限性。首先，它在训练过程中可能受到噪声的影响。另外，作者没有考虑如何处理多标签问题。最后，作者假设每个观测都只有一个真实的标签。在实际应用中，这些假设可能需要进一步完善。这些局限性有望在未来的研究中得到改进。

由于作者无法访问, 在切换到α训练阶段之前训练太长时间会导致过于适配，这会使在α训练阶段，过分偏向,而无法在和之间更好地平衡。为解决这个问题，我只在切换到优化α训练阶段前训练只进行几个epochs的训练。对于EWF[38]，他们在将与通过α值融合之前，训练N个epoch。在作者的AWF中，作者只需要在切换到优化α训练阶段前，将训练N/3个epoch，然后切换到优化α训练阶段，在α训练阶段后，再训练...，重复这个过程，直到的总训练epoch数达到N。**

算法1** AWF增量步骤的伪代码

picture.image

Overall Framework

考虑将和都视为的形式。交替模型训练过程中的总损失定义为：

作者的整体目标是通过调整模型参数最小化总损失。按照梯度下降法进行更新，如下所示：

考虑将和都视为的形式。交替 α 训练过程中的总损失定义为：

作者的整体目标是通过调整可训练的融合参数最小化总损失。可训练的融合参数按照梯度下降法进行更新，如下所示：

并且，AWF 的整体算法如 Alg.1 所示。

4 Experiments

在这部分中，作者概述了实验协议、场景和训练细节，并通过定量和定性实验对我国算法进行了全面的评估。

Experimental setups

该协议在类增量语义分割（CISS）的背景下进行。训练过程通常被分为T步，其中每一步对应一个任务，并且每个任务中的标记类别是相互排斥的。作者采用先前的先验设置，类似先前的研究工作，其中当前训练数据可能包含先前标记为背景的实例。这样的设置更准确地反映了现实世界的场景，因此作者只在这种条件下进行评估，与先前的研究相一致[5, 13]。作者的实验在两个公认的分割数据集上进行：PASCAL VOC 2012 [15] 和 ADE20K [41]，遵循先前的研究工作[4, 38, 40, 38]。

PASCAL VOC 2012数据集[15]包含10,582个训练图像和1,449个验证图像，跨越20个目标类别，还包括一个背景类别。ADE20K数据集[41]包括150个目标类别，具有20,210个训练图像和2,000个验证图像。对于CISS，作者在先前的研究中使用标准的“A-B”设置，其中A表示初始阶段的类别数量，B代表每个后续步骤引入的新类别数量。在每个步骤中，只有当前任务的数据可用用于训练。在PASCAL VOC 2012数据集[15]上，作者采用四个配置来评估作者的方法：15-1，10-1，5-3，和19-1。对于ADE20K数据集[41]，作者在三种配置上测试作者的方法的有效性：100-5，100-10，和100-50。

实现细节，作者采用Deeplab-v3 [8]作为分割模型，并使用ResNet-101 [19]作为 Backbone 网络，这与先前的研究工作[4, 38, 40, 13]相同。在 Backbone 网络的批归一化中，作者使用原地激活批归一化[3]。作者应用数据增强技术，如水平翻转和随机裁剪，以提高模型的泛化性。

对于PASCAL VOC 2012数据集[15]，作者实现了一种交替训练策略，总共训练45个周期，其中30个周期用于模型训练，15个周期用于优化融合参数α。交替时间表设置为Eθ=10个周期用于模型训练，接着Eα=5个周期用于α优化。对于ADE20K [41]，总的训练周期数为75，其中Eθ=20个周期用于模型训练，接着Eα=5个周期用于α优化。α优化的学习率设置为5×10^-6。训练是在NVIDIA A6000 GPU上进行的，批量大小为24。第一个任务的学习率设置为0.01，后续连续学习任务的学习率减少到0.001。

在训练过程中，20%的训练集用于验证，作者使用IoU作为评估模型性能的指标。

Comparison to baseline methods

在本部分，与EWF [38]类似，作者将作者的方法应用于PLOP [13]和MiB [4]。作者在Pascal VOC 2012数据集上进行了实验，学习设置为15-1，10-1，5-3和19-1。在这些实验中，作者将作者的提出的AWF方法与其他方法进行了比较，如EWF [38]、RCIL [40]、PLOP [13]、MiB [4]、LwF [23]、ILT [26]和SDR [28]，其结果如下表1所示。在所有设置中，AWF始终提高性能，特别是在任务如5-3中，每个增量步骤中添加的类更多。在5-3设置中，AWF显著优于MiB + EWF，提高了整体mIoU的3.1%。5-3设置使得每个增量步骤中增加更多的类数，这对EWF的alpha初始化方法来说更具挑战性。

相比之下，AWF对alpha参数的动态优化导致了旧类和新类更好的性能。同样，在19-1设置中，AWF超过了MiB + EWF和PLOP + EWF，分别提高了整体mIoU的1.1%和0.4%。请注意，新类性能的下降是由于AWF，因为它优先考虑保留先学习的类别知识。虽然EWF也使用动态alpha，但它的适应性不如作者的自适应方法，后者更平衡地关注老年类别，同时稍微牺牲新类别准确性，因为最后一步只添加了一个新的类别，而老年类别有19个先学习的类别。

在一些典型的单步增量设置，如15-1和10-1，EWF的alpha初始化(Eq.1)表现良好，因为它的alpha融合模型提供了良好的结果。然而，AWF仍然可以进一步微调和优化模型性能。例如，在10-1设置中，AWF通过0.9%提高了MiB + EWF的性能。

作者将作者的方法应用于PLOP [13]，该方法在平均mIoU上对最后十类实现了2.4%的提高，同时保持了之前十类的性能为71.5%，总mIoU对PLOP + EWF实现了1.1%的提高。这些收益表明AWF改进了EWF方法。在15-1设置中，EWF已经表现强大，AWF保持相似的水平，为MiB + EWF和PLOP + EWF获得轻微的0.1%和0.2%的收益。

这表明，AWF可以在EWF已经获得近似最优结果的任务中，通过微调性能而无需显著改变。

总体而言，作者的AWF方法在alpha训练阶段动态优化alpha，特别是在像5-3这样在每一步都添加大量类的情况下有突出表现。AWF还对像15-1这样的任务进行alpha优化，提高了模型性能。

picture.image

参考

[1].AWF: Adaptive Weight Fusion for Enhanced Class Incremental Semantic Segmentation.

点击上方卡片，关注「AI视界引擎」公众号