YOLO LwF 破局持续目标检测 | 自蒸馏+重放记忆双引擎，单阶段检测器告别灾难性遗忘 - 文章 - 开发者社区

点击下方卡片，关注

「集智书童」

公众号

picture.image

导读

实时目标检测器如YOLO在训练于大型数据集并经过多个epoch后表现出色。然而，在数据增量到达的真实场景中，神经网络会遭受灾难性遗忘，导致先前学习到的知识丢失。为了解决这个问题，先前的研究探索了在持续学习目标检测（CLOD）中的类别增量学习（CIL）策略，其中大多数方法集中于两阶段目标检测器。然而，现有工作表明，由于噪声回归输出可能转移被损坏的知识，学习无遗忘（LwF）可能对YOLO这类单阶段 Anchor-Free 点检测器无效。在本工作中，作者引入了YOLO LwF，这是一种针对基于YOLO的持续目标检测的自蒸馏方法。作者证明了当结合重放记忆时，YOLO LwF显著减轻了遗忘现象。与先前的方法相比，它在VoC和CoCO基准测试上分别实现了

和

的mAP性能提升。

1 引言

目标检测是计算机视觉领域最重要的研究方向之一，其应用范围广泛，从自动驾驶[1]到医疗应用[2]。得益于深度学习，许多目标检测器达到了显著的性能[2-4]。此外，如RT-DETR[2]和YOLO[4-6]等架构在准确性和速度之间取得了良好的平衡，实现了实时目标检测。特别是，YOLO现在已成为大多数应用中广泛使用的基于CNN的目标检测器。

另一方面，这些目标检测器是在理想场景下进行训练的，即所有数据一次性提供。这种情况并不反映现实世界场景，在现实世界中，模型需要逐步学习，随着时间的推移获取知识。为此，持续学习方法（CL）旨在促进新知识的获取，避免所谓的灾难性遗忘（CF）[7]，即神经网络在接触到新数据时倾向于丢失之前学到的知识。

在考虑持续学习目标检测（CLOD）时，最常见的情况是类别增量学习（CIL），其中目标检测器从一系列任务中学习，每个新任务都呈现未见过的目标类别。然而，与单标签图像分类不同，在CLOD中，先前实例可能会在未来任务中以不同的真实标签（新类别）重新出现。这导致了一些额外的问题，如缺失标注问题，如图1所示，新图像缺失旧类别的标注。因此，像经验回放这样的综合方法在CLOD环境中表现不佳，需要调整才能使其有效 [8]。

picture.image

CL文献对于单标签图像分类表明，学习不遗忘（LwF）[9]，一种自我蒸馏方法可以是一个有效的方法，尤其是在与如暗经验重放（DER）[10]中的重放缓冲区结合使用时。然而，先前的工作[8, 11]显示，基于蒸馏的方法可能对YOLO等单阶段 Anchor-Free 点目标检测器并不有效。

因此，在作者的工作中，作者重新思考了在YOLO目标检测器背景下的LwF，实现了文献中提出的所有CLOD基准测试的最佳性能，从而证明了自蒸馏在YOLO案例中的有效性，尤其是在与重放缓冲区结合使用时。

因此，作者做出了以下贡献：

• 作者提出了一种针对YOLO架构的LwF的改进方案，并将其命名为YOLO LwF。
• 作者在VOC和COCO基准测试上对YOLOv8架构进行了广泛实验，展示了YOLO LwF如何成为一种有效的CL策略。
• 通过将YOLO LwF与重放记忆相结合，YOLO-LwF在所有竞争方法中表现优异，展示了卓越的性能，并在VOC和COCO基准测试中分别将mAP提升了

和

。

2 相关工作

大多数CLOD文献集中于两阶段目标检测器，如Faster R-CNN[12-16]。所有这些工作都通过利用Faster R-CNN架构的不同部分来提出一些防止遗忘的解决方案。Faster ILOD[12]为网络中的三个组成部分——特征提取器、区域 Proposal 网络（RPN）以及类级分类和边界框回归网络（RCN）——各自提出了蒸馏损失。[13]通过修改RCN的蒸馏损失和Faster R-CNN的常规损失来重新审视Faster ILOD，以解决缺失标注问题。相反，ABR[15]通过保存先前任务的框图像并将它们与当前图像混合使用MixUp和Mosaic增强来解决这个问题。此外，他们用所谓的注意力ROI蒸馏（ARD）替换了[12]中引入的RPN蒸馏损失。[16]提出在当前任务上训练一个额外的模型，然后联合蒸馏旧教师的新知识和新教师的新知识。

然而，如今在目标检测领域，趋势是设计快速的目标检测器，允许实时检测。因此，其他研究工作聚焦于一阶段目标检测器。在[11]中，作者指出了单阶段目标检测器中回归输出噪声的问题。他们针对FCOS架构[17]提出了一种基于蒸馏的方法，称为SID。具体来说，他们提出从分类输出和中间特征中进行蒸馏。此外，他们还提出了一种交互相关蒸馏损失，以保持不同训练实例特征之间的交互关系。[18]为GFLV1[19]和FCOS[17]引入了弹性响应蒸馏（ERD）。ERD对分类头进行L2蒸馏，对回归部分进行KL散度。为了克服SID中指出的噪声输出问题，ERD在分类头和回归部分都选择了候选边界框。这是通过应用所谓的弹性响应选择（ERS）来实现的。[8]为YOLOv8[6]架构提出了名为RCLPOD的方法。RCLPOD不依赖于输出蒸馏，而是利用标签传播结合平衡重放缓冲区来减轻遗忘。此外，他们还依赖于中间特征蒸馏以提高稳定性。

遵循RCLPOD，本研究聚焦于YOLO目标检测器，但与之前关于单阶段目标检测器的研究不同，作者提出了一种基于LwF的方法，充分利用网络输出，即也包括回归输出。

3 方法论

3.1 前言

在此，作者简要描述了现代YOLO检测器的核心功能，并说明了在此背景下采用轻量化特征提取（LwF）的必要性。特别是，作者描述了YOLO输出在训练和推理过程中的处理方式，以突出为什么LwF不应以简单的方式应用。由于在作者的实验中作者测试了YOLOv8，与RCLPOD的做法相同，因此作者重点关注它，但大部分描述的功能在现代YOLO的各个版本中都是共有的。

YOLO的近期版本是一阶段和 Anchor-Free 点目标检测器，即不需要任何区域 Proposal 或先验边界框。从YOLOv8到最新版本，损失函数由三个部分组成：用于分类的二进制交叉熵（BCE）损失、用于回归的完整交并比（CIoU）损失[20]和距离Focal Loss（DFL）[19]。

picture.image

为了预测不同尺度的物体，YOLOv8，像所有现代版本的YOLO一样，有三个不同的 Head ，每个 Head 对应一个尺度。给定一个输入图像

，YOLO输出三个特征图

，其中

，

是类别数，

是回归的超参数，

满足

，

和

。从现在开始，为了简化讨论，作者假设YOLO返回一个单独的特征图

。每个长度为

的

个向量对应一个预测的边界框，并且每个向量都与

个 Anchor 点之一相关联。例如，图2a展示了

的简化示例，即网络仅预测了4个边界框。对于任何 Anchor 点，对应预测向量的前

个值用作sigmoid的输入，以计算分类得分（如任何多标签问题），而剩余的

个值则按以下方式处理：

1. 此向量被划分为四个维度为

的块，每个块用于计算从 Anchor 点到边界框四边的偏移量，如图2a所示。 2. 2. 由于YOLOv8与YOLOv10和YOLOv11一样，依赖于DFL进行回归，因此对于每个偏移量，YOLO返回一个关于L个可能偏移值的分类分布，如图2b所示。更多细节请参阅[19]。

1. 实际的偏移量，在推理过程中以及用于计算CIoU损失时，都通过计算softmax及其对应的期望值直接得出。

在训练过程中，监督机制允许丢弃错误的预测[21]，而在推理阶段，所有分类得分均低于0.5（或低于任何设计阈值）的边界框将被丢弃1。这种后处理是必要的，因为YOLO独立于输入图像，在每一尺度 Level 都会预测

个边界框。因此，对于一张输入图像，YOLOv8会预测

，400个边界框。从LwF的角度来看，正如前人工作中已经指出的，由于理想情况下，经过后处理，大部分预测结果都会被丢弃，因此大部分回归输出只是噪声。因此，使用L2损失应用LwF可能会导致由于教师的无意义监督而导致的可塑性损失。

3.2 YOLO LwF

鉴于前文所述原因，作者提出对LwF进行一些修改，以解决噪声回归预测的问题。

3.2.1 回归输出的交叉熵

由于作者处于多标签设置中，关于分类输出，没有特别的原因偏好交叉熵（CE）损失而不是简单的logits之间的均方误差（MSE）。然而，对于回归，通过回忆YOLOv8对于给定的 Anchor 点和四个偏移量之一，预测的是

个可能距离值的分布，CE损失与MSE之间的选择可能很重要。作者推测，在教师提供的噪声输出存在的情况下，匹配logits可能是一个额外的约束，防止了可塑性。此外，作者认为，根据文献[22]，通过匹配logits，教师可能会传递更多被污染的知识，导致在某些情况下遗忘更多。因此，正如ERD[18]中所做的那样，作者提出对于回归输出使用温度

的CE损失。

形式上，对于任意输入图像

，作者用

表示学生对于 Anchor 点

和偏移量

的

个值的输出分布，而对于教师对应的部分，作者用

表示。作者提出的 LwF 回归损失为：

通过应用回归输出与教师模型之间的交叉熵，模型被鼓励专注于学习可能的边界框偏移的整体分布，而不仅仅是保持相同的logits。

3.2.2 预测加权交叉熵

然而，教师模型可能产生噪声预测的问题仍然存在。为了解决这个问题，作者提出了一种基于预测的加权交叉熵损失函数（WCE）。根据特定的样本和训练过程中产生的预测，作者提供特定的权重，以限制有害的噪声预测，并更加关注更可靠的预测。与ERD [18] 不同，作者认为利用分类置信度比从回归输出本身得到的置信度更可靠。

为了实现这一点，作者根据教师对任何物体存在的置信度对每个CE进行加权，这通常被称为客观性得分。与YOLO的先前版本不同，这个得分不是由网络提供的，而是可以通过仅计算

个得分中的最大分类得分轻松推导出来。形式上，作者将公式1修改如下：

表示将图像

作为输入输入到教师网络后，预测

和类别

的分类得分。关于分类，作者进一步提出，通过对应边界框的一致性水平来权衡学生和教师之间的分类损失。实际上，只有当两个边界框关注相同的位置区域时，分类得分才应一致。

picture.image

参见图3 中的两种相反情况。因此，受 [21] 的启发，作者计算每对边界框

的 IoU，其中

，并按以下方式权衡每个分类损失：

W其中

和

分别表示教师和学生对于 Anchor 点

类

的logits。因此，类似于回归损失，对于分类损失，作者也执行了一种预测加权，这使得模型能够更好地关注真正相关的信息，并避免无关信息。

3.3 Mask 重叠目标

最后，根据先前的研究[8]，当当前任务的标签提供时，对旧类别进行 Mask 以计算分类损失是合理的。整体损失的计算方法如下：

是应用 Mask 的常规 YOLO 损失，

是两个用于控制可塑性与稳定性权衡的常数。

3.4 结合自蒸馏与经验回放

在大多数关于单标签分类的CL文献中，经验回放（ER）是一种非常有效的策略。此外，如RCLPOD[8]所示，在任务流相当长的实际场景中，回放内存是必要的。因此，作者提出利用回放缓冲区来存储旧任务的样本，并将YOLO LwF应用于缓冲区中的样本和新样本。与单标签场景不同，在目标检测中，作者不能天真地利用旧样本的标签，因为可能会出现任务干扰。解决这个问题有几种可能的方法：如RCLPOD所做的那样，通过添加伪标签来更新内存，为每个样本保留一个 Mask 以识别感兴趣的类别，或者简单地忽略标签，仅依赖自蒸馏。作者采用最后一种选项，以降低YOLO-LwF的复杂性，同时避免如果添加伪标签，模型可能会产生的低质量标签。

如RCLPOD所指出的，在多标签CIL设置中，平衡每类的样本数量对于保持不同类别的平衡准确率非常有效。因此，作者不是对重放缓冲区进行随机更新，而是应用了RCLPOD中已提出的优化内存中类别分布（OCDM）[23]。这种方法采用贪婪策略，仅保留来自内存和新数据的样本，以实现类别间均匀的数据分布。

另一种可能的方案是遵循DER[10]中为单标签分类提出的建议，即对于每个样本，将相应的输出网络保存在重放缓冲区中。然而，除了可以通过 Mask 解决的问题，即任务干扰问题外，在YOLO的情况下，将每个样本的整个YOLO输出保存在内存中并不可行：回想一下，YOLOv8预测了8,400个边界框，对于其中的每一个，作者都有一个

向量，在简单的案例中，即

和

（默认值），存储单个图像的输出就需要超过2MB。例如，在重放缓冲区中保存800个样本用于COCO需要超过1.6GB的额外存储空间（不包括存储的图像）。因此，作者坚持使用LwF与OCDM的简单组合作为内存更新的最有效和可持续的解决方案。

4 实验设置

4.1 评估协议和指标

如前文所述[11, 14, 24]，作者在包含20个物体类别的PASCAL VOC 2017[25]基准测试集以及包含80个物体类别的Microsoft COCO挑战数据集[26]上测试了所提出的基于LwF的方法。由这两个数据集导出的CIL场景与为RCLPOD提出的场景相同，也与其他先前工作[11, 24]相同。为了澄清，作者在此报告与RCLPOD相同的符号表示，以区分不同的场景：

表示第一个任务（

）由列表中的前

个类别组成（例如，按字母顺序排列），而每个后续任务（

）由从

到

的类别组成。VOC的CL场景为15p1、15p5、10p10和19p1，而COCO的CL场景为40p40和40p10。

如[8, 24]中所述，为了评估YOLOv8的性能，作者在训练结束时报告了平均精度均值（mAP）：以0.5 IoU阈值为标准，记为mAP^{50}，用于VOC；以及在不同IoU阈值（从0.5到0.95）下的加权mAP，记为mAP^{50-95}，用于COCO。

4.2 YOLO训练细节

作者在YOLOv8n（320万个参数）上测试了YOLO LwF，这是可用的YOLOv8中最小版本。通过这种方式，作者在更具挑战性的场景中测试了YOLO-LwF，即模型容量尽可能低的情况。作者使用在ImageNet上预训练的 Backbone 网络参数进行初始化，这些参数可在[6]中找到，与RCLPOD和CLOD文献[14]中所述方法一致。作者遵循[4, 6]中建议的训练流程，并在表6中报告了训练超参数。特别是，与RCLPOD一样，作者将每个任务的epoch数设置为100。

4.3 CL Baseline

首先，作者报告了理想联合训练的结果，以及对于微调，这是一种关于稳定性的下界，但对于塑性来说仍然是一个良好的 Baseline 。由于作者的目标是改进LwF，因此作者也报告了LwF的结果，并且，为了与YOLO-LwF结合OCDM进行公平的比较，作者测试了LwF与OCDM的结合（

）。此外，作者还报告了RCLPOD [8]的结果，这是当前单阶段CLOD的SOTA。

关于RCLPOD，如果使用重放缓冲区，其容量固定为整个数据集的约5%，即PASCAL VOC为800张图像，COCO为6000张图像。

对于LwF，根据[24]的描述，作者将蒸馏损失权重

设为1。对于伪标签（由RCLPOD使用），为确保与推理的一致性，与原始工作相同，作者将分类阈值设为0.5，并将IoU阈值（用于非极大值抑制）设为0.7。

即使ERD [18]最初是为GFLV1（以ResNet50作为 Backbone 网络）提出的，作者还是将其应用于YOLOv8，并且与原始工作相反，作者在VOC上也进行了测试。与原始工作相同，作者将超参数

设置为2，

设置为1。与原始工作相反，作者将

设置为

。与LwF的做法一样，作者也使用带有OCDM更新的重放缓冲区进行ERD，并用F

表示。最后，对于YOLO LwF，作者在所有实验中都将

设置为

，

设置为

。这些值在CL场景中独立地表现良好。

5 结果

picture.image

在本节中，作者展示了YOLO-LwF与上一节中提出的 Baseline 方法的性能对比结果。表1展示了每个CLOD场景在最后一个任务结束时获得的最终mAP。

picture.image

表2从稳定性-塑性角度比较了两种最长CLOD场景（即VOC15p1和COCO 40p10）的方法，而表3则针对2任务场景。在第5.1节和5.2节中，作者讨论了获得的结果，而在第5.3节中，作者展示了一项消融研究，以证明YOLO-LwF的合理性。

picture.image

5.1 双任务场景

当不使用重放缓冲区时，表1显示YOLO LwF在所有两个任务场景中都优于其他方法，除了VOC19p1，在该场景下ERD表现最佳。特别是，在VOC 10p10和COCO

场景中，即使不使用任何重放缓冲区，YOLO-LwF也表现出强大的性能。这可以通过这两个场景的特点来解释，即第二个任务也包含了来自前一个任务的类别实例。在所有四个场景中，YOLO LwF都提升了标准LwF实现的结果。特别是，表2显示YOLO-LwF受益于更高的可塑性，同时，在四个场景中的三个中，观察到的遗忘更少。唯一一个ERD优于YOLO-LwF的场景是，新类别的数量远低于前一个场景。事实上，表2显示这个差距主要归因于ERD通过减少可塑性来减少遗忘的特性。因此，就基于蒸馏的方法而言，作者可以断言，在YOLO-LwF中，在两个任务场景中平衡稳定性和可塑性方面表现最佳。

关于使用重放缓冲区，YOLO-LwF在所有场景中除了COCO40p40外，遗忘率最低。与使用OCDM的LwF和ERD与OCDM相比，YOLO LwF使用OCDM不受塑性不足的影响，在VOC场景中遗忘率低于RCLPOD，且在塑性方面存在微小差距。即使使用重放缓冲区的朴素LwF在COCO 4Op40场景中是最稳定的方法，YOLO LwF使用OCDM也相当接近，并且在其他方法中表现出最佳稳定性/塑性权衡。

5.2 场景 VOC 15p1 和 COCO 40p10

如图4所示，在两个较长的场景中，使用重放缓冲区发挥着重要作用。实际上，这两个场景对于那些新任务中的数据不包含先前任务中目标示例的应用来说非常相关。

picture.image

在表3中，作者报告了平均性能，包括遗忘（旧）和可塑性（新）。具体来说，在每一个新任务中，作者测量旧类别（来自先前任务）的mAP和新型别（新类别）的mAP，并在表3中报告所有任务的平均值。

phenomenon，然而，对于双任务场景，由于ERD对遗忘的抵抗力更强，因此表现出更强的性能。正如预期的那样，对于较短的场景，作者认为由于YOLO-LwF利用分类置信度来适当地加权更可靠的教师预测，在较长的场景中，由于旧类别的实例较少，YOLO-LwF容易忘记，因为从教师那里获得的有意义的知识量较少。当额外使用重放缓冲区时，这一事实得到了证实。

当基于蒸馏的方法与重放缓冲区结合时，YOLO-LwF在两种场景下都优于其他方法，显示出YOLO-LwF与重放记忆结合时的适应性。关于COCO 40p10，与ERD不同，YOLO-LwF在稳定性方面有所提升（从16.8提高到25.1），同时塑性略有下降（从27.8降至27.5）。至于VOC 15p1，YOLO-LwF依然表现出色，这得益于其显著的抗遗忘能力。然而，与所有基于蒸馏的方法一样，与RCLPOD相比，在塑性方面仍存在重要差距。这一事实突显出，基于蒸馏的方法仍有改进空间，以缩小与联合训练的差距。

5.3 消融

在此，作者讨论了为YOLO适配LwF所提出的各种技术。关于方程4中提出的权重，作者用符号Cls-IoU来指代。

在表4中，作者报告了在VOC 10p10场景下，逐步添加每个组件所获得的mAP提升。使用CE代替L2，在稳定性和塑性方面都实现了显著提升，最终提升幅度达到

。通过使用WCE，如公式2所示，作者获得了塑性稳定性的额外提升。在给出新标签时对旧类别进行 Mask ，作者获得了稳定性提升，同时塑性略有下降。最后，Cls-IoU在稳定性略有下降的情况下恢复了塑性。

picture.image

此外，作者还研究了在具有重放缓冲区的YOLO LwF中，WCE和Cls-IoU在具有挑战性的VOC 15p1场景下的作用。如表5所示，WCE在更长的场景中尤为重要，带来了2.7 mAP的提升。此外，Cls-IoU能够在不牺牲过多稳定性的情况下显著提高塑性。因此，这项消融研究展示了CE的重要性，并突出了WCE和Cls-IoU在实现更好的稳定性-塑性权衡方面的有效性。

picture.image

6 结论

在本工作中，作者提出了一种基于知识蒸馏的现代YOLO目标检测器方法，称为YOLO LwF。如前述CLOD工作所示，从回归输出中提取知识以达到良好的稳定性-塑性平衡极具挑战性。在作者的工作中，作者分析了YOLO的主要特征，并证明了这一问题的本质。首先，作者展示了使用交叉熵损失进行回归蒸馏的有效性。为了减少噪声回归问题，作者提出将回归蒸馏知识与分类知识相结合，反之亦然，将分类知识与回归相结合。

作者证明了当与重放记忆相结合时，YOLO LwF显著减轻了遗忘现象。与先前的方法相比，它在VoC和COCO基准测试中分别实现了最先进的性能，将mAP提高了

和

。

参考

[1]. TEACH YOLO TO REMEMBER: A SELF-DISTILLATIONAPPROACH FOR CONTINUAL OBJECT DETECTION

picture.image

扫码加入👉

「集智书童」

交流群

（备注：

方向

学校/公司+

昵称

）

picture.image