点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
增量目标检测(IOD)旨在顺序学习新类别,同时保持定位和识别旧类别的能力。由于训练数据仅带有新类别的标注,IOD面临灾难性遗忘的问题。
先前的方法主要通过知识蒸馏和示例复现来解决遗忘问题,忽略了有限的模型容量与不断增加的知识之间的冲突。在本文中,作者探索了基于Transformer架构的增量目标检测中的动态目标 Query 。
作者提出了动态目标 Query 为基础的检测Transformer(DyQ-DETR),它逐步扩展模型表征能力,以实现稳定性与可塑性的权衡。首先,一组新的可学习目标 Query 被送入解码器以表征新类别。这些新的目标 Query 与之前阶段的目标 Query 聚合,以适应旧知识和新知识。
其次,作者基于解耦的自注意力提出了不同阶段目标 Query 的孤立二分匹配。消除了不同阶段目标 Query 之间的交互,以减少类间混淆。
得益于对目标 Query 的独立监督和计算,作者进一步提出了风险平衡的部分校准,以实现有效的示例复现。
大量实验证明,DyQ-DETR在有限的参数开销下显著超越了现有最佳方法。
1 Introduction
人类天生具有在不遗忘先前概念的基础上逐步学习新概念的能力,能够从过去的经历中获取并积累知识。传统的目标检测模型依赖于固定数据的监督学习,其中所有类别都是预先定义并事先知晓的。然而,现实世界的数据随时间不断演变,导致分布非平稳。由于“稳定性-弹性”困境,直接在新的类别数据上微调模型会导致“灾难性遗忘”,而联合训练在计算和存储上又是昂贵的。因此,增量目标检测(IOD)在研究和实际应用中越来越受到关注。
最近IOD的进展采用了知识蒸馏和样本回放来解决遗忘问题。基于知识蒸馏的方法通常涉及对旧模型非背景预测的知识蒸馏,以避免由过多的背景预测引起的失衡问题。另一方面,基于样本回放的方法通过保留过去训练数据(样本)的一个小子集,并在后续阶段回放它们,以减轻对旧数据的遗忘。尽管取得了进展,但仍存在局限性。首先,由于模型容量固定,保留旧类别知识与逐步学习新类别知识之间存在严重冲突。这不仅阻碍了新类别知识的接纳,还导致了旧类别知识的覆盖和遗忘。第二,具有不完整标签的样本回放方法不够充分。即使伪标签是一种直观的方法,从旧知识继承的低质量监督将阻碍适应过程。
为了解决上述问题,作者提出了基于动态目标 Query 组装的检测Transformer(简称DyQ-DETR)用于增量目标检测。受到为增量分类设计的动态网络的启发,作者试图探究动态架构在IOD(增量目标检测)中扩展模型容量的可行性。具体来说,目标 Query 作为记忆中特定类别的代表性本质。
旧类别的目标 Query 可以通过可学习的新 Query 进行组装,以动态扩展表示,同时内存开销有限,时间开销可接受。如图1所示,作者首先利用附加Transformer编码器的CNN获取整幅图像的视觉特征。然后在每个增量步骤中,将之前步骤中的目标 Query 集合与对应新类别的可学习 Query 进行组装。
此外,作者解耦自注意力,并将二分匹配隔离,以移除来自不同步骤的目标 Query 之间的交互。另外,作者提出了风险平衡的部分校准方法,以应对不完全标注的有效样本回放。
总体而言,作者从动态网络的视角规避了IOD中的“灾难性遗忘”,并受到增量学习中添加类别标记的有效性启发。值得注意的是,在目标检测中,单个图像中可能会共存一个类别的多个目标(有时甚至很多)。作者采用了多对多的动态 Query 匹配,而不是一对一的匹配,其中稀疏的目标 Query 隐式地与一个或多个已见过的旧类别的内容和位置信息相关联。作者提出为顺序到达的类别数据记忆目标 Query 集合。
一组独立的 Query 负责检测在同一时间步骤到达的一组类别中的目标。通过从之前步骤增量聚合类别相关的目标 Query 并学习新的类别嵌入,作者使用轻量级的 Query 嵌入分离了旧类别和新类别的知识表示,同时保持了稳定性和可塑性。至于样本回放,作者建议保留匹配损失适中的图像作为样本,并在仅标注类别的对应 Query 输出上执行部分校准。
这种风险平衡的部分校准避免了过分关注任何特定阶段的类别,并消除了对低质量伪标签的依赖。通过动态目标 Query 和风险平衡的部分校准,作者提出的DyQ-DETR显著减轻了IOD中的遗忘问题。主要贡献有三点:
- 作者提出了一种将动态目标 Query 集成到Detection Transformer中进行增量学习的新方法。通过将目标 Query 动态地融入到DETR中,作者的方法提供了一种简单而有效的手段,以扩展模型的能力,同时兼容新知识的适应和旧知识的保持。
- 作者为动态目标 Query 提出了解耦的自我关注机制。为了动态的知识扩展,来自不同阶段的目标 Query 的独立二分匹配进一步解耦了旧类别和新类别的表示学习。
- 作者提出了一种风险平衡选择机制,以探索信息丰富且可靠的样本。将部分校准进一步与样本回放结合,以处理增量检测中不完整标注的问题。
在公共基准测试上的大量实验证明了作者提出的DyQ-DETR的优越性,其性能大幅领先于现有最佳方法。在没有样本的情况下,平均提高了**4.3%的,在使用样本回放的情况下,平均提高了 2.9%**的。
2 Related Work
增量学习(IL) :目前主流的增量学习方法大致可以分为基于正则化、基于蒸馏和基于结构的方法。基于正则化的方法估计参数的重要性,并对关键参数的更新进行惩罚,以保持先前的知识。基于蒸馏的方法通过匹配逻辑值、特征图[7]或其他信息,在新旧模型之间建立映射,利用知识转移以防止遗忘。基于结构的方法动态地扩展代表性的网络,例如主干网络、提示等,以适应不断变化的数据流。
增量目标检测(IOD) :作为增量学习的一个典型扩展,IOD涉及旧类和新类多个目标的同时出现。这种共存使得知识蒸馏成为一种本质上有效的IOD策略,因为它允许利用来自新训练样本中的旧类目标,以最小化先前更新模型与当前更新模型之间的响应差异。作为一项开创性工作,ILOD[48]将旧类的响应进行蒸馏,以对抗在Fast R-CNN[10]上的灾难性遗忘。知识蒸馏的思想随后被扩展到其他检测框架,例如CenterNet[64](SID[40])、RetinaNet[28](RILOD[21])、GFLV1[24](ERD[9])、Faster R-CNN[46](CIFRCN[12],Faster ILOD[39],DMC[61],BNC[6],IOD-ML[17])和Deformable DETR[65](CL-DETR[32])。基于Deformable DETR而非传统的检测器(如Faster R-CNN),DyQ-DETR可以有效地扩展 Query ,而不是低效地扩大主干网络或特定的卷积层。请注意,DyQ-DETR也使用了知识蒸馏技术。至于样本重放[16],提出在每个增量步骤后维护一个样本集并在样本上进行微调。[31]提出了一种自适应采样策略以实现更有效的样本选择,[32]提出了一种保持分布的校准方法,该方法选择样本以匹配训练分布。它们通常直接使用带有不完整标注的样本集进行微调,并忽略标注目标的信息量和可靠性。
基于Transformer的目标检测 :开创性的工作DETR(DEtection TRansfomer)[3]将目标检测公式化为一个集合预测问题,具有优雅的基于Transformer的架构。它通过注意力机制捕捉全局上下文并推理目标关系。使用一组可学习目标 Query 和匈牙利二分图匹配[20],它无需复杂的非最大值抑制和许多其他手工设计的组件即可展示良好的性能。Deformable DETR[65]在多级特征图上引入稀疏注意力,从而加速了DETR的收敛并提高了性能,特别是对于小型目标。还有许多其他DETR变体旨在加速收敛速度并增强检测性能。不失一般性,作者基于常用的Deformable DETR构建了作者的方法。
3 Methodology
预备知识 在IOD范式下,从顺序到达的训练数据中分多个步骤执行目标检测,以识别并在测试图像中定位所有已见类的目标。设为包含样本的数据集,其中是图像,是目标类别标签及相关边界框的集合。假设有个步骤。在时间步,到来的数据集表示为,其中的目标属于在中已见的类别。特别地,中的图像仅针对中的目标进行了标注。此外,不同时间步的类别集合相互排斥,即,。由于仅包含中的类别标注,每个类别只能在特定的步骤中学习一次。由于当前数据中缺少旧类别的标注,检测模型容易忘记旧类别的知识,而偏向于新类别。为了克服灾难性遗忘,作者将动态目标 Query 引入检测 Transformer (Detection Transformer),并提出用于IOD的DyQ-DETR。
作者基于检测 Transformer 构建了DyQ-DETR,以进行增量目标检测。特别是,作者在第3.2节详细阐述了动态目标 Query 的结构设计和训练策略。第3.3节介绍了风险平衡的示例选择和部分校准。
Transformer-based Incremental Object Detection
作者基于DETR架构构建了DyQ-DETR模型[3; 65]。除了主干网络,DETR还包括一个编码器、一个Transformer解码器以及用于生成目标类别和位置的预测器。编码器接收图像作为输入并输出视觉特征。然后,这些视觉特征和可学习的目标 Query 被送入Transformer解码器进行预测。值得注意的是,作者提出了一种将至今学习步骤中的目标 Query 进行聚合的方法,以抵抗旧类别知识的遗忘。由于在增量步骤中缺少之前所见类别的标注,因此应用知识蒸馏来保留特定类别的旧知识。如图2所示,作者通过设置阈值来选择旧类别的非背景预测。伪标签由上一个模型生成。作者没有将伪标签与真实标签混合,而是分别使用和来监督模型训练。旧类别的伪标签和真实的 gt="" 值分别用于指导学习目标="" query="" 和。此外,不同组别的目标="" 共享transformer解码器的权重参数。为了使计算复杂度线性增长而非二次增长,消除了不同组别目标="" 之间的自注意力。<="" p="">
对于采用示例重放的IOD方法,作者从不同时间步骤的数据集中存储少量示例图像,并引入了一种风险平衡选择机制。在时间步中,作者使用训练后的模型对中图像的标注目标进行评分。从部分二分匹配计算出的损失被视为示例选择的危险分数。作者选择风险分数适中的样本图像,以在标注的重要性和质量之间取得平衡。具体来说,为了构建示例数据集,作者在排序后选择落入中间部分的样本,因为它们是信息丰富且标注可靠的。考虑到中的图像对于特定类别是不完全标注的,作者采用了部分校准。作者利用不完整的标注来校准每个组对应目标 Query 的输出。由于是平衡的,部分校准将阻止模型偏向某些类别。
动态目标 Query 组合
现有的DETR模型使用一组固定的目标 Query (即,可学习的嵌入)作为Transformer解码器的输入。这些目标 Query 逐步优化以映射到图像中的目标实例。尽管设计各不相同,但可学习的目标 Query 与特定类别高度相关。对于IOD,期望目标 Query 与按顺序到达的类别中的目标相关联。由于新类别在之前的步骤中被视为背景,因此旧知识的保持与从新数据学习中的知识更新自然矛盾,尤其是从目标 Query 的角度来看。此外,固定网络与不断出现的类别特定信息之间的冲突严重削弱了增量学习的性能,特别是在非示例场景中。
为了在不增加额外模块的网络架构中处理增量类别,作者专注于使用动态目标 Query 来解决遗忘问题。在时间步,针对一组新类别,新增一组可学习的目标 Query 。新增加的目标 Query 与之前的 Query 集进行聚合。目标 query="" 的组装集在步骤中作为transformer编码器的输入。与新扩展的="" 对应的视觉嵌入用于预测新类别的目标,而旧的类别则使用旧="" 的嵌入进行检测。通过动态扩展目标="" ,新类别和旧类别通过类别嵌入分离,显著减轻了旧知识与新不断演进知识之间的冲突。<="" p="">
基于动态组装目标 Query ,作者进一步研究了解码器设计以限制计算负担。在标准的DETR中,目标 Query 通过交叉关注与视觉特征交互以进行细化。此外,这些目标 Query 通过自关注进行相互交互。通过自关注,可以移除重复的检测结果,但计算复杂度随着目标 Query 数量的增加而呈平方增长。考虑到不同类别集中的目标实例很少重叠,作者在Transformer解码器中解耦了自关注。自关注在以下分离的目标 Query 集之间计算:
其中,表示来自 Query 集和的两个 Query 和之间的关注权重。如公式(1)所示,通过消除不同组 Query 之间的关注交互,作者几乎不花费额外代价就实现了计算复杂度的线性增长。在新增 Query 时,旧 Query 检测旧类别的能力得到充分保留。作者执行与时间步数一样多的解码器前向传播,从不同的 Query 集获取嵌入向量:
其中,表示通过CNN和Transformer编码器从图像中提取的视觉特征。每个解码器前向传播都使用不同的 Query 集执行,得到不同任务特定的嵌入,以获得对应类别的检测预测。
作者进一步为增量检测器训练适配了知识蒸馏。通过旧模型生成的伪标签保持前景预测,并用于监督。如文献[32]中,选择旧模型中置信度高的前景预测。设置一个概率阈值(通常是0.4)在预测分数上。另外,使用一个IoU阈值(通常是0.7)来限制预测不要过于接近新类别目标的 GT 边界框。这有助于过滤掉关于新类别目标的不正确预测,这些目标被误分类为旧类别。过滤后,高置信度的预测用作伪标签,这些标签包含两部分标注(即,预测的目标标签和边界框)。值得注意的是,作者没有将伪标签与真实的标注合并,而是独立地针对不同的目标 query="" 集计算双分匹配损失。保留旧类别知识的损失,以及学习新类别知识的损失可以如公式(3)中制定:<="" p=""></t)\mathcal{l}_{t}^{detr}$的损失可以如公式(3)中制定:<="">
请注意,特定的嵌入向量 (其中 )仅与相应的伪标签或真实标注进行监督,这导致了解耦的表示。总损失是加权求和的形式:
为了解决每一步中类别数量变化的问题,并防止模型偏向类别较少的类别集合,作者将类别集合 的权重 设置为 。
Risk-balanced
对于基于示例回放的IOD(增量目标检测)范式,形成了一个示例记忆来存储少量样本以供后续的增量学习。在时间步,示例集是整个数据集的一个子集。设。中的示例用于表示在中目标的样本。作者旨在选择对检测器训练具有实质性意义的标注了类别的图像。一种直观的方法是直接计算模型输出与真实标签之间的损失来进行样本选择。然而,由于图像只包含对感兴趣类别的标注,这将导致损失被旧类别的缺失所主导,从而给前景与背景的平衡带来挑战。
得益于动态目标 Query 的内部解耦,作者能够使用相应的 Query 专门检测新类别。考虑到图像只对特定类别进行了标注,部分损失更为可靠。为了计算部分损失,作者将旧类别视为的背景,这与不完整的真实标签是兼容的。在每次增量训练步骤后,将来自方程(5)的部分损失视为风险评分,以指导后续的示例选择。
风险评分可以衡量不完整类别标签和边界框的质量。此外,它还考虑了标注目标的数量,如同[32]中所做的那样。如图3所示,风险较低的图像占比较高,为优化提供的信息有限,而风险较高的图像可能是带有错误标注的异常值。基于风险估计,作者在中通过排序和选择风险平衡样本的中部来构建示例集。将示例集与合并,形成用于模型部分校准的集合。
在增量步骤中,示例集用于在训练后微调模型。传统的IOD方法通常直接用数据集微调模型,而没有解决缺失标签的问题。也就是说,平衡示例集中的图像只对来自的特定类别子集进行了标注,而对于其他类别则缺少标注。这种令人困惑、甚至矛盾的监督阻碍了预测校准的过程。一种直观的方法是使用伪标签,但伪标签的质量难以保证。得益于动态目标 Query 和关联解耦计算,作者提出了一种仅依赖于不完整真实标签的部分校准。具体来说,作者计算对应 Query 的输出与中的真实标注之间的部分损失。这种类型的部分校准进一步减轻了遗忘问题。## 4 实验
Experimental Setup
数据集与评估指标。 作者遵循文献[32]的做法,在广泛使用的COCO 2017数据集[29]上进行实验,该数据集包含了自然场景中80个目标类别的图像。作者使用标准的COCO评价指标,包括AP、AP、AP、AP、AP来评估性能。
协议。 作者用两种协议评估DyQ-DETR:_1)_ 传统协议[48](表1左)和 2) 文献[32]提出的修订协议(表1右)。协议 2) 避免在不同阶段观察相同的图像。因此,作者为后续所有实验采用协议 2) ,协议 1) 的具体细节可以在附录中找到。对于协议 2) ,作者采用了两阶段和多变阶段的设置,可以表示为 的形式,其中 表示在第 步增量中的新类别数量(), 的总和表示为 ()。在时间步 ,作者观察了 个新类别标注的 的训练样本。作者测试了设置 = 40 40, 70 + 10, 40 + 20 2, 和 40 + 10 4。遵循[32],作者还为样本示例设置了总共10%的数据集大小的内存预算。
实施细节。 作者遵循[32],在Deformable DETR [65]之上构建DyQ-DETR,去掉了迭代边界框优化和两阶段变体。主干网络是预训练在ImageNet[5]上的ResNet-50[13],并且初始阶段的训练配置与[32]一致,以保持初始阶段性能的均匀性。作者将检测器的初始 Query 数表示为 (通常是300)。对于两阶段和多变阶段设置,作者在每个增量步骤 动态扩展 个 Query ,并且 的初始参数从 继承。在步骤 ,老 Query 在增量训练期间被冻结,并在后续的样本回放中解冻。作者训练模型50个周期,并在微调期间额外训练20个周期。所有实验均在8块NVIDIA GeForce RTX 3090上进行,批处理大小为8。
Quantitative Results
两阶段设置。 作者将DyQ-DETR与LwF[26]、iCaRL[45]、RILOD[21]、SID[40]、ERD[9]以及先前的SOTA方法CL-DETR[32]进行了比较。对于每种设置,作者提供了不同方法在有无样本回放(ER)情况下的性能表现。同时,也展示了联合训练的指标作为参考的上限。表1显示,在两阶段设置中,作者提出的DyQ-DETR在不同协议下均显著优于上述方法。对于协议_2)_,在使用样本回放的情况下,DyQ-DETR在40+40和70+10设置下分别达到了39.7%和41.9%的。它分别超过了CL-DETR在40+40和70+10设置下的2.2% 和1.8% 。与上限相比,DyQ-DETR获得的平均性能差距为1.4%,远小于CL-DETR的3.4%差距。
为了评估模型在保持旧知识的同时学习新知识的能力,作者在40+40设置下与CL-DETR进行了比较,在这种设置下,这两种能力同等重要。CL-DETR在旧类别上的为39.7%,在新类别上的为36.3%,而作者的方法在旧类别上实现了41.3%的,在新类别上实现了38.6%的,分别取得了更好的结果。这验证了作者的方法在稳定性和可塑性方面表现更佳,从而有效地解决了灾难性遗忘问题。
此外,表1在没有示例重放(w/o ER)的情况下包含了性能比较,以展示动态目标 Query 的有效性。在非示例场景中,DyQ-DETR显示出更显著的优势,在40+40和70+10设置下,分别比CL-DETR高出2.9%的和5.6%的。值得注意的是,作者的方法在没有ER的情况下的性能与现有方法在使用ER的情况下的性能相当甚至更好。例如,在40+40设置下,作者的DyQ-DETR w/o ER的性能比CL-DETR w/ ER高出1.6%的。
多阶段设置。 作者在更具挑战性的40+202和40+104设置下进行了实验。图4展示了随时间步骤变化的和。作者的DyQ-DETR一致地优于其他IOD方法。此外,在这两种设置下,随着增量步骤的增加,DyQ-DETR的改进变得更加明显。
可扩展性。 如图5左图所示,通过扩展 Query 而非网络结构,作者方法的附加参数开销几乎可以忽略不计。如图5右图所示,由于移除了组间 Query 交互,作者方法的计算开销线性增长。由于解码器(不包括不同 Query 组共享的部分)在整个模型的计算中只占很小的一部分(6%),作者的计算复杂度以缓慢的线性速率增加。
具体来说,在具有20个阶段且每阶段 Query 增量100条(需要注意的是,标准的Deformable DETR有300条 Query )的情况下,相比于标准的Deformable DETR,DyQ-DETR仅将参数量和GFLOPs分别增加了2%和39%,这证实了其可扩展性。
Ablation Study
动态目标 Query 的效果。 表3在70+10设置中展示了关于动态目标 Query 的消融研究。与 Baseline 相比,简单地扩展 Query (+Nat Query)使提升到34.5%,提升到52.7%,分别提高了1.1%和4.2%。这可以归因于模型容量。通过为动态目标 Query (+Dy Query)配备独立 Query 集上的隔离匹配,作者进一步获得了3.6%的和3.5%的的提升。这验证了动态目标 Query 在保留旧知识的同时学习新知识是有效的。此外,在增量训练期间冻结特定任务的老 Query (+DyFro Query)会导致略微增加0.4%。示例重放的组成部分。 作者为示例重放引入了风险平衡的示例选择(RS)和部分校准(PC)。表3提供了在70+10设置中这两个组件的消融结果。作者将RS和PC分别与CL-DETR [32]中提出的分布保持选择(DS)和直接校准(DC)进行比较。通过单独应用RS和PC,作者分别使提高了0.5%和0.9%。应用整体风险平衡的示例选择和部分校准后,获得了41.9%的,比 Baseline 提高了1.5%。
解耦自注意力的效果。 表4在40+40和70+10设置下的比较显示,移除不同 Query 组之间的自注意力交互对性能几乎无影响。这是合理的,因为不同 Query 组检测到的类别集合不重叠,因此无需自注意力交互来去除重复预测。结合图5-右,通过解耦自注意力计算,可以在不降低性能的情况下,将计算复杂性从二次降低到线性增长。
扩展目标 Query 数量对效果的影响。 表5展示了随着目标 Query 数量的变化, 的表现。结果表明,扩展 Query 的数量对性能影响微乎其微。通过扩展较少的 Query ,作者可以降低复杂性,而对性能的影响可以忽略不计。
解耦 Query 的可视化。 在图6中,作者基于40+20×2设置,在测试集上对动态 Query 的解耦行为进行了可视化。类别“自行车”、“人”和“汽车”分别出现在第1、第2和第3阶段。它们分别由 Query 组、和以解耦的方式检测到。可以观察到,准确检测到“自行车”类别,而和将其视为背景。一旦 Query 组在步骤学会了检测类别集合,其类特定知识此后保持不变,只需要维护旧知识,这显著提高了IOD的性能。
结论
在本文中,作者提出了DyQ-DETR用于增量目标检测。与那些专注于蒸馏机制的主流方法不同,作者从动态网络获得灵感,通过模型能力的扩展来解决灾难性遗忘问题。
具体来说,作者提出了动态目标 Query ,包括新增目标 Query 的增量组装、分离的自我注意力计算以及在不同时间对目标 Query 的独立二分图匹配。
DyQ-DETR可以缓解过时的背景知识与持续出现的新类别之间的冲突,从而实现稳定性与可塑性的权衡。
得益于动态目标 Query 的独立监督,作者进一步提出了风险平衡的部分校准,以实现有效的样本回放,其思想是根据风险选择样本,并在不依赖低质量伪标签的情况下部分微调模型。
广泛的实验表明,作者提出的DyQ-DETR以很小的内存开销大幅超越了现有的IOD方法。除了动态 Query 之外,作者也希望在IOD中探索更多种类的模型扩展方式。
参考
[1].Dynamic Object Queries for Transformer-based Incremental Object Detection.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」