OWOD:深度神经网络在开放式世界目标检测中的新探索 !

大模型机器学习算法

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

探索新知识是人类的基本能力,这可以从深度神经网络的发展中得到体现,特别是在目标检测领域。开放式世界目标检测(OWOD)是研究这一原则的新兴领域,它将这一原则应用于探索新知识。

它关注的是识别和学习从初始训练集中缺失的目标,从而在引入新的类别标签时逐步扩大其知识库。

本文回顾了OWOD领域的重要方面,包括问题定义、基准数据集、源代码、评价指标以及现有方法的比较研究。

此外,作者还探讨了与OWOD相关的领域,如开放式集合识别(OSR)和增量学习(IL),并强调它们与OWOD的相关性。最后,本文通过讨论当前OWOD算法的局限性和挑战,并提出未来研究的方向。

据作者所知,这是对新兴OWOD领域的第一篇全面调查,有超过一百个参考文献,为目标检测技术的发展迈出了重要的一步。

https://github.com/ArminLee/OWOD\_Review。

I Introduction

目标检测,即在图像中定位和识别物体,对于实际应用至关重要。目标检测可以用于自动驾驶以识别和响应障碍物,以及机器人视觉以导航和交互物体。此外,还有许多应用场景,例如视频监控以监控活动,医学影像以检测异常,以及工业自动化以确保质量控制。然而,传统的目标检测方法假设在训练过程中所有需要检测的类别都存在,这导致两个问题:

1)图像可能包含物体来自未知类别,目标检测器应该对其进行分类;

2)当关于这些未知的信息变得可用时,模型应该能够逐步学习新类别,同时不忘记已学习到的类别。

受到发展心理学实证研究[5, 6]的启发,这些研究揭示了认识到自己知识中的空白是培养好奇心和获取新知识的关键[7, 8], Joseph等人[9]首次提出了开放世界目标检测(OWOD)的概念。这种方法关注同时检测已知和未知类别,逐步学习已识别的未知类别,反映了现实世界的动态性,其中知识不断增长。

OWOD正在崛起并逐渐受到广泛关注,最近的研究工作表明它与传统目标检测方法有本质区别。传统方法受限于一组预定义的类别,限制了其在动态环境中的适应性。相比之下,OWOD旨在实现持续的适应性,承认现实场景的不可预测性。虽然传统模型可能会误分类或忽略不熟悉的目标,但OWOD可以识别并可能 Token 这些“未知物”,强调其适应性和可扩展性。传统系统依赖于完整的数据集,通常需要计算密集的再训练来适应新类别。而采用逐步学习方法的OWOD可以无缝集成新数据,无需进行如此广泛的再训练。OWOD的一个显著优势是它减轻了“灾难性遗忘”问题,这是增量学习领域的一个挑战,即在更新新数据时,模型可能会丢失旧知识。这确保了OWOD在适应新输入时保留先前学习的信息。本质上,OWOD提供了一种更适应性、可扩展和高效的目标检测方法,使其更适合现实场景的动态和不可预测性。

图1展示了OWOD问题的简要示例。随后的OWOD方法被提出并逐步完善了该领域的基准。MS-COCO数据集的80个类别根据语义超类别分为四个不同的任务,每个任务的数据集都选择每个类别的数据。为每个任务引入了20个类别。报告了新类别和先前已知类别的未知召回率和平均精确度作为结果。

picture.image

为更好地理解OWOD的发展和基础,有必要回顾其在OSR和ILOD中的起源。如图2所示,该领域的里程碑按时间顺序列出。OWOD的基础概念建立在OSR和ILOD的前期工作中。Scheirer等人于2012年首创了OSR,并在《Towards OSR》一文中进行了介绍[17],随后出现了基于深度学习的OWOD方法,如OpenMax[18]和CROSR[19]。ILOD[20]于2017年引入,通过Faster ILOD[21]进行了优化,以提高速度和准确性。其他方法如RODEO[22]和iOD-ML[23]也展示了更好的性能。

2021年,Joseph等人[9]将OSR和ILOD的概念进行了综合,提出了OWOD,定义了一个模型来检测已知和未知类,并逐步学习已识别的未知类,这受到了实际知识增长的动态性质的启发。这一综合标志着一个关键的里程碑,引领了各种OWOD方法论的发展,如OW-DETR[10],RE-OWOD[24],UC-OWOD[25],PROB[11],CAT[13],OCPL[26],以及OW-RCNN[14]。

picture.image

尽管有许多关于传统目标检测的综合评论文献,如[27, 28, 29, 30, 31],但它们并未完全解决开放世界目标检测(OWOD)的问题。相关调查如Geng等人[32]和Tian等人[33]分别涵盖了开集识别和少样本分类渐进学习,但并未反映出OWOD的渐进学习方面。Boult等人[34]将OSR扩展到Open World Recognition,包括大多数开集深度网络。Wu等人[31]讨论了开放词汇目标检测,强调利用文本信息和未知类别的词向量,而OWOD并不具备这些额外信息,因此关注系统在动态环境中的适应能力。此外,随着相关方法的增加,提出了各种数据划分和评估指标。因此,没有全面综述论文总结所有开放世界目标检测方法。

这篇综述论文旨在为计算机视觉和机器学习领域的的研究者和实践者提供参考,尤其是对OWOD感兴趣的学者。本文的覆盖范围包括OWOD的基本概念、核心挑战、主流方法、基准测试以及未来研究方向。通过系统地回顾和总结现有的OWOD工作,本文旨在为相关的研究者和实践者提供全面的参考,帮助他们快速了解OWOD的研究现状和发展趋势,并为这个领域的未来研究提供启示和灵感。与之前的综述论文[32, 33]相比,本文是首次对OWOD领域进行综述,涵盖了OWOD领域最新的模型和方法。

作者采用的角度与其他文献不同,即[32, 33, 28],作者将OSR与ILOD相结合,同时考虑开放和增量学习的特性。通过深入分析和总结现有的OWOD方向的文章,作者根据在区域建议和未知感知分类模块上使用的技术,提出了一种新的OWOD算法分类方法。具体而言,作者在第二部分介绍了 Backbone 网络、 Baseline 和相关领域,如增量学习和开放集识别。在第三部分,作者对现有的OWOD方法进行了全面的回顾,包括他们的优点和局限性。第四部分描述了标准基准,包括数据集和评估指标。基于这些基准,作者在第四部分还展示了最先进方法的全面比较。最后,作者在第五部分讨论了该领域的当前挑战和未来方向,以及这项工作的潜在影响,并在第六部分得出结论。

本文的主要贡献如下:

  1. 迄今为止,这是第一篇全面调查OWOD方法的论文,旨在解决迫切需要研究、比较、分析和总结该领域现有状态的问题。
  2. 作者提出了一种新颖的分类方法,对OWOD算法进行分类,该分类基于所采用的区域 Proposal 和未知-感知分类模块中的技术。
  3. 作者的论文独特地将开放集识别(OSR)、增量学习目标检测(ILOD)和开放词汇目标检测(OVOD)的概念相结合,整合了开放和增量学习的特性,为OWOD提供了一种新的视角。
  4. 作者描述了标准基准测试,包括数据集和评估指标,并基于这些基准对最新的OWOD方法进行了全面的比较。

II Related Work

在本节中,作者回顾了开放世界目标检测(OWOD)的相关工作,包括第II-A节中常用的 Backbone 网络,第II-B节中的目标检测 Baseline ,第II-C节中的开集识别,以及第II-D节中的增量学习。图3展示了OWOD相关领域的关系Venn图。

picture.image

Backbone Networks

"backbone"指的是一个用于处理输入图像并提取特征的深度神经网络架构。目前,许多神经网络的backbone都是公开的并具有开源属性。由于它们的出色性能和效率,有几个backbone非常受欢迎,如来自视觉几何组(VGGNet)的非常深卷积网络[35],残差网络(ResNet)[36],移动网络[37]和高效网络[38]。

选择 Backbone 网络对目标检测模型的性能有显著影响。在OWOD的背景下, Backbone 网络应能捕获已知和未知类别的判别性特征。近年来, Backbone 网络架构的先进发展,如引入基于Transformer的模型如ViT [39] 和 DETR [40],在目标检测任务中取得了有前景的结果。这些模型利用自注意力机制来捕捉长程依赖关系和全局上下文,这对检测复杂场景中的物体特别有益。 Backbone 网络从早期架构如VGGNet到更先进的模型如ResNet和Transformer的演变,在提高目标检测和识别性能方面发挥了重要作用。

Object Detection Baselines

深度学习基础的目标检测技术在几年间取得了显著的发展,目标检测方法在诸如等几篇论文中得到了全面的调查。最初,目标检测模型依赖于手工设计的特征提取器,如Viola-Jones检测器[44]和Histogram of Oriented Gradients (HOG)[45],这些方法速度慢且准确度低。CNN的出现及其在图像分类中的应用,特别是AlexNet在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)中的成功[46],标志着视觉感知的一个转折点。这导致了计算机视觉领域的进一步研究和开发,产生了各种目标检测应用,包括自动驾驶、人脸检测和安全系统。

随着时间的推移,目标检测模型逐渐演化为单阶段和两阶段检测器,各自具有其优势和局限性。单阶段检测器如YOLO(You Only Look Once)[1]以其速度和实时应用的适用性而闻名。与此同时,两阶段检测器,如Faster R-CNN[2],通常更准确但速度较慢。现代技术进步也着重于开发用于移动和嵌入式系统的轻量级模型,强调了高效可扩展解决方案的需求。例如,EfficientDet[47]通过可扩展设计实现了高准确率和效率。特征金字塔网络(FPN)及其变体[48, 49]为不同大小物体的检测提供了可扩展性,推动了其他目标检测应用程序的发展[3]。Swin Transformer[50]引入了基于transformer的backbone,承诺从传统CNN中实现范式转变。在这些巨大的工作中,基于这些backbone架构简单但性能良好的目标检测模型(或 Baseline 模型)被开发出来,为评估新技术和架构的有效性提供参考,包括OWOD。因此,作者回顾了使用不同backbone和 Baseline 的各种方法。

基于区域的卷积神经网络(R-CNN)[51]可以在图像中识别和定位目标。它分为两个阶段:区域 Proposal 生成和目标分类。首先,提出可能包含目标的感兴趣区域(RoI)。然后,分类分支将对这些区域分类到相应的目标类别中。

R-CNN的挑战在于其由于使用选择性搜索进行 proposal 提取而导致推理速度较慢。为了解决这个问题,Fast R-CNN [52] 引入了 RoI 池化,通过在 proposals 之间共享卷积特征来减少冗余,从而加快检测速度。Faster R-CNN [2] 引入了一个区域建议网络(RPN),一个直接生成 proposals 的子网络,使得整个架构端到端可训练。

53] 引入了一个分支来预测目标 Mask ,与Faster R-CNN并行。这个 Mask 分支划分了目标边界,增强了R-CNN的分割能力。

更快版本的F-RCNN [2] 可以集成各种特征提取器,如VGG和ResNet。其他F-CNN的变体包括特征金字塔网络(FPN)[48],该网络融合了多尺度特征图;级联F-CNN [54],通过提高IoU阈值进行检测的优化;以及选择性嵌套迭代池(SNIP)算法[55],该算法选择性地池化多个尺度的区域建议以详细描绘目标。

Transformer (Transformer)[56] 方法已在所有基于学习的研究中广泛应用,因为自注意力机制的高潜力。在领域Of OWOD(One-shot Object Detection)中,也得到了广泛认可和研究。检测 Transformer (DETR)[40] 是一种基于 Transformer 的模型,可以直接预测物体的边界框和类别标签,而不依赖于诸如 Anchor 框的组件。DETR 使用一个 Backbone CNN 从输入图像中提取特征,然后通过 Transformer 编码器-解码器架构对其进行处理。自注意力机制使模型能够捕捉物体之间的关系和全局上下文,从而提高定位和识别的准确性。

在 DETR 的基础上,可变形 DETR [57] 引入了可变形注意力模块。这些模块通过允许在输入特征图内自适应采样位置来增强 Transformer 建模空间关系的能力。可变形 DETR 通过解决常规网格注意力机制的局限性来提高定位准确性。DETR 的一种关键设计是建立一对一的匹配以实现其端到端能力,这样目标检测就不需要手工设计的非极大值抑制(NMS)来移除重复检测。最先进的变体 H-DETR [58] 施加了一种混合匹配方案,在训练过程中将原始一对一匹配分支与辅助的一对多匹配分支相结合。SETR [59] 专注于解决目标检测中常规网格注意力机制的局限性。它引入了一个位置嵌入模块,编码物体 Proposal 的空间坐标,使模型能够推理物体的空间布局。

Co-DETR [60] 提供了一种新的训练框架,利用多个并行辅助头,由一对一的标签分配监督,从而进一步提高了基于 DETR 方法的效率和有效性。

Open Set Recognition

作为开放集识别(OSR)问题的扩展,开放世界目标检测(OWOD)继承了一些OSR的特征。因此,对OSR的概述有助于更好地理解OWOD。开放集识别是一种场景,其中训练数据在类别上不完整,并且可以在测试时提交一些未知类别。这意味着分类器必须能够准确地分类已知的类别,并有效地处理未知的类别。简而言之,开放集识别就是确定一个测试样本是否属于分类器训练过的类别之一的能力。在本节中,也引入了外域(Out-of-distribution,简称OOD)检测,或开放集检测。

如图17所示,远离已识别数据区域,包括已知已知类(KKCs)和已知未知类(KUCs),通常被识别为开放空间,记作。将该域内的任何数据点分配为随机KKC都存在固有的风险,称为开放空间风险,。由于在训练过程中未考虑未知未知类(UUCs),因此定量衡量开放空间风险通常具有挑战性。相反,[17]提供了一个关于的定性框架。在这里,与开放空间相对于整个测量空间的大小进行定义:

picture.image

在这个方程中, 表示一个可测的识别函数。当 时,表示在 KKCs 内检测到一个类别,而当 时,表示没有识别出任何类别。根据这个定义,在开放空间中使用更多 Token 数据作为 KKCs,会导致 的增加值。

假设 表示训练数据集。让作者用 代表开放空间风险,而 表示经验风险。在开集识别中,目标是识别出集合 内的可测识别函数 ,当 时,表示正确识别。函数 通过旨在减少相关开集风险而得到。为了正式化这个问题,开集风险定义在 [17] 中,如公式 (2) 所示。

picture.image

因此,OSR问题的目标是识别一个可量化的识别函数,该函数最小化开集风险。

根据[32],OSR算法可分为两类:判别模型和生成模型。从判别模型的角度来看,有两个子类别:基于传统机器学习的算法(TML)和基于深度神经网络(DNN)的算法。对于生成模型,实例生成和非实例生成算法是两个子类别。现有的大部分工作都关注基于DNN的OSR。下面是不同OSR方法的详细总结。

Iii-C1 TML-based Open Set Recognition

在OSR场景中,训练和测试数据来自相同分布的假设不再成立。这些方法旨在将传统机器学习方法适应到OSR。根据传统机器学习方法,这些方法可以分为几类。

基于SVM的方法通过在模型中引入开放空间风险项,将支持向量机(SVM)适应于OSR场景,以考虑KKC之外的空间。1-versus-Set机器[17]在模型中引入开放空间风险项,通过在分数空间中添加另一个超平面与SVM获得的分离超平面并行。Weibull-calibrated SVM(W-SVM)[61]将非线性核函数引入到解决方案中,进一步通过仅正 Token 具有有限测量的集合来限制开放空间风险,并结合统计极值理论(EVT)进行分数校准,同时使用两个分离的SVM。基于稀疏表示的方法利用稀疏表示技术进行OSR。稀疏表示基于开放集识别模型(SROSR)[62]使用EVT来模拟匹配和非匹配重建误差分布的尾部。

然而,它有一些局限性,例如在数据集中存在极端的姿态、照明或分辨率变化时,它可能会失败。基于距离的方法试图在OSR场景中实现基于距离的分类器。最近非异常(NNO)[63]在最近类均值(NCM)分类器的基础上进行扩展,通过根据测试样本与KKC之间的距离进行分类,可以动态地基于手标数据添加新类。基于间隔分布的方法利用间隔分布来提供比软间隔SVM提供的更好错误边界。极端值机器(EVM)[64]起源于间隔分布的概念,通过从每个类别形式扩展到样本形式的间隔分布理论,获得一个理论上更坚实的分类器。

Iii-B2 DNN-based Open Set Recognition

随着更强大的计算资源的开发,深度神经网络在许多应用场景中发挥着重要作用,包括开集识别。然而,由于其固有的封闭集性质,DNN在处理未知未知类(UUCs)样本时往往会出现错误的预测。以下基于DNN的开集识别方法采用了不同的方法来解决这个问题。

Bendale和Boult提出了OpenMax [18],该方法用OpenMax层替代SoftMax层,将每个类别表示为该网络后一层激活向量的均值激活向量(MAV)。然而,它无法识别对抗性图像,并存在一些局限性,例如并未直接激励将类样本投影到MAV附近。Hassen和Chan [65]提出了一种基于神经网络的开放集识别表示,以解决由于测试和训练距离函数不一致而导致的不准确测量问题。

在OpenMax之后,Prakhya等人[66]探索了开放集文本分类。Shu等人[67]提出了一种深度开放分类器(DOC)模型,用1对余(1-versus-rest)的最终层替换SoftMax层,该层使用符号函数。Kardan和Stanley [68]提出了一种竞争过完备输出层(COOL)神经网络,以避免神经网络在远离训练数据区域的泛化问题。Oza和Patel提出的C2AE模型[69]使用了具有新训练和测试方法的类条件自动编码器。

Iii-B3 Instance Generation-based Open Set Recognition

基于实例生成的OSR方法旨在考虑由对抗学习(AL)技术生成的开放空间(UUCs)。这些方法使用生成模型和判别模型,其中生成模型学习生成可以欺骗判别模型作为非生成样本的样本。Ge等人提出了生成OpenMax(G-OpenMax)[70],使用条件生成对抗网络(GAN)合成UUCs的混合物并提供生成UUCs的显式概率估计。由Yu等人提出的对抗样本生成(ASG)框架[71]可以应用于除了神经网络以外的各种模型,并且可以生成UUCs和KKCs的数据(如果需要的话)。

Iii-B4 Non-Instance Generation-based Open Set Recognition

作为非实例生成的基于 Dirichlet 过程的 OSR 方法,Dirichlet 过程基础的 OSR 方法 [72] 旨在将广泛应用于聚类和密度估计问题的非参数 Dirichlet 过程(DP),调整为 OSR 场景。Geng 和 Chen [72] 提出了一种集体决策为基础的 OSR 模型(CD-OSR),该模型将层次 Dirichlet 过程(HDP)调整为 OSR,并可以处理批处理和单个样本。

在训练阶段,CD-OSR 进行协同聚类过程以确定适当的参数。在测试阶段,它使用一个具有未指定组件数或子类的 Gaussian 混合模型(GMM)将每个 KKC 的数据建模为 CD-OSR 的一组。在协同聚类完成后,可以识别出对应类别的一个或多个子类。然后,根据分配的子类是否与相应的 KKC 相关,将测试样本分类为适当 KKC 或 UUC。

Iii-B5 Out-of-distribution Detection

异分布(Out-of-distribution,简称OOD)检测方法可以广泛分为分类方法、密度方法、距离方法和重建方法。每个类别都采用不同的方法来识别偏离训练分布的样本。分类方法包括基于输出和异常曝光的技术。例如,ODIN [73]使用温度缩放和输入扰动来改善内分布和OOO样本之间的分离,而LogitNorm [74]在训练期间强制对对数几率进行常数向量范数约束,以产生更可靠的置信度分数。Outlier Exposure(OE)[75]在训练期间利用外部OOOD数据集来增强检测能力。密度方法明确地建模内分布数据的密度,将低密度区域 Token 为OOO。

例如,使用条件高斯分布[76],根据其在模型中的似然度来识别OOO样本。距离方法计算测试样本与类别原型或质心在特征空间中的距离。例如,Mahalanobis距离基于OOO检测[76]和基于KNN的方法[77],它们使用最近的邻居距离,而不假定特征空间具有任何特定的分布。重建方法依赖于自动编码器或类似的技巧,通过分析重构误差来检测OOO样本,例如基于自动编码器的方法[78]和MoodCat[79]。

综上,OSR实现了OWOD的部分目标。这些想法可以应用于OWOD,以获得未知检测和分类的准确结果。然而,当呈现新 Token 的UUCs时,OSR或OOd模型无法更新知识,这应在下一节中与增量学习相结合。

Incremental Learning

增量学习是一种机器学习方法,它允许在不重新训练整个模型的情况下,逐步更新现有模型。在OWOD(面向目标的增量学习)中,增量学习可以通过接收新数据或新任务,逐步提高模型的性能,同时不会对现有知识造成太大的干扰。这种方法在许多实际应用中非常有用,尤其是在数据不断增长或任务发生变化时。

为了在保持原有知识的同时获取新知识,增量学习应克服稳定-可塑性困境。在模型训练中存在一个常见缺陷,称为灾难性遗忘,其中机器学习模型(尤其是基于反向传播的深度学习方法)在训练新任务时,通常会在先前的任务上表现出显著的性能下降。灾难性遗忘的主要原因之一是传统模型假设数据分布是固定的或静止的,并且训练样本是独立且同分布的。

因此,模型可以反复看到相同的数据用于所有任务。然而,当数据成为连续数据流时,训练数据的分布是非平稳的。由于模型不断从这种非平稳数据分布中学习,新知识干扰了旧知识,导致模型性能迅速下降,甚至完全覆盖或遗忘以前学习过的知识。

增量学习,根据其算法,可以分为三类,即正则化方法、回放方法和参数隔离方法。正则化和回放增量学习的范式受到了更多关注。参数隔离范式需要引入更多的参数和计算复杂度,因此通常用于简单任务的增量学习。

Iii-D1 Regularization-based Incremental Learning

基于正则化增量学习的核心思想是通过对新任务的损失函数施加约束,来保护旧知识不被新知识覆盖。这类方法通常不需要模型重新访问以前学习过的任务,并使用旧数据。遗忘学习(LwF)[80]算法是典型的正则化增量学习方法。这个思想源于知识蒸馏,通过蒸馏损失使新模型在新任务上的预测与旧模型在新任务上的预测相似。

然而,这种方法的一个缺点是它严重依赖于旧任务和新任务之间的相关性,当任务之间的差异过大时,可能会发生跨任务混淆。一些研究行人针对LwF算法提出了各种改进策略。一些著名的算法包括基于低维特征映射的Encoder Based Lifelong Learning(EBLL)[81]算法,以及基于贝叶斯框架的Elastic Weight Consolidation(EWC)[82]算法。EWC算法对应于一种通用的参数约束方法。总的来说,基于正则化增量学习的方法通过引入额外的损失来纠正梯度,以保护模型学习到的旧知识,在特定条件下提供缓解灾难性遗忘的方法。然而,尽管当前深度学习模型过拟合,模型容量仍然有限,作者通常需要在新旧任务性能之间找到平衡。

Iii-D2 Replay-based Incremental Learning

基于回放的学习的基本思想是回顾旧数据。在训练新任务时,保留旧数据的一个代表子集并用于回顾模型已学习的旧知识。因此,需要考虑保留旧任务数据的部分以及如何使用旧和新技术训练模型。iCaRL [83]是最经典的基于回放的学习增量学习模型,其思想类似于LwF。它还引入了蒸馏损失来更新模型参数,但放宽了完全不使用旧数据的约束。一些[84][85]算法动态地调整保留旧数据的数量,以避免随着任务数量的增加计算成本呈线性增长,从而避免了LwF算法中计算成本线性增加的缺点。iCaRL的增量学习方法更新旧任务的参数,这可能导致模型过度拟合保留的旧数据。因此,提出了GEM(梯度事件记忆)[86]来仅更新新任务参数,而不干扰旧任务参数。

GEM 使用不等式约束来修改新任务的梯度更新方向,希望模型在不增加旧任务损失的情况下最小化新任务损失。总的来说,基于重放的学习的主要缺点是需要额外的计算资源和存储空间来回忆旧知识。当任务数量继续增加时,要么训练成本增加,要么代表样本的权重减弱。

总体而言,增量学习的优势在于可以在任何时间训练新数据,而不需要保留大量的训练数据,从而降低了存储和计算成本。此外,它还可以有效地避免隐私泄露问题,这在边缘计算的背景下非常有价值。然而,当前的增量学习仍然是一个非常开放的研究问题,大部分仍处于理论探索阶段。

Iii-B3 Incremental Learning Object Detection

增量学习也可用于目标检测领域,以解决开放世界目标检测问题。传统的目标检测模型通常从头在固定数据集上进行训练,但增量学习允许模型在不丢弃之前学习到的知识的情况下适应新的信息。

蒸馏方法广泛用于处理灾难性遗忘。ILOD [20] 首次提出用于解决此遗忘问题。它包含一个冻结的原检测器副本,用于选择对应旧类的 Proposal 并计算蒸馏损失。此外,它还包含一个用于新类的新适应网络。为了防止灾难性遗忘,两个网络通过提出的有偏蒸馏进行连接。为了在边缘加速,RILOD [87] 提出了一种带有旧和新模型之间约束的边界框蒸馏方法。在单个GPU上,学习新物体类别可以在不到2分钟内完成,具有卓越的检测准确性。同样,Faster ILOD [21] 提出了具有多个内部连接的适应性蒸馏。

一种基于重放的目标检测方法[22]也被提出。压缩图像将被存储在缓冲区中,以便稍后用于训练。在早期训练之后,模型的特征提取部分将被冻结。因此,网络的可训练部分仅限于分类器部分。

由于长尾效应,大多数新类别的物体都具有有限的数量。许多研究也考虑使用少样本学习或元学习方法来解决这个问题。 [88] 提出了一种少样本学习方法,该方法通过仅使用每个类别几个 Token 示例来逐步识别新类。CentreNet 然后被提出来将目标检测重新表述为点+属性回归问题。CentreNet 的关键优点是,每个单独的类别都保持其自己的预测热力图,并通过激活阈值进行独立检测。为了注册新类别,它构建了一个元学习基础的网络,从支持集(少样本)中生成目标特定的权重,并将这些用于检测测试图像中的目标。类似的工作 [23] 使用元学习并设置一些层作为包装层。这些包装层具有对新任务更好的泛化,更快的收敛速度和减轻灾难性遗忘。

Open Vocabulary Object Detection

开源词汇目标检测(OVOD)旨在提高目标检测模型在无需预定义标签的情况下识别已知和新型物体类别的能力。这些方法可分为五个主要领域:知识蒸馏、区域文本预训练、使用更平衡数据的训练、 Prompt 建模和根据[31]的区域文本对齐。每个领域都采用不同的策略,利用视觉语言模型(VLMs)中嵌入的大量大规模知识来增强传统、紧密集目标检测器的功能。

Iii-E1 Knowledge Distillation

该类别利用深度学习模型(VLMs)中的广泛知识来增强密集型分类器以识别新物体类别。例如,ViLD方法 [89] 结合了涉及文本和图像分枝的双分支机制,以促进视觉到视觉的知识迁移。HierKD [90] 和 LP-OVOD [91] 等方法进一步通过引入损失修改和扩展框架以包括伪标签和全局级蒸馏模块来完善此过程。这些修改旨在弥合高容量VLMs和密集型检测模型之间的差距,提高目标检测模型在不同视觉域中的泛化能力。

Iii-E2 Region Text Pre-training

该策略利用大量可用的图像文本对,将其转换为丰富的训练资源,以供目标检测模型使用。通过在区域 Level 上对文本和图像特征对齐,例如 OVR-CNN [92] 和属性敏感的 OVR-CNN [93],模型学会将这些特征映射到共享语义空间,从而显著提高对新类别的检测能力。这还包括其他利用自训练技术生成 GT 的方法,例如 GLIP [94, 95],通过在大规模数据集上进行广泛预训练,从而增强检测和定位能力。此外,RO-ViT [96] 引入了一种预训练方法,随机化位置编码器的裁剪和缩放区域,并替换为常见的 softmax 交叉熵损失,采用焦损失。

Iii-E3 Training with More Balanced Data

为了应对训练数据集中不平衡的问题,本类别关注于增强常见和罕见目标类别模型性能的策略。方法如Detic[97]利用图像 Level 的监督,更好地利用以目标为中心的分类数据,而MM-OVOD[98]引入多模态文本嵌入作为分类器,丰富特征提取过程。此外,一些方法从大规模图像-标题对(如PB-OVD[99])中生成伪边界框标注,利用先进的激活映射技术在训练数据上提高准确性。

Iii-E4 Prompting Modeling

这一创新方法通过将 Prompt 信息集成到模型中,使其能够针对特定任务进行自适应。例如,PromptDet [100] 和CORA [101] 试图使用不同的 Prompt 结构和嵌入策略来提高模型与新类描述的交互方式。这种方法的重点是增强模型将学习到的 Prompt 集成到基础模型中的能力,从而使模型更容易地将知识转移到下游任务。Du 等人[102]关于检测 Prompt (DetPro)的工作引入了一种新方法,该方法学习连续 Prompt 表示,并集成背景解释方案和上下文评分方案,以提高检测性能。

Ii-B5 Region Text Alignment

这类别旨在实现细粒度的识别能力,重点在于仔细地将文本特征与相应的视觉区域对齐。 OVDETR [103] 引入了一种基于 Transformer 的检测策略,通过创新的匹配机制增强了对齐。 DetCLIPv2 [104] 和 F-VLM [105] 建立在这一基础上,利用集成方法和个体区域到文本匹配方法来提高在不同视觉场景下的目标检测的准确性和鲁棒性。

在比较OVD(Open Vocabulary Detection)与Open World Object Detection(OWOD)时,作者可以看到显著的不同之处和相似之处。这两种应用都扩展了检测系统的功能,使它们可以在更动态和不可预测的环境中运行。然而,OVD主要使用开放词汇,利用语言和视觉预训练来识别新物体。相比之下,OWOD不仅检测已知和未知物体,而且逐步将这些未知物体学习成新的已知类别,而不会忘记之前学习的类别。将类别无关的区域 Proposal 、未知物体感知分类和逐步学习未知类别集成到持续更新和适应检测模型中。虽然OVD通过语言和视觉的集成来拓宽可检测物体的范围,但OWOD解决了逐步适应新物体类别所带来的额外挑战,更明确地处理了灾难性遗忘和适应问题。

III OWOD Methods

开放世界目标检测(OWOD)包括三个主要任务:无类别区域 Proposal 、未知类别感知分类和未知类别增量学习。无类别区域 Proposal 源于开集识别,而未知类别增量学习是类增量目标检测的开放世界版本。在第一阶段,使用不同的技术从背景中提取所有物体,不论其类别。在未知类别感知分类阶段,应将先前已知的类别和未知物体进行分类。在未知类别增量学习阶段,将提供检测未知物体的真实标签,并将其学习为新已知的类别。将采用不同的方法来减轻先前学习类别的灾难性遗忘问题。

在本节中,作者对OWOD问题的定义及其与开集识别和类增量学习的关系进行了正式化。作者对大多数OWOD方法进行了回顾,并根据其未知检测方法将其分类到不同的分支。在表3中,作者回顾了大多数OWOD方法的不同特征,包括 Backbone ,类别,场景,评估指标,未知分类和未知 Proposal 类别。大多数方法使用目标检测 Backbone 如Faster R-CNN[2]或Deformable DETR [57]提取物体特征。由于大多数OWOD方法遵循ORE[9]的训练和评估协议,因此它们使用的评估指标如表中所示。对于不同方法分类,两个不同的过程,即未知 Proposal 和未知分类,被分别分类。

picture.image

Problem Formulation

首先,作者定义了经典的目标检测情况。目标类别集为,其中是正整数集。给定一个特定时间,模型在数据集上进行训练,其中表示N个输入图像,表示相应的N个标签。对于每个标签,有K个目标实例,每个实例由类别标签和边界框位置组成,即,其中是目标类别的one-hot向量。是边界框中心点的坐标,分别表示边界框的宽度和高度。

遵循ORE [9]的设置,OWOD描述了另一个场景:存在一个未知类别集合。OWOD模型通过数据集进行训练,能够检测到所有已知的C类。除了已知物体外,模型在测试过程中可能会遇到属于的其他类别。因此,模型被训练通过将实例 Token 为未知或零(0)类别来识别新的或未见过的实例。这是开放世界目标检测中的未知 Proposal 和未知分类阶段。

在未知类增量学习阶段,先前检测到的未知实例集 将被发送给一个启发者(例如,一个人工标注者)。启发者将为感兴趣的 个新类别 Token ,并生成相应的训练样本。通过逐步将 Token 的新类别添加到已知类别中,新的已知类别集将表示为 , Token 的新目标将被用于形成新的数据集 。在实际场景中,计算和内存资源有限时,仅能使用少量训练示例对已知类别 进行训练。通过使用 Token 的新目标和少量的先前已知目标进行训练,以及使用整个数据集的训练,而不是从头开始训练,模型 将被更新为 ,该模型能够检测到来自新类别的目标,同时减轻先前已知类别的灾难性遗忘。这个循环可以在遇到新目标时重复。OWOD问题的整体框架如图4所示。

picture.image

作者检视了目前文献中可用的最先进的OWOD方法。根据它们检测未知物体的方法,作者将这些方法分为四类:基于伪标签的方法、无类别方法、基于度量学习的方法和其他方法。每个方法的分类在表4中进行了总结。作者将详细介绍所有OWOD类别如下。

picture.image

Pseudo-labeling methods

伪标签方法采用伪标签技术在训练过程中选择未知物体。它们通常使用自定义的物体显著性分数来衡量所选区域是否包含物体。具有前k物体显著性分数且与已知类别不匹配的目标 Proposal 将被伪标签为未知物体。基于伪标签的OWOD方法的常见结构如图5所示。

picture.image

ORE [9] 是提出OWOD问题的第一篇论文,也是OWOD领域中首次使用伪标签技术。 Joseph et al. 提出了一种自动标签方案,使用区域建议网络生成的具有最高目标度量的背景物体 Proposal ,但不与已知 GT 值重叠,作为未知物体进行标签。以两阶段Faster R-CNN [2] 作为基本目标检测器,本文引入了一个强大的评估协议,并提供了一种基于对比聚类和基于能量的未知物体识别的新颖OWOD解决方案。然而,根据基于聚类的未知感知分类方法,它被归类为基于度量学习的方法。ORE的详细信息将在基于度量学习的方法中介绍。

随后,ORE [9]中的Gupta等人又提出了一种基于伪标签的OWOD方法,该方法使用Deformable DETR [57]作为基础,称为Open World Detection Transformer [10](OW-DETR)。

作者们认为,单阶段Transformer会引入更少的归纳偏差,并可以在多尺度上编码长程依赖性。此外,对于未知实例没有监督,这使其更接近真实的开放世界设置。为实现这一目标,OW-DETR首先将Deformable DETR部署为多尺度上下文编码,以在更大的感受野上编码更丰富的上下文。其次,部署一个自下而上的注意力驱动伪标签方案,以更好地检测未知类别。然后,使用 Backbone 网络特征激活的绝对值计算高物体性分数的 Query ,将其伪标签为未知物体,并使用相应的回归分支预测的边界框。接下来,引入了一个新奇性分类分支,引入新奇性类别标签,以使未知实例能够与背景区分开来。最后,引入了一个前景物体性分支,以更好地将前景物体(已知和未知)与背景区分开,这使得知识可以从已知物体转移到未知物体。基于Transformer的OWOD方法在结果上优于ORE [9]。

CAT[13]是一种基于伪标签的OWOD(One-way Operator Detection)方法,它是由OW-DETR[10]发展而来的。作者认为,提取物体定位和识别是人类固有的能力。因此,他们提出了一种共享的级联 Transformer 解码器,将目标检测分解为两个部分。除了分解的解码结构外,CAT引入了注意力驱动的伪标签与选择搜索相结合,以生成自适应的强健伪标签。自适应伪标签方案显著提高了CAT检索未知物体的能力。快速发展的OWDETR[106]也源自OW-DETR[10]。作者认为,OW-DETR的边界框位置不精确,而OW-DETR所采用的注意力驱动伪标签具有很高的计算复杂性。因此,他们采用了边界框精炼技术和基于logits的简单伪标签方案。

开源世界 DETR 是由 N. Dong 等人提出的基于伪标签的 OWOD 方法[107]。在模型预训练之后,特征提取器和回归头的参数将被固定,以避免已知类偏见。然后,采用多视图自标注方案生成未知实例的伪 GT 值,并对具有或没有数据增强的图像对执行交换预测机制,以对同一图像的不同视图做出一致的预测。此外,还实现了选择性搜索,以帮助提出其他潜在的未知区域。最后,采用示例重放和知识蒸馏策略来减轻增量学习的灾难性遗忘问题。

Class-agnostic methods

阶级无关的方法将已知和未知的物体视为相同的前景物体。通过将目标检测和每个实例的识别分离,这些方法使用阶级无关的目标 Proposal 器来测量 Proposal 区域的物体性。由于阶级无关的目标 Proposal 器是针对物体性进行训练,而不是分类器,因此不会引入已知的类别的偏见。阶级无关的OWOD方法的一般框架如图6所示。

picture.image

吴等人提出了一个无类别方法,称为Two-branch Objectness-centric Open World Detection(2B-OCD)[12],该方法采用了一个无类别目标性中心校准器来捕获已知和未知实例的目标性。作者认为,以前工作中的分类器阻碍了泛化,因为它学会了分类一个区域是否属于预定义的类别。2B-OCD包括一个目标性中心校准器和一个带有偏置引导的检测器,它们使用相同的Faster R-CNN特征提取器。在训练过程中,目标性中心校准器的梯度不会返回,以减少已知类别的偏差。

在参考阶段,使用以目标性为中心的确认来确认具有比阈值更高的目标性信心的 Proposal ,并且不属于已知类别中的未知实例。

基于概率目标注意的开放世界检测器(PROB)[11] 是一种基于无类别策略的方法。使用可变形DETR[57] 作为特征提取器,PROB 通过添加一个"未知目标"类标签并分离目标和目标类预测,扩展了 Baseline 。这使得模型可以分别学习目标注意和目标类概率。目标注意头估计一个 Query 是目标的概率,而分类头将 Query 分类为已知或未知目标。在 Query 嵌入空间中,使用多变量类无偏高斯分布来参数化目标注意概率。为了实现更好的增量学习结果,PROB 采用了一个示例重放策略来缓解灾难性遗忘。先前的模块中获得的目标注意被用来选择示例。作者认为,低目标注意的实例预计会提高模型在新物体上的性能,而高目标注意的实例预计会阻碍灾难性遗忘。

类似于2B-OCD [12],OW-RCNN [14]是一种无类别检测方法,它使用Faster R-CNN作为基础。作者提出了开放世界目标检测的三个挑战:无类别区域 Proposal 、未知 Aware 分类和开放集错误校正。首先,区域 Proposal 网络(RPN)被训练成通过预测 Anchor 点中心到真实边界框边缘的距离,产生未知 Aware 的区域 Proposal 。回归基础的局部定位质量头被训练用来预测盒头输出的中心度。其次,不同于大多数其他工作,OW-RCNN将未知和背景放在同一类别中。通过比较目标性得分和每个类别的得分,OW-RCNN可以确定区域属于已知类别、未知类别还是背景。最后,高斯混合模型被用来确定检测网络分类输出的可能性,以减少开放集错误。这些模型在推理过程中被用来检测检测网络何时做出了过度自信的预测。

A分类无用的物体定位网络(OLN)是由D. Kim等人提出的另一种无类别物体跟踪方法。然而,与先前的OWOD方法不同,该模型只关注未知物体的检测,而不是对所有已知和未知类别进行分类。因此,本论文不考虑未知分类过程。通过用定位质量指标(如交并集(IoU)和中心度)替换物体提出方法中常用的分类器,这种方法能够更好地泛化到未见过的类别。作者认为,纯粹基于定位(位置和形状)学习的物体显著性线索可以提高物体 Proposal 的泛化性,而分类头则非常有害。在推理阶段,物体显著性分数将根据获取的IoU和中心度计算为几何平均值。

王等人[16]最近提出了一种无需分类的OWOD方法,该方法使用一个随机 Proposal 生成器(Rand-Box)。 GT 值与 Proposal 之间的动态-匹配。使用自定义匹配分数选择前个未知物体。作者认为由Faster R-CNN基于RPN生成的未知类别的物体性得分受到惩罚,因为它是根据已知类别进行训练的。使用DETR基础方法所用的ROI特征的平均激活度存在可靠性问题和背景与未知类别之间的混淆。作者还提出了一种基于偶然模型的混淆效应。生成的不受训练数据影响的 Proposal 倾向于已知物体的 Token 数据,这可能导致未知类别召回率低的问题。在他们的方法中,区域是随机生成的,不受训练数据的影响,从而消除了混淆效应。

Metric-learning methods

大多数基于度量的OWOD方法将未知实例的分类视为一个度量学习过程。通过将实例的特征映射到嵌入特征空间,可以利用多种度量学习技术对已知类别、未知类别和背景进行分类。大多数度量学习方法采用一种通用策略来提取潜在的未知实例,并专注于区分已知、未知和背景。一些方法甚至在没有地面 truth 标签的情况下扩展到分离不同的未知类别,这更接近真实的开放世界设置。基于度量学习OWOD方法的总结结构如图7所示。

picture.image

如III-B子节所述,ORE [9]提供了一种基于对比聚类和基于能量的不确定性识别的OWOD解决方案。对比聚类用于在潜在空间中强制分类分离。由对比损失训练的每个已知类别的原型向量逐渐演变。为了在已知和未知实例之间进行区分,作者提出了一种基于能量的分类头,该头具有Hellinger自由能。然而,ORE依赖于验证集上的弱监督来估计未知类别的分布。

重新审视由赵等人提出的开放世界目标检测方法[24](RE-OWOD)利用了特定的排除分类器(CEC)来确定一个 Proposal 是否属于任何已知的类别。使用非参数选择性搜索作为辅助 Proposal 顾问(PAD)来确认区域建议网络(RPN)生成的 Proposal ,原RPN可以为未知类别的后续更准确的潜在未知 Proposal 提供更多帮助。作者认为基于DNN的判别性分类器存在过度自信的问题,尤其是在OWOD设置中,因为没有关于未知类别的信息,所以CEC被提出来移除预测的已知类中的混淆实例并重新分配它们的类预测。已知类的类激活边界将由标注信息校准。如果所有类都排斥该 Proposal ,这意味着该 Proposal 不包括在已知类的激活区域中,它将被预测为“未知”类。

[26] Yu等人提出了一种基于类原型(class prototype)的度量学习方法,称为OCPL:通过区分性类原型学习进行开放世界目标检测。OCPL简单地将Faster R-CNN作为特征提取器,使用RPN生成潜在区域。采用基于距离的交叉熵损失对每个类别优化原型。为了压缩特征空间中的已知类别范围,提出了嵌入空间压缩器来减少已知和未知分布之间的重叠。由于未知类别中的高内聚距离,实例在同一类别中的聚类更加紧密。使用阈值来忽略具有低分类分数的一些检测实例。

与之前的度量学习OWOD方法相比,未知分类开放世界目标检测(UC-OWOD)[25](Unknown-Classified Open World Object Detection)可以实现不同的未知类检测,更接近真实的OWOD设置。为了实现这一目标,未知标签感知 Proposal 被部署以生成潜在的未知区域,类似于ORE[9]。UC-OWOD修改了原始的单未知分类头,采用了未知-判别分类头,可以用于区分不同的未知类。此外,基于相似性的未知分类也被部署,以确定未知实例对是否相似。实例对是基于其区分难度逐渐引入的,以便更好地聚类实例。最后,使用软分配方法[113]进行了未知聚类精炼,以提高UC-OWOD的鲁棒性。此外,UC-OWOD还引入了UC-mAP和UC-Recall,可以更好地说明未知-判别OWOD方法的特征。

Other methods

除了上述内容外,还有一些其他OWOD方法无法归类到上述任何一种类别中。其中一些方法甚至来自相关领域,如多模态目标检测、离域检测等。这些方法在OWOD方面具有很好的潜力,因此被包括在本回顾中。

Ma等人[112]提出了一种基于退火的可迁移标签学习框架,用于开放世界目标检测(OWOD)。该方法利用物体 Level 的特征纠缠和标签迁移方法,无需手动选择即可检测未知物体。该方法采用了Sawtooth退火调度,动态调整已知和未知类之间的决策边界,从而显著提高两种情况下的检测准确性。该研究还提出了一种平衡指数,用于评估OWOD模型在已知和未知检测上的性能。

Maaz等人[109]提出了一种基于多模态架构的ORER(Multi-scale Attention ViT with Late fusion)的变体。ORER使用多尺度可变形注意力模块来处理多尺度图像特征。RoBERTa[114]模型用于提取对应文本标签的特征。晚期融合实现视觉语言融合。为了实现开放世界目标检测,ORER模型中使用MAVL生成的无类别 Proposal 作为伪标签。尽管单模态与多模态的比较不公平,因为引入了额外的文本信息,但MAVL为开放世界目标检测方法提供了一种新的方向。

空间-时间未知蒸馏(STUD)是一种来自外分布检测区域的无知目标检测方法。作者认为,可以使用能量得分[115]有效选择外分布数据。因此,利用 Token 的关键帧和 未标注 的参考帧,可以识别和相应地蒸馏未知物体 Proposal 。采用L2距离来衡量未知 Proposal 和 GT 标签之间的空间蒸馏差异。对于时间未知蒸馏,未知物体的特征向量被 ConCat 。这种方法需要视频作为训练数据,因此在STUD上没有标准的评估协议。

梁等人提出了“未知嗅探器”(UnSniffer)[111],这是一个用于OWOD(开放世界目标检测)的新颖框架,可以增强已知和未知物体的检测。与传统OWOD方法不同,UnSniffer利用了通用物体置信度(GOC)评分,根据已知类别知识将物体与非物体区分开来,从而增强对未知物体的泛化能力。此外,该框架用基于图的边界框确定方法替代标准非极大值抑制,以优化推理过程中的边界框选择。这种方法通过聚类高置信度 Proposal 并从每个聚类中选择最代表性的 Proposal 来有效处理重叠物体。

为解决训练中的常见未知物体抑制问题,UnSniffer使用负能量抑制损失来区分非物体背景,从而减少假阳性。此外,认识到现有基准在评估未知目标检测方面的不足,作者提出了未知目标检测基准(UOD-Benchmark),该基准包括一个精心标注的数据集,旨在测试未知目标检测性能。该基准的详细信息也在第IV节中介绍。

利用S. Ma等人提出的“大脑”(Brain)[15](DOWB)使用一个额外的超大规模预训练的基于语言和图像的地面语言图像模型作为OWOD模型的“大脑”。除了传统的OWOD模型(未知 Proposal 和未知分类模块)外,DOWB采用了一个具有地面语言图像预训练(GLIP)模型的辅助模块,以提供未知实例 Proposal 。作者认为,利用GLIP模型并非易事,因为未知标签会损害模型对已知物体的学习。为解决这些问题,他们提出了一个降权损失函数和分离的检测结构。降权训练策略利用生成的识别信心生成软标签并降低未知训练损失。训练损失函数包括回归损失、边界框得分损失、分类损失等几个部分。然而,预训练模型引入了大规模数据集中相关的额外知识。

IV Datasets and Evaluation Metrics

Datasets

Iv-A1 Ms-Coco

MS-COCO数据集[117]是用于目标检测任务中最常用的数据集之一。该数据集包含164万张图像,其中83万张用于训练,40万张用于验证,41万张用于测试。这些样本被 Token 为80个不同的类别。由于其庞大的规模和丰富的物体类别,MS-COCO已成为开发和测试目标检测算法(包括OWOD)的有用资源,在各种实际场景中。

Iv-A2 Pascal Voc

PASCAL VOC [118] 是另一个用于目标检测任务的流行基准。它包含20种不同类别(MS-COCO标签集的子集)的物体图像,如人、汽车、猫和狗等。每张图像都标注了物体边界框、物体类别标签和物体分割 Mask 。该数据集包括室内和室外场景,物体以各种姿态、尺度和方向呈现。

Iv-A3 The new datasets

为了进一步从图像中标注全面未知物体,基于MS-COCO [117]的COCO-OOD和COCO-Mixed [111]被提出。首先,COCO-OOD将原始MS-COCO类别分为1655个未知物体。该数据集中只有504张包含未知物体的图像。同时,COCO-Mixed包含2658个已知物体(包括原始COCO标注)和2533个未知物体。总共有897张图像。细粒度标注使得COCO-Mixed成为一个更具挑战性的数据集。

Iv-A4 Dataset splits in OWOD task

在开放世界目标检测任务中,数据集根据两种策略分为多个子集。首先,在原始的OWOD任务中,Joseph等人[9]将MS-COCO数据集与PASCAL VOC数据集相结合,以提供更多样本,称为OWOD子集。具体而言,所有类别及其相应的样本被分组到一个非重叠任务集{T1, ..., Tt}中。PASCAL VOC数据集中的类别被处理为任务T1。其他类别根据语义漂移分组到任务中。数据集的详细信息请参见V。

在最近的OWOD任务中,Gupta等人[10]提出了一种新策略,通过在超类中划分类别,称为MS-COCO拆分。具体而言,根据语义意义,目标类别被分组到相同的目标任务中。例如,在合并数据集中属于不同任务的目标,如_trucks_和_vehicles_,被归类到同一个超类任务:_Animals, Person, Vehicles_。详细的统计数据请参见表7。

picture.image

Evaluation Metrics

在这里,作者首先介绍了OWOD任务中广泛使用的评估指标,包括 wilderness impact(WI),绝对开放集误差(A-OSE),平均平均精度(mAP)和未知-召回(U-recall)。前两个指标旨在评估目标检测模型处理未知物体的有效性。此外,一些方法还报告其他指标来评估其模型的开放世界能力,例如 [24] 中的未知平均平均精度(UC-mAP),[24] 中的未知检测率(UDR)和未知检测预测(UDP),以及 [111] 中的未知F1-Score。

wilderness 影响(WI) [119]评估未知物体对检测器性能的影响。WI 指标可以根据算法检测到的已知和未知物体的精度来计算:

指的是检测器在已知物体上的精度,而 表示检测器在所有物体(包括已知和未知物体)上的精度。WI 指标中的较低值意味着更好的结果,这表明算法在将未知物体添加到测试集时,精度不会显著降低。较低的 WI 分数意味着算法具有较强的鲁棒性,能够很好地对新旧未见过的物体进行泛化,这在实际应用中的目标检测中是一个重要方面。

绝对开放集误差(A-OSE) [120]也被用于评估检测器在识别未知物体方面的性能。这一指标报告了被分类为任何已知物体的未知物体的总数,提供了一种衡量算法区分已知和未知物体能力的方法。A-OSE得分较低表示算法可以有效区分已知和未知物体,而A-OSE得分较高表示算法更有可能将未知物体误分类为已知物体。

平均精度均值(mAP)是用于评估目标检测和识别模型的常用评估指标。该指标可以计算为:

表示物类数量。 表示在某一特定的交并比(IoU)阈值(通常为0.5)下,第 类目标的平均精度。具体来说,阈值从0到1进行变化。在每一个阈值下,首先根据模型的预测和真实标签计算精度与召回值。然后,计算精度-召回曲线下的面积以获得第 类目标的 AP 值。总体而言,mAP 是一个有用的指标,用于评估目标检测模型的性能,提供模型准确且一致地检测物体的能力。

未知均值平均精确度(UC-mAP) [25]是mAP的一个变体,其自动未知类别匹配如下:

picture.image

其中 是真实值, 是预测结果。P 表示 1 到 M 的所有排列,其中 M 是未知类别的数量。mAP 可以由公式 4 计算得出。

Unknown-Recall (U-Recall) 衡量了一个分类器识别未知或新类的能力。它通过模型正确地将未知样本识别为未知样本的比例来计算:

picture.image

其中 表示正确识别的未知样本数量(真阳性), 表示未被检测到的未知样本数量(假阴性)。

未知检测召回率(UDR)[24]衡量未知类别的准确局部化。它可以通过以下方式计算:

picture.image

在这里,作者定义为被预测框误分类的 GT 框的数量。未知检测精度(UDP) [24]衡量了所有定位到的未知实例的准确分类。这可以通过以下方式计算:

picture.image

与U-Recall相比,UDR和UDP都考虑了定位和分类应用。此外,被认为是对的召回率。

未知F1分数(U-F1) [111]报告了未知(U-Recall)和未知(U-Pre)的调和平均值,用于全面比较,可以计算为:

picture.image

其中,-的计算如下:

picture.image

Comparative Results

在本小节中,作者呈现了前述不同OWOD方法的比较结果,并总结了它们在两个评估协议下的性能。选定了四种常用的评估指标,以展示方法的不同特性。

V-A1 Comparison under OWOD split

在表7中,作者在由PASCAL VOC和MS-COCO数据集组成的OWOD(Object With One Detector)划分上评估了当前最先进的方法。这些方法在第四部分B节中描述。ORE [9]的结果来自OW-DETR [10],其中排除了保留验证集EBUI。请注意,由于引入了额外的训练信息,这种比较并不完全公平。许多具有额外信息的OWOD方法([109, 15])在未知检测指标上表现更好。具体来说,DOWB [15]方法实现了一个大规模的图像文本预训练模型,该模型从预训练数据集中引入了额外的信息。MAVL [109]方法也利用额外的文本模态信息提高了未知检测的性能。由于采用了不同的评估协议和训练方法,前一部分某些方法的结果不适用。

模型根据使用的 Backbone 网络被分为Faster R-CNN和Deformable DETR(D-DETR),以进行一般比较。当前已知的mAP(称为“CK”)代表当前任务中学习类别的平均精确率。因此,被称为“PK”的先前任务的mAP分数代表先前任务中学习类别的平均精确率。“两者”是所有已知类别的加权平均值。

V-A2 Comparison under MS-COCO split

作者将不同方法在MS-COCO数据集上进行比较,如OW-DETR [10]中Ⅳ-B节提出的Table VIII所示。只有几个模型在MS-COCO数据集上提供了他们的结果。ORE的结果来自OW-DETR [10],它排除了保留的验证集EBUI,而一些方法[15]引入了额外的信息。

与OWOD划分相比,MS-COCO划分仅使用MS-COCO数据集作为训练和测试集,并在一个任务中引入所有类在一个超类别中以减轻任务之间的数据泄露,使其对OWOD更具挑战性。因此,MS-COCO划分的结果建议由所有OWOD方法在将来报告。与前一个小节中描述的OWOD划分设置相同的是"Current known"、"Previously known"和"Both"。

V-A3 Comparison of other evaluation metrics

表9展示了在其余评估指标下,最先进的OWOD方法的比较。除了未知召回率 "U-Recall"、野地影响 "WI" 和绝对开放集误差 "A-OSE",大多数OWOD方法还报告了这些指标。WI和A-OSE在第四章B节中进行了定义。箭头 "" 表示值越高,性能越好。箭头 "" 表示值越低,结果越好。

picture.image

根据不同OWOD方法的实验结果,WI和A-OSE评估指标与U-Recall指标之间没有高度相关性。WI和A-OSE的低值并不能保证未知召回的良好结果。这些评估指标之间的内在关系需要进一步研究。

V-A4 Comparison of incremental learning performance

在ORE [9]中,Joseph等人提出,ORE可以降低未知物体被错误分类为已知物体的混淆度,同时在增量目标检测上表现出色。因此,在ORE中报告了增量目标检测的结果,一些后续方法也相应地呈现了这些结果。增量学习的结果在表10中进行了总结。

遵循标准协议 [20, 21] 在增量式目标检测中使用的增量学习协议,作者在Pascal VOC 2007的不同划分上评估OWOD方法的分步学习性能。模型在某些(10, 15或19)类上进行训练,逐步学习其他(10, 5或1)类。 "旧类别" 指的是作为训练集使用的类别的mAP,"新类别" 表示增量学习类别的mAP。"最终mAP" 是所有20类别的平均值。

V Challenges and Future Trends

在本节中,作者讨论了开放世界目标检测面临的挑战,并指出了未来OWOD研究的一些潜在方向和趋势。

Challenges of OWOD

根据OWOD框架和当前研究现状,作者来讨论OWOD面临的主要挑战和问题。

V-A1 Unknown proposal

未知实例 Proposal 是OWOD(Object Proposal Detection)中的第一个关键挑战。由于训练数据只包含已知物体的 Token 边界框, 未标注 区域可能包含被遮挡的已知物体、未知物体或背景(无物体)。因此,未知实例 Proposal 可能受到已知训练数据的偏见影响,这也可以称为“已知偏见”。

为解决此问题,许多现有工作使用伪标签法根据不同种类的物体显著性分数对潜在未知实例进行 Token [9, 10, 106, 13, 24, 26, 25]。然而,物体显著性分数的训练基于已知物体的无类别实例 Proposal 。解决“已知偏见”问题并不完全。

除了伪标签化,无类别OWOD方法通过将已知和未知目标都视为同一前景目标,并分离目标 Proposal 和检测分支,最小化了已知类别对物体 Proposal 模块的影响。提出了几种技术,例如在2B-OCD中使用无梯度返回[12]、在PROB中使用概率分离[11]以及OW-RCNN中使用基于定位质量的中心度头[14]。尽管已知类别的训练数据仍然不可避免地参与其中,但与伪标签化方法相比,结果通常有所改进。

V-A2 Unknown classification

与传统的目标检测任务不同,物体跟踪任务(OWOD)需要将实例分类为已知类别、背景或未知类别。此外,根据[120],引入未知实例将导致开集错误,即未知物体被检测出来并错误地分类为已知物体。

为了实现未知分类,大多数OWOD方法[9, 10]只是简单地添加另一个未知分类头。一些方法除了添加额外的分类头之外,还添加了其他技术,如CAT中的解耦解码器[13]和OW-RCNN中的高斯混合模型[14],以减少开集错误。

根据计量学习领域的某些方法,提出了一些基于计量学习的未知分类算法[24, 26, 25]。与分类头不同,基于计量学习的方法试图将同一类的实例聚类在一起,或者将不同类的实例从潜在空间中排除。然而,这些算法与未知分类头相比,没有带来更好的分类准确率。

V-A3 Catastrophic forgetting

与其他逐步学习任务类似,OWOD 也需要面对灾难性遗忘问题,因为从任务到任务的任务标签训练数据会导致旧类别的灾难性遗忘。仅使用新数据来微调模型将导致旧类别的灾难性遗忘。大多数 OWOD 方法利用示例重放策略来缓解这一问题。

尽管采用示例重放策略可以在一定程度上保持已知的类别的准确性,但随着引入新的 Token 数据,结果仍然会降低。

V-A4 Unified benchmark and evaluation protocols

尽管许多方法遵循了第一轮OWOD方法ORE的标准协议[9],但一些方法[10, 24]提供了其他评估指标和数据划分,导致多个实现细节。多个实现细节的一个潜在问题是,最先进方法的成功是否是由于创新概念,还是仅仅是因为更好的超参数调优和改善了架构。因此,需要使用统一的基准和标准评估协议来为后来的方法。

V-A5 Differences in Dataset Splits

基于第一个OWOD算法ORE [9],大多数方法在OWOD分裂(由PASCAL VOC数据集和MS-COCO数据集组成)下报告结果。然而,来自同一超类别的潜在数据泄漏使OWOD分裂不适合评估模型的开放世界能力。因此,OW-DETR [10]提出MS-COCO分裂,将不同任务的超类别分开。尽管一些后续模型在OWOD分裂和MS-COCO分裂上都报告了结果,但其他一些先前方法只报告了OWOD结果。

由于训练策略和硬件设置的不同,无法重新训练所有OWOD方法以实现MS-COCO数据划分。因此,建议后续方法在MS-COCO和OWOD划分上都提交结果。一些先前的方法可以作为附录更新MS-COCO结果。

Future Trends

以下子节简要讨论了一些与开放世界目标检测相关的一些潜在未来研究方向。

V-B1 OWOD with other CV tasks

除了开源世界目标检测,开源世界设置的自然特征使其可以与不同的研究领域相结合,例如语义分割、自监督学习、多视图学习、多模态学习、图像分类等。开源世界场景对大规模模型有益,因为它可以自动检测未知实例,无需使用所有数据集重新训练模型,从而节省大量计算资源。这些组合需要进一步研究。

V-B2 Generalization

为了将开放世界目标检测泛化到多个应用场景,类内方差与类间方差的平衡至关重要。较高的类内方差将使模型对类别内的不同实例具有鲁棒性,同时,它可能对未知检测产生负面影响,因为未知实例往往容易被视为已知类别的目标。同样,类间方差将决定不同类别的边界,这可能影响类别内的结果,以及未知类别的检测。这种方向还包括构建特定任务的数据集。

V-B3 Real Application

在实际应用之前,开放世界目标检测仍面临许多挑战。首先,这些方法的可鲁棒性需要得到验证,包括对 novel 类别的鲁棒性,以及在一个类别内的鲁棒性等。其次,推理速度或模型效率是另一个关键问题,因为在实际应用中,计算资源并不总是强大的。最后,在不同的应用场景中,可以微调未知和已知结果之间的平衡。 [121] 为自动驾驶领域开放世界目标检测的实践应用提供了一种新颖的方法。

V-B4 Open Vocabulary Object Detection

类似于OWOD,由Zareian等人[92]提出的开放词汇目标检测(OVOD)问题也试图超越训练阶段 Token 的有限基础类。其目标是识别在推理过程中具有扩展(开放)词汇的新类。然而,OVOD没有逐步学习物体的能力。这些方法[89, 103]更注重利用大型文本视觉模型进行未知检测。还有其他研究,称为OvarNet[122],试图分析其他信息(如属性或文本)对识别或检测带来的益处。因此,OVOD方法不在本文的审查范围之内。由于大型模型提供了更多探索的机会,可以将这些方向结合在一起,以实现实际场景中的目标检测解决方案。

V-B5 Class-agnostic Methods

根据表7,基于类无关的方法在所有OWOD方法中具有较高的未知置信度。这样的类无关机制需要进一步研究,以了解高准确率的具体原因。此外,使用输入驱动的伪标签,如与模型驱动相结合的选择性搜索,是一个新的方向。

选择性搜索作为非数据驱动的目标检测方法之一,不会受到已知类别的影响,满足OWOD的需求。这些不需要训练数据的方法可以进一步研究,并与模型驱动的 region proposal 方法相结合。

参考文献

[0]. Open World Object Detection: A Survey.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论