点击下方卡片,关注 「AI视界引擎」 公众号
长尾目标检测因其极度不平衡的类别分布而面临巨大挑战。近期方法主要关注分类偏见及其损失函数设计,而忽略了回归分支的微妙影响。本文表明,回归偏见确实存在,并且对检测精度有不利和严重影响。尽管现有方法未能处理回归偏见,但本文假设稀有类别专用的回归Head是其主要原因。因此,针对稀有类别提出了三种可行的解决方案,包括增加一个类无关的分支、聚类Head和合并头。所提出的方法相比于现有的长尾检测方法,在稀有和常见类别上带来了持续和显著的改进。所提出的方法在不同的Backbone网络和架构下,在大词汇量LVIS数据集上取得了最先进的性能。它还能很好地泛化到更困难的评估指标、相对平衡的数据集以及Mask分支。这是首次尝试揭示并探索在长尾目标检测中纠正回归偏见的做法。
1 Introduction
长尾目标检测因其最近的实际应用价值而受到广泛关注。已经做出了许多努力来应对这项具有挑战性的任务,例如重新加权,过采样,以及平衡分组。这些方法被提出是为了防止尾类因为令人沮丧的梯度[35, 38],较低的预测分数或不足的样本而被淹没。
长尾检测通常涉及到分类和回归两个分支。尽管几乎所有现有方法都集中在减轻分类偏差(例如,调整检测分支中的分类结构),但很少或几乎没有关注到回归分支。作者将在本文中展示,回归偏差在长尾目标检测中有显著的负面影响,但以前的方法未能识别这个重要问题。
图1清晰地展示了这个问题。对于在LVIS1.0数据集上训练的不同方法(EQLv2,SeeSaw,ECM和交叉熵CE),作者在图1(a)中绘制了最终检测RCNN Head 的回归分支损失。很明显,稀有类别的回归损失显著高于频繁和常见类别的损失,这不可避免地将导致稀有类别的回归结果(以及因此的检测结果)较差。作者将这一发现称为“回归偏差”,但现有的长尾检测方法都未能处理甚至识别回归偏差。
为了进一步证明回归的重要性,作者计算了LVIS训练集和验证集中GT(真实值)框的类别平均尺度,以及它们之间的差异(参见图1(c))。稀有类别的尺度变化比频繁类别的要大得多。由于回归与框尺度高度相关,因此对于稀有类别来说,在样本少且尺度变化大的情况下,学习一个好的边界框回归器是本质上困难的。总之,在长尾目标检测中,妥善处理回归偏差是至关重要的。
作者的解决方案旨在纠正回归偏差,其动机来源于图1(b)。作者发现,在RPN中的回归损失是平衡的,其中罕见、常见和频繁的类别几乎具有相同的回归损失,这几乎使回归偏差在比较图0(b)与图0(a)时免疫。
RPN与RCNN回归之间的关键区别在于,前者是类别无关的(即,所有类别共享相同的回归参数),而后者是类别特定的。接着,一个问题自然产生:类别无关的 Head 是否能提高尾类别的泛化能力并处理回归偏差?作者的假设是:稀有类别确实倾向于类别无关的回归 Head 。
作者的假设得到了表1中实验的支持,在那里作者比较了RCNN中的类特定和类无关的回归Head。通过用真实类别标签替换分类Head,表1中的实验分离了分类Head的影响,并专注于回归Head。很明显,类无关Head具有显著优势:对于罕见类别的(即APr)从0.7激增到54.6,甚至超过了频繁类别的(即APf)!然而,类无关Head会在频繁类别上带来轻微的下降(例如,从40.7降到40.0)。
作者最终版本的猜想是:确实罕见(可能还有普通)类别倾向于类无关的回归,而频繁类别则偏好类特定的回归,为了优化所有三种类型的类别,这两者之间应该有一个权衡。
相应地,作者设计了三种不同的方法来完全纠正回归偏差,包括添加一个类无关的 Head 、聚类相似的 Head ,或者合并 Head 。这三种方法都带来了积极的影响(参见表2),这证实了纠正回归偏差确实是至关重要的。作者选择在主要实验中采用“添加一个类无关的 Head ”,因为其简单性,这导致了与先前的长尾检测流程相比一致且显著的改进,并使用各种 Backbone 网和架构取得了最先进的表现。
此外,作者的方法在变化的环境中展现了强大的泛化能力(参见表5-8),包括不同的数据集(COCO/COCO-LT),不同的评估指标,甚至适应Mask分支设计。
另外,可视化显示,所提出的方法确实减轻了回归偏差(参见图4)并导致了更准确的边界框预测(参见图3)。
总之,作者的贡献是:
- 首次揭示了并在长尾目标检测中成功处理了回归偏差问题。
- 作者提出了三种方法来缓解这种偏差,这三种方法都能一致地改进现有方法。
- 作者的方法在LVIS数据集上取得了最先进的结果,并且能够跨数据集、评价指标甚至Mask分支进行泛化。可视化结果也定性地验证了作者的假设。
2 Method
现在作者将详细阐述三种不同的方法来缓解回归偏差,并从长尾目标检测的背景开始。
Preliminaries
作者以Faster-RCNN为例。对于一个大型词汇数据集LVIS中的场景图像,首先将其输入到一个 Backbone 网络(例如,ResNet)以获得图像特征:
维度、宽度和高度分别表示为 、、。随后,一个区域 Proposal 网络(RPN)被应用于特征张量 上,这个网络包含了对类别无关(_agnostic_)的分类和回归分支,以从预定义的 Anchor 框中生成 Proposal 。ROIAlign 然后提取 Proposal 特征:
在这里, 代表一系列大量的 Proposal ,而 是一组对齐的 Proposal 特征。在发送到 RCNN Head 以获取最终的特征集 之前, 会先进入后处理模块(例如,NMS)。
该输入被送入分类和回归分支(例如,线性层)以产生预测结果。
Our three remedies for the regression bias
在Faster RCNN检测框架中,每个类别都有一个专门的回归Head:
在这里, 代表类别 的回归偏移量,而 是特定类别的回归Head(一个线性层)。接下来,作者将介绍作者纠正回归偏差的方法。现有的流程和作者所提出的方法在图2中展示。
额外的类无关分支。 这是应对回归偏差的一个简单补救方法。由于在作者的假设中,稀有类别更倾向于类无关的 Head ,而特定类别的 Head 对常见类别稍微更有利,因此作者通过结合两种 Head 的优势来寻求一种平衡。对于类别 ,其回归Head变为:
在公式中, 是一个对所有类别共享的、与类别无关的回归Head,而 是一个超参数,用于平衡类别无关和类别特定回归Head之间的关系。作者通过实验发现,这个简单的改变相对于默认的类别特定回归Head(参见表2a)可以带来一致的改进,而只是将 设置为0.5 就可以得到最佳的平衡点。
聚类Head。 这个方法是由图1c中的分析启发的。由于某些类别具有相似的统计特性,作者可以为它们分配一个_共享_的回归Head,以提高泛化能力。
作者通过以下三个步骤来实现它:排序、分组和分配。首先,作者使用实例数量或平均边界框大小以降序对原始类别进行排序(在LVIS1.0中):
然后,作者将它们聚类成组。在聚类过程中,作者不依赖于耗时算法如K-means 或 GMM,而是简单地将相邻的类别放入一个组中,每个组具有相同数量的类别 :
最后,每个组共享一个回归Head:
这些共享的回归矩阵随后被用于训练和测试。如表2(b)所示,具有相似尺度统计的聚类Head相较于 Baseline 方法带来了稳健的提升。
合并 Head 分。 这种方法的动机与上一个类似,后者对回归Head进行聚类,但这种方法更为直接。作者简单地将回归Head预定义为几个群组。例如,作者让所有稀有类别共享一个共同的回归Head,常见和频繁的类别也同样处理。实验结果可以在表2(c)中找到,其中作者尝试了四种不同的组合(注意意味着将稀有类别和常见类别合并成一个回归Head)。结果显示,合并总是能带来性能提升,特别是对于稀有类别。最显著的改进来自于仅合并常见类别(即,表2(c)中用''表示的行)。
观察到将常见类别合并会导致的最佳改进在某种程度上是反直觉的。作者猜测这是由于LVIS训练集和验证集中稀有、常见和频繁类别的“分区偏移”所致。在LVIS1.0训练数据集中,频繁、常见和稀有类别的尺寸范围分别是[0, 404],[405, 865]和[866, 1202]。而对于验证集,它们分别变为[0, 212],[213, 536]和[537, 1202](参见图1(c))。因此,当作者使用训练集统计数据来合并常见类别时,验证集中很大一部分稀有类别也可能被合并,从而有助于和在验证集上的改进。
Picking one out of the three
作者提出的所有补救措施都提高了长尾目标检测和实例分割的准确性,这验证了纠正回归偏差的重要性。作者将在主要实验中选择添加一个类不可知的分支(第一种方法,参见表2(a)),基于以下原因:一方面,它不需要任何数据集统计信息,尤其是当类别数量和数据分布未知时;另一方面,通过结合类不可知和类特定的 Head ,它充分利用了目标先验和每个类的知识:正如表1所示,每种类型的 Head 都有其自身的优点。
请注意,一些“合并头”(在后续实验中未采用)的结果甚至比作者选定方法中的最佳准确度还要好,这表明作者主要实验中的结果可能会更高。
4 Experiment
作者选择“增加一个额外的不区分类别的分支”(简称CAB)来进行作者的主要实验。首先,作者将CAB与现有的长尾分布方法相结合,然后选择“SeeSaw + CAB”作为“作者的”方法,与最先进的方法竞争。
尽管SeeSaw的 Baseline 比ECM要低,但在复现过程中它更加稳定(参见附录)。最后,作者将作者的方法推广到不同的评估指标、不同的数据集以及Mask分支。
Experimental settings
数据集。 作者使用大型词汇数据集LVIS1.0 作为作者的主要数据集,其中包含10万张训练图像和2万张验证图像。稀有()、常见()和频繁()类别是根据它们出现的图像数量来定义的:稀有类别的范围是[0, 10],常见类别的范围是[11, 100],频繁类别的范围是(100, +)。作者还采用COCO-LT 和 COCO2017 来验证作者方法的泛化能力。COCO2017是一个大型的目标检测数据集,包含118k张训练图像和5k张验证图像。
与LVIS1.0相比,它相对平衡。COCO-LT数据集是COCO的人工采样子集,具有相同的验证集,但是训练集呈现长尾分布。它大约有9.9万张训练图像和5千张验证图像。遵循以前的工作,作者根据每个类别的训练实例数量将COCO-LT划分为4个评估子集,分别为[1, 20],[20, 400],[400, 8000) 和 [8000, -)。
训练细节。 作者复现了四种不同的方法作为作者的 Baseline ,包括RFS,EQLv2,SeeSaw和ECM,遵循它们默认的实验设置。作者采用MMDetection 作为作者的检测框架进行实验,并训练了Faster-RCNN、Mask-RCNN和Cascade R-CNN的检测模型,使用1x或2x调度器(基于Swin-Transformer的检测器除外),遵循之前的工作。批量大小和学习率分别设置为16和0.02,数据增强严格遵循之前的长尾检测方法。在训练过程中,作者使用FP16混合精度训练和 Warm up 策略来稳定学习过程。
对于评估指标,作者分别采用AP和AP进行实例分割和目标检测,并在COCO-LT上采用AP、AP、AP和AP,对应于其4个不同的子集。按照LVIS官方网站的建议,作者在8个RTX3090 GPU上对所有实验运行3次以减少方差。更多详细信息,请参阅作者的补充材料。
LVIS detection and segmentation
持续改进。作者首先在LVIS1.0数据集上评估了结合所提出的方法“增加一个类无关分支”(CAB)与现有长尾目标检测方法的有效性。由于作者主要关注边界框回归,因此作者首先列出目标检测结果,然后是分割结果。如表3所示,使用CAB可以在AP和AP上持续超过现有的基于分类的方法,并且领先幅度很大。
对于目标检测,作者的CAB对稀有类别的改进非常大,相对于RFS和EQLv2,AP分别提高了4.6和4.3。实例分割也同样如此,所有指标上都呈现增长趋势,表明CAB对后续Mask像素预测也大有裨益。有趣的是,采用交叉熵损失的方法“RFS+CAB”几乎可以达到SeeSaw方法的目标检测准确度,并且比EQLv2高出约1个AP。因此作者推测:除了仅仅关注分类之外,作者的回归方法也可以作为强有力的选择,同样能显著提升长尾检测的准确性。
与SOTA的比较。然后,作者使用不同的目标检测框架(Mask-RCNN,Cascade R-CNN)和Backbone网络(ResNet-50,ResNet-101,Swin-T和Swin-B)将提出的方法与现有最先进的方法进行比较。注意,“作者的”指的是“SeeSaw + CAB”。
为了公平比较,除非特殊符号(例如,)出现在方法名称之后,否则作者使用官方发布的代码复现了大多数现有方法。从表4可以看出,作者的方法在AP和AP上取得了整体最高的准确度。对于ResNet系列模型,作者的回归技术轻松超过了最佳的竞争对手ECM,尤其是在AP(ResNet-50提高了1.2 AP,ResNet-101提高了1.4 AP)。
在基于ViT的目标检测器上,这一优势也适用,作者使用Swin-Tiny和Swin-Base的 Backbone 架构都超过了最佳的竞争对手ECM。遵循LVIS的常见做法,作者没有在这里列出AP和AP,但作者想要强调的是,当列出更多指标时,作者回归方法的优势可以进一步扩大(参见表3)。如果作者用“合并头”回归替代方案替换“添加一个类无关分支”(CAB),这也是正确的(参见表2中的最佳准确度)。
Generalization ability
在本节中,作者将展示作者的回归方法在各个方面的一般化能力,包括不同的评估指标、数据集及其对Mask分支的好处。
不同的评价指标。作者首先探讨了不同的评价指标如何影响作者模型的准确性。两种额外的评价指标是AP(实例分割中的一种更严格的计算方法)和AP(在数据集的每个类别上限制10,000个预测边界框)。在传统评价指标上获得不错结果的目标检测器在这些标准下可能表现得并不好。如表5所示,作者的回归方法适应得很好,并且在传统和这些具有挑战性的评价指标上都超过了所有现有方法。
COCO-LT数据集。 作者还将作者的回归分析应用到另一个长尾分布数据集:COCO-LT。这是原始COCO 数据集的人工采样子集。作者计算了整体的边界框度量AP以及更细粒度的结果:AP、AP、AP和AP(从最少见的类别到最常见的类别)。正如表6所示,在不同的重复因子采样率下,作者的CAB在所有指标上(尤其是最罕见的类别AP)都一致地带来了改进,显示了CAB在帮助罕见类别方面的强大能力。实际上,这一结论在作者的实验中对于所有采样率普遍适用。为了简单和清晰,作者这里仅列出了三个采样率。
在平衡的训练集上。 此外,作者验证了所提出的方法在相对平衡的数据集MS-COCO2017上的表现。作者采用了带有三种不同 Backbone 网络(ResNet-50, ResNet-101和ResNext101-32x4d)的Faster RCNN。表7中的结果显示,CAB能够很好地推广到分布更平衡的数据集上。有趣的是,CAB提高了大中型目标的指标,而在小目标上显示出类似的准确度。这可能是因为小目标占总实例的60%以上,而大目标仅占大约15%。由于作者的CAB对较少出现的类别更有益,因此它在大目标上带来的性能提升要高于小目标。
Mask分支。 最后,作者将CAB应用于分割分支,以测试添加一个与类别无关的先验是否适合Mask预测。实验结果在表8中展示,作者在其中添加了一个与类别无关的Mask预测头,并将其与每个类别特定的Mask头结合使用。如表所示,作者的CAB可以很好地泛化到分割任务上。如果CAB在框和Mask预测中都得到应用,作者主要的实验结果可能还会进一步改进。
与目标性分支的关系。 作者想要进一步阐明作者的CAB与在分类 Head 采用的物体性分支方法之间的关系(以及差异)。作者认为,尽管它们看似与作者的结构相似,但从概念和技术上讲,它们与作者的方法本质上是有区别的。
首先,目标性分支的目的在于处理前景与背景分类样本之间的不平衡分布,而作者的非特定类别分支是由这样的分析所启发:稀有类别更倾向于使用一种非特定的回归Head,作者的目标是解决回归偏差问题。其次,与分类不同,在分类中每个类别都必须保留其自己的分类器,而回归Head可以进行聚类或合并,这除了CAB(参见表2)之外,还提供了更多样化的方法来减少回归偏差。
最后,目标性分支的效果尚未得到证实,因为即使与纯交叉熵损失相结合,它也会降低稀有类别和常见类别的性能,而作者的CAB(或聚类或合并头)则一致带来了改进,特别是在稀有类别中。
Visualization and ablation
在本节中,可视化和消融研究进一步说明了作者回归方法的优势。
展平分布。 作者首先绘制了在结合作者的回归CAB前后,每个类别的RCNN回归损失。作者选择的 Baseline 方法是EQLv2和CE。如图4所示,在添加了作者的CAB之后,罕见类别的回归损失显著下降,而且整体的损失分布也变得更加均衡。因此,作者相信作者的回归修正流程可以缓解回归偏差,进一步验证了作者第1节中的假设确实是有效的。
更精确的边界框/掩模。然后作者计算边界框和掩模的AP50-AP95,以查看作者的CAB在更严格的IoU阈值上是否表现良好。如图5所示,在所有IoU阈值下,为边界框和掩模预测添加CAB都能一致地提高准确度,特别是在边界框评估中的那些难度较大的IoU阈值(例如,AP75-90)中尤其有帮助(比较图4(a))。由于更高的阈值需要更精确的边界框预测,这些结果已经表明作者的回归方法能够生成质量更高的精确边界框。
定性结果。 最后但同样重要的是,作者从LVIS1.0验证数据集中抽取了一些示例检测图像。为了简单起见,作者选择将带CE损失的RFS作为 Baseline ,并将其与作者的CAB方法结合使用。如图3所示,无论是 Baseline 还是作者的CAB都能检测到图像中的大多数目标,但CAB通常能处理更多的细节。例如,CAB可以帮助发现漏掉的框,如图像左下方的橱柜。同样清楚的是,CAB在最终预测中帮助过滤掉了重复的框(例如,在大象和草背景下的牛的图片)。
由于CAB带来了更好的预测,重复的框将有更大的重叠,可能会被NMS(非最大值抑制)所抑制。如果作者放大这张图(比较图3的最后一列),作者会发现CAB能够校正预测的框,这可以实证解释为什么作者的CAB在更高、更困难的IoU阈值下获得更好的AP(比较图4(a))。
5 Conclusions and Limitations
在本文中,作者发现长尾目标检测中存在回归偏差(在RCNN Head 的不平衡回归损失分布),这种偏差对检测结果有不利影响。因此,作者提出了三种纠正回归偏差的方法。所提出的方法显著提升了稀有类别AP的性能,并达到了最先进的结果。作者还将在平衡数据集、不同的评估指标以及Mask分支上推广作者的回归方法。最后,可视化结果表明,作者的方法确实产生了更好的预测边界框。
至于局限性,目前尚不清楚为何在基准更高时提升的准确度会降低(例如,CAB在ECM上的改进低于在RFS上,参见表3)。这可能与 Backbone 模型能够达到的上界有关。由于大型网络通常能更好地拟合数据集(参见表4),因此ResNet-50能实现的表现是有限的。
因此,作者呼吁在LVIS数据集上引入更大的视觉模型。另一个局限性是适应性:回归方法可能不易应用于单阶段目标检测器,因为与两阶段检测器不同,它们通常只有一个类别无关的回归Head。然而,几乎所有先前的长尾目标检测器也高度依赖于两阶段结构以保持其有效性,并且对于长尾检测器来说,普遍难以转移到单阶段流程中。作者将这项工作留作未来研究,以充分挖掘回归分支的潜力。
参考
[1].Rectify the Regression Bias in Long-Tailed Object Detection.
点击上方卡片,关注 「AI视界引擎」 公众号