通过残差分类和 IoU 模块增强目标检测模型性能！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

这对目标检测器来说，提升模型性能关键在于同时考虑任务间的差异性并专注于难以训练的样本。实现这一目标需要将分类和回归任务的信息相结合。

然而，之前的研究倾向于在其各自的任务中强调难以训练的样本，或者简单地使用IoU计算分类得分，往往导致模型性能不佳。在本文中，作者提出了一种混合分类-回归自适应损失，称为HCRAL。

具体来说，作者引入了分类和回归任务的残差分类和IoU（RCI）模块，以实现跨任务监督，解决任务差异性，并引入了条件因子（CF）以在每个任务内关注难以训练的样本。

此外，作者还提出了一种新的策略，称为扩展自适应训练样本选择（EATSS），以提供表现出分类和回归不一致性的新样本。为了验证所提出方法的有效性，作者在COCO测试-dev上进行了广泛实验。

实验评估证明了作者方法的有效性。

此外，作者通过单独将分类和回归损失与流行的单阶段模型中的常规损失函数相结合，进行了实验，以证明性能的提高。

unset

unset1 Introductionunset

unset

近年来，目标检测受到广泛关注，并在行人检测；刘等人（2018））和面部识别（范和江（2021））等领域得到广泛应用。它主要包括两个主要任务：分类和回归。它的目的是在输入图像上预测分类得分和边界框坐标，从而导致正负样本的不平衡。这种不平衡使得模型，特别是单阶段检测器在专注于相关样本的训练上变得更加困难。背景和正样本之间的不平衡促使研究行人探讨能使得模型更专注于难以训练样本的机制。例如，Focal Loss 是在分类任务中设计的方法。在回归任务中，如Focal EIoU（张等人（2022））和Alpha IoU（何等人（2021））通过调整梯度突出难以训练样本。

然而，近年来，研究行人发现由非极大值抑制（NMS）处理的多余的边界框可能会导致某些具有高定位能力但分类得分低的边界框被排除，从而降低模型性能。这提醒作者，损失函数的设计需要考虑分类分数的一致性和IoU。为解决这一问题，通用 Focal Loss 将IoU作为分类标签，Varfocal损失（张等人（2021））提出了一种交叉熵函数，它将定位信息纳入其中。然而，这两种方法在处理具有相似IoU的样本时，都无法有效地关注真正的难以训练样本。此外，IoU系列的损失函数大多忽视了分类和回归的一致性，经常只关注难以定位的样本。

为解决以上挑战，作者提出了一种 HCRAL（Hybrid分类-回归自适应损失），其包括一个模块，描述分类和回归的 consistency，并应用于分类和回归任务，即分类残留为 cls 和 IoU 。首先，作者使用 GHM 损失和GIoU损失（Rezatofighi等人（2019））作为基础函数，并设计RCI模块，为模型提供分类和回归损失函数之间的相互信息。此外，作者在分类和回归任务中调整正负样本的关注度，并调整条件因子（CF）。作者还提出了一种称为Expand Adaptive Training Sample Selection（EATSS）的新正负样本分配策略，用于为具有高IoU或高分类得分的样本提供更多优化后的样本，以优化损失函数。

picture.image

为了更好地验证作者HCRA loss的有效性，作者将它集成到一个流行的单阶段模型中，如图2所示。此外，作者在与其他损失方法比较时，引入了HCRA loss和EATSS基于FCOS+ATSS结构。为了 further 探索作者的方法的性能，作者应用了星卷积和边界框精炼作为辅助模块。在此次调整中，作者保留了中心性分支，但将目标更换为IoU评分，而不是原始设计。

作者的主要贡献可以总结如下：

提出了HCRAL，这是一种新的在任务间集成的损失。它建立了RCI模块，使模型在分类和回归任务中相互监督，同时CF模块专注于每个任务中的难以训练样本。
为了适应提出的HCRA loss函数，作者提出了一种基于ATSS的新EATSS策略，为RCI模块提供更优化的正样本。
为了证明作者损失函数的优越性和通用性，作者将HCRA损失与流行的一种单阶段模型的不同损失函数相结合。作者也展示了基于FCOS+ATSS结构的新方法的更高准确率，与该领域的最新状态相比，COCO测试-dev上的现有最先进损失函数。

unset

unset2 Related Workunset

unset

一阶段 object 检测器：与两阶段检测器不同，一阶段检测器直接预测分类概率和位置坐标偏移，而不是生成可管理的区域 Proposal （region of interest，ROI），这使得检测速度更快。在一阶段检测模型中，通常可以分为基于 Anchor 点的和基于 Anchor 点的。基于 Anchor 点的目的是通过 Anchor 点进行分类和回归。这些模型包括 Retinanet 和 SSD（Liu 等人 (2016)）。无需 Anchor 点的模型有两种预测物体位置的方式，提供了灵活和便利：Anchor 点预测和关键点预测。关键点模型; Zhou 等人 (2019)）预测目标框并将其分类，通过预测角落点来实现。类似于关键点的另一种 Anchor 点模型生成目标预测区域更动态，并通过自身的 Anchor 点信息预测目标框的四边距离，包括 FCOS（Tian 等人 (2019)）和 ATSS。近年来，无需 Anchor 点的方法也已用于许多流行的框架，如 YOLO 系列; Redmon 和 Farhadi (2017)）。

物检测器的代价函数：在目标检测开发过程中，正面样本和负面样本的不平衡始终是一个难以解决的问题。对于分类损失，Focal 损失和 GHM 损失在一阶段模型中得到应用。为了与 IoU 信息相结合，AP 系列损失函数旨在优化性能指标，但仍然难以优化。

虽然 Varifocal 损失和 GFocal 在将 IoU 视为分类标签而没有考虑难以训练的样本时，采取了 IoU 作为代价函数。对于回归损失，现有的 IoU 序列损失函数主要分为两种方法：（Rezatofighi 等 (2019); Zheng 等 (2020)）是通过增加错误惩罚系数来增加误差 centroid、width 和 height；其他方法（Tong 等人 (2023); Zhang 等人 (2022); He 等人 (2021)）主要是通过优化高质量示例和低质量示例的权重来增加对难以训练的样本的关注度。然而，上述函数未能同时考虑 IoU 的一致性和得分以及难以训练的样本。

unset

unset3 Methodunset

unset

在以上的分析中，作者在第三章引入了用于分类和回归的相互监督 RCI 模块，并引入了聚焦难以训练样本的 CF 模块，作者将介绍新的正面和负面样本选择策略，称为 EATSS。

unset

unsetLoss Function Designunset

unset

分类与回归的一致性 如图3(a)所示,接近于红色线的点遵循分类与回归的一致性,但大多数点不符合。在现有的损失函数中,很少考虑同时将一致性纳入分类和回归任务中。为解决此问题,作者引入RCI模块,可根据每个 Anchor 点的表现程度优化分类和回归,具体公式如下:

picture.image

其中,是预测的分类分数,是预测的边界框和实际位置在正样本中的位置,是调节分类与IoU(图3(a)中的黄色线条)之间平衡的参数。

unset

unset3.1.1 Classification Loss Functionunset

unset

作者分析了基于经验的现有分类函数。检测器可以关注难以分类的样本，GHM损失具有很好的自适应能力，可以表示为：

其中是预测概率，是实际标签。是总样本数。梯度可以分为个子区间，每个子区间的长度为 . 是第个子区间的中心。是一个确定样本梯度是否在个子区间内的函数。是计算每个梯度子区间内的样本数。是第个样本的重量。然而，分类损失函数需要具有以下特点，以便所有训练样本得到有效处理：

对于正样本，分配给具有高 IoU 的样本的权重应大于具有低 IoU 的样本，在相同子区间内。
另外，具有明显低于其对应 IoU 的分类分数的样本应受到更高程度的关注。然而，当分类分数接近 IoU 时，权重应逐渐减小，可能达到零。
对于负样本，权重的计算逻辑不同。在具有高 IoU，表示假阳性潜力的样本中，这些权重相对较高。随着 IoU 的增加，这些权重应该逐渐减小，反映假阳性减少的风险。

为了具体说明上述第一种和第三种条件，作者定义自适应矩阵，表示为，可以表示为：

是样本权重衰减因子，用于在时控制高 IoU，如图3(b) 所示。为了满足第二种条件，作者保持 GHMC 的梯度并与结合，即条件因子（CF），其定义如下：

为了满足第三种条件，作者引入 RCI 模块以实现分类和 IoU 的一致性：

是分数和 IoU 的一致性调整因子。当分数逐渐靠近 IoU 时，共识矩阵会变小，以减少模型对样本的注意力。当变大时，抑制效果越明显。可以看出，HCRAC 包含在图2 中的和，可以表示为：

unset

unset3.1.2 Regression Loss Functionunset

unset

作者总结了所需的回归损失函数：

模型需要增加一些普通质量的 Anchor 框的梯度。
训练数据中有许多低质量样本，具有异常的宽高比，很难在训练中产生高重叠与实际值，同时降低训练质量。
最重要的是，损失函数需要增加对一些低IoU Anchor 框的惩罚，并减少IoU高、分数低的 Anchor 框的梯度传播。

遵循分类损失函数，作者将上述条件从计算图中分离出来，避免反向传播将影响彼此。条件1和2基于IoU来调整样本的权重，作者可以构造条件因子如下：

在这里，表示分配给同时具有普通质量和IoU高的 Anchor 框的关注权重，是中的参数，规定了IoU Anchor 框的抑制权重函数的形状。图3(c)展示了关于不同控制参数的的边框。是最小包围盒的边长。表示计算 Anchor 框的中心和 GT 值的中心的距离。表示一定程度的离心点偏移，它可以提高模型对中心点非对齐 Anchor 框的注意力。

结合上述第三点，作者引入了RCI模块，以便关注具有高IoU但低分数的样本。如图3(a)所示，分数和IoU的分布被分成两个区域，以\alpha。在区域1中，样本的分数相对于IoU值较高，模型应相应地优先关注。相反，在区域2中，模型的关注应降低，因为这部分样本相对于分数具有较高的IoU值。作者可以构建基于RCI的系数如下：

在这里，，当。因此，当在[0,1]之间时，如果，则，这意味着。然而，当，IoU在[0,1]之间时，满足的样本所在的区域2，有。因此，。通过运行平均，作者 normalize 。在作者的工作中，应用了指数移动平均（EMA）方法来计算权重，可以表示为：

从图2，作者引入r和，以GIoU为基本函数。因此，作者提出的HCRAR可以表示为：

其中，。，是两个任意盒。是包含A和B的最小凸包。

unset

unsetExpand Adaptive Training Sample Selectionunset

unset

算法1：扩展自适应训练样本选择（EATSS）

picture.image

尽管ATSS张等人（2020年）算法的适应性已经使得每层金字塔特征的中心区域能够选择k个近似真实值的样本，并动态识别出符合IoU均值和方差的阳性样本，这可能会遗漏某些具有高分数和高IoU的样本，这些样本具有潜力。

具体来说，作者需要增加一些高IoU和高分数的 Anchor 点等有效阳性样本，以优化每个群体真理的RCI。如算法1所述，在ATSS算法筛选后获取每个真实值的阳性样本和阴性样本，计算 Anchor 点中心与真实值之间的最大距离，作者称其为，该距离能够满足IoU的均值和方差的和，从而找到最大的边界以寻找阳性样本。为了探索高IoU和高分数的 Anchor 点，作者设计了一个排名函数，包含箱体中心与真实值中心之间的距离和IoU，以获得最高排名分数的最正面样本来提供更多可以通过RCI优化的样本。

unset

unset4 Experimentsunset

unset

数据集 。作者在COCO（Lin等人，2014）这个大规模目标检测数据集上评估HCRAL和EATSS。遵循常见实践，作者在train2017分片中训练检测器，在val2017分片中报告ablation结果，然后将结果上传到评估服务器，与其它检测器在test-dev分片中进行比较。作者采用标准的COCO-style平均精确率（AP）作为评估指标。

实验设置 。为了在两种不同的单阶段检测方法上验证作者的损失函数的有效性，即 Anchor-Free 框（anchor-free）和有 Anchor 框（anchor-based）方法，作者选择ATSS和RetinaNet作为检测器。请注意，在RetinaNet上所有回归任务的损失权重都被设置为2.5。此外，由于FCOS+ATSS结构的扩展性，作者选择将其与作者的损失函数和EATSS相结合。初始学习率设置为0.01，训练过程中采用线性 Warm up 策略， Warm up 比例（Goyal等人，2017）设置为0.1，但在ATSS中设置为0.001。除了在RetinaNet上使用4个GPU验证回归性能外，作者在ablation研究中和性能比较中使用8个V100 GPU，总批量大小为16（每个GPU 2个图像）。特别的是，作者在COCO val2017上使用ResNet-50（He等人，2016）作为背作为RetinaNet，在COCO test-dev上使用不同的背作为FCOS+ATSS进行训练。如果背作为利用DCN，也被纳入到star可变形卷的前面最后几层。引入辅助模块时，作者使用star卷积和边界框精炼组件加入FCOS+ATSS。为了与COCO test-dev上的最新方法进行公平比较，采用了2x（24个周期）训练方案和多尺度训练（MSTrain）。

unset

unsetAblation Studiesunset

unset

分类超参数 。正向样本的调优依赖于两个超参数：和。超参数控制梯度子区间的数量。在分数小于IoU时用于调节正样本的权重。用于调整负样本的相对权重。在表1中，作者展示了从4到6的参数和从20到30的参数。可以总结出，当设置为5，设置为20时，模型表现最好。在第三行，没有模块的0.2 AP可能会下降。这说明了在分类任务中的有效性。从表2的结果中，作者选择参数为0.7作为最佳参数。

picture.image

回归超参数 。对于回归分析，有三个关键超参数：和。表示分类和回归之间的差距。当这个差距增大时，一致性问题会变得更加显著，因为位于区域1的样本数量会相应地增加。另一方面，超参数用于控制分类分数和IoU的不一致性影响。具体来说，在区域1，的减小会导致的增加，使模型更关注分类和回归之间的不一致性，而的增加会减少对不一致性的关注。表3显示，和的最佳参数均为0.1和0.001。如果没有模块，0.3 AP可能会下降。这说明了在回归任务中的有效性。从表4中可以看出，设置为1.2以获得良好性能。由于在RetinaNet和ATSS中样本选择的差异，ATSS往往包含更多低IoU样本。为了应对这个问题，在使用ATSS时去掉，并将权重设置为1.5，以确保在训练过程中高质量样本不被压制。

picture.image

EATSS 。基于FCOS+ATSS并带有辅助模块，作者结合HCRAL和EATSS探讨了加入额外的 Anchor 点的影响。参数1控制每个真实值的 Anchor 点数量增加。表6表明，增加这个参数可能会导致AP值从41.7 AP到42.1 AP，这显示了作者的HCRA损失对参数1的性能对该性能的敏感性。

picture.image

unset

unsetEvaluation of Individual Method Contributionsunset

unset

经过以上分析，作者得出结论：EATSS对于HCRAL是敏感的。为了验证单个方法的有效性，作者逐个添加并总结在表6中。首先，可以观察到将EATSS替换为ATSS，仅将FL+GIoU增加到0.1。这表明HCRAL有效优化了具有高分数和高IoU的额外样本。其次，分类损失不是以focal loss计算，而是以HCRAC损失计算，性能提高了到41.7 AP。最后，将GIoU损失替换为HCRAR损失，性能进一步提高了到42.1 AP。这些结果证实了作者所提出的方法的有效性。

unset

unsetComparison with State-of-the-Artunset

unset

picture.image

在表7中，作者比较了HCRAL与COCO测试开发上的最先进损失函数。值得注意的是，所有损失函数都使用一阶段的模型，并且进行相同的多尺度训练（Li等人（2020）；Zhang等人（2021, 2020））。HCRA损失在带有ResNet-50后端的情况下，在FCOS+ATSS上获得44.4个AP，超过了具有相同后端的所有竞争方法，如GFL（43.1 AP）和VFL（43.6 AP）。作者还尝试将HCRAL应用于更深层次的网络，如ResNet-101，超过VFL和GFL1.2 AP和1.1 AP，表明HCRAL验证了其出色的性能。加入辅助模块，作者提出的其他状态最先进的方法。

picture.image

HCRA损失函数的泛化性和优越性

作者通过用现有的分类损失函数HCRAC替代现有的分类损失函数，用回归损失函数HCRAR替换Regression损失函数在流行的检测器RetinaNet和ATSS中，使用COCO val2017数据集评估HCRA损失函数。在表8中，HCRAC在RetinaNet上对分类损失函数实现了1.1 AP的改进（37.6 AP vs 36.5 AP），并在ATSS上对回归损失函数实现0.4 AP的改进（40.4 AP vs 40 AP），这表明其在其他分类损失函数上的优越性能。对于回归损失函数，可以得出在表9中的结论，即HCRAR在Re

picture.image

unset

unset5 Conclusionunset

unset

在本文中，作者提出了一种混合分类和回归损失函数HCRA，以及一种新颖的目标检测策略EATSS。

作者将RCI模块集成到模型中，以解决分类和回归任务之间的不一致性，并采用CF模块，该模块关注每个任务中难以训练的样本，使模型能够专注于最具信息的训练样本。

为了进一步评估作者损失函数的有效性，作者将EATSS集成到密集型目标检测器中并评估作者提出的方法的性能。

此外，作者在一次步骤检测器上进行比较实验，证明了HCRAL的有效性和泛化性。

unset

unset参考unset

unset

[1].Hybrid Classification-Regression Adaptive Loss for Dense Object Detection.

点击上方卡片，关注「AI视界引擎」公众号

通过残差分类和 IoU 模块增强目标检测模型性能 ！

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset