ECCV2022 Oral | 全新Ancho-free检测模型ObjectBox，120FPS超越OTA、TOOD等 - 文章 - 开发者社区

picture.image

本文提出了 ObjectBox，一种新颖的单阶段 Anchor-free且高度泛化的目标检测方法。与现有的 Anchor-based和 Anchor-free的检测器相反，它们在标签分配中更偏向于特定的目标尺度， ObjectBox仅使用目标中心位置作为正样本，并在不同的特征级别平等对待所有目标，而不管物体的大小或形状。

具体来说， ObjectBox的标签分配策略以 Anchor-free的方式将目标中心位置视为与形状和大小无关的 Anchor，并允许在每个目标的所有尺度上进行学习。为了支持这一点，作者将新的回归目标定义为从中心单元位置的2个角到边界框4个边的距离。此外，为了处理尺度变化的目标，作者提出了一种定制的 IoU 损失来处理不同大小的框。因此，本文提出的目标检测器不需要跨数据集调整任何依赖于数据集的超参数。

在 MS-COCO 2017 和 PASCAL VOC 2012 数据集上评估 ObjectBox，并将结果与最先进的方法进行比较。 ObjectBox 与之前的作品相比表现得更好。

介绍

当前最先进的目标检测方法，无论是两阶段还是单阶段方法，都假设边界框，为每个框提取特征，并标记目标类别。他们都对共享的局部特征进行边界框定位和分类任务。一种常见的策略是在卷积特征图上使用手工制作的密集 Anchor来为共享的局部特征生成丰富的候选框。这些 Anchor生成边界框大小和纵横比的一致分布，这些分布是基于目标和 Anchor之间的 IoU分配的。

由于它们的巨大成功，目标检测一直由 Anchor-based的方法主导。然而，它们存在许多常见且严重的缺陷。首先，使用预定义的 Anchor会引入额外的超参数来指定它们的大小和纵横比，这会削弱对其他数据集的泛化能力。其次， Anchor必须密集地覆盖图像以最大化召回率。然而，少数 Anchor与大多数GT框重叠，导致正负 Anchor框之间的巨大不平衡，并增加了额外的计算成本，从而减慢了训练和推理的速度。第三，必须根据数量、比例和纵横比仔细设计 Anchor，因为改变这些参数会影响性能。

picture.image

为了应对这些挑战，最近开发了许多 Anchor-free目标检测器，可分为 keypoint-based和 center-based的方法。在 keypoint-based的方法中，多个对象点（例如中心点和角点）使用标准关键点估计网络（例如 HourglassNet）定位，并分组以限制对象的空间范围。然而，它们在关键点检测之后需要复杂的组合分组算法。相比之下， center-based方法更类似于 Anchor-based的方法，因为它们使用感兴趣的对象区域或中心位置来定义正样本。虽然 Anchor-based方法使用 Anchor框作为这些中心位置的预定义参考框，但 Anchor-free方法可以直接回归这些位置的边界框（参见图 1）。

ATSS 表明， center-based方法中 Anchor-based方法和 Anchor-free方法的主要区别在于正负训练样本的定义，这导致了性能差距。为了区分正样本和负样本， Anchor-based 方法使用 IoU 同时在空间维度和尺度维度上选择正样本，而 Anchor-free方法使用一些空间和尺度约束，首先在空间维度中找到候选正样本，然后在空间维度中选择最终正样本尺度维度。然而，这两种静态策略都施加了约束阈值来确定正样本和负样本之间的边界，而忽略了这样一个事实，即对于具有不同大小、形状或遮挡条件的目标，最佳边界可能会有所不同。为了解决这个问题，已经开发了许多动态分配机制。例如，在 ATSS 中建议根据一些统计标准为每个目标设置划分边界。

picture.image

在本文中，作者建议放松静态或动态分配策略施加的所有约束，从而平等地对待所有尺度的所有目标。无论目标形状或大小如何，为了学习分类标签和回归偏移，作者只从目标中心位置回归，这些位置被视为与形状和大小无关的 Anchor。为了支持这一点，将新的回归目标定义为从包含目标中心的网格单元的两个角到边界框边界（图 1 中的 L、R、B 和 T）的距离。如图 2 所示，与不同规模级别的其他方法相比，没有使用任何标准。因此，在没有任何花里胡哨的情况下扩展了正样本。为了从所有尺度学习这些正样本，提出了一种新的尺度不变标准作为 IoU 度量，它惩罚不同尺度级别的不同大小的目标和预测目标框之间的误差。

总之，本文的贡献是提出了一种新颖的 Anchor-free目标检测器 ObjectBox，它能够更好地处理标签分配问题，并且与最先进的技术相比表现更好。此外，本文方法是即插即用的，可以轻松应用于各种数据集，无需任何超参数调整。因此，本文的方法更加稳健和可推广，并取得了最先进的结果。

ObjectBox

让训练图像包含 n 个 GT 的目标，其中和分别表示第 i 个目标的边界框和对象类别标签。每个边界框 b = {x, y, w, h} 由其中心 (x, y)、宽度 w 和高度 h 表示。作者的目标是在图像中定位这些框并分配它们的类标签。

2.1 基于目标中心位置的标签分配

输入图像中具有中心（x、y）的边界框b可以使用其角点定义为，其中、和、表示比例i处的左上角和右下角的各自坐标。

本文的方法预测了3个不同尺度上的边界框来处理对象尺度的变化。因此，可以在这些尺度对应的3个特征图上检测到不同大小的物体。这里特别选择了步幅s={8,16,32}，并将每个边界框中心映射到这些嵌入物上的特定位置。

picture.image

这里将中心(x，y)映射到尺度i嵌入的中心位置(即图3(a)中的橙色单元格)，并分别从边界框的2个边界计算其左上角和右下角（红色圆圈）的距离。具体来说，如图3所示，计算从右下角到左和上边界(L和T)的距离，从左上角到右和下边界(R和B)的距离如下：

picture.image

其中表示尺度i的回归目标，和分别表示中心位置的坐标和中心位置右下角的坐标。需要注意的是，和，其中和分别表示尺度i下的边界框 b 的宽度和高度。与这些距离对应的预测如下：

picture.image

其中σ代表 logistic sigmoid function，表示对距离值的网络预测，这里用 sigmoid变换在0和1的范围内。乘以2允许检测值覆盖略大的范围。使用，输出稳定地以大约零梯度初始化。这里还通过乘以一个恒定的尺度增益来区分不同的尺度，即，。整个网络输出包括每个尺度的每个位置的一个预测，每个预测包括上述距离值，以及每个边界框的客观得分和类标签。

公式确保所有被回归的距离在不同条件下都保持正数。如图 3 (b) 所示，即使对于以较大步幅完全包含在单元格中的小目标，这 4 个距离也可以计算为正值。更重要的是，将所有目标视为不同尺度的正样本。这与现有的 center-based的方法（即， Anchor-based和 Anchor-free方法）形成对比。

例如，在 Anchor-based的方法中，将一定尺度的每个中心位置视为多个 anchor box的中心，如果目标 box和这些 anchor box的 IoU不在阈值范围内，则认为作为负样本。类似地， anchor-free 方法基于不同的空间和尺度约束将一些目标框丢弃为负样本。

例如， FCOS 定义了一组最大距离值，这些值限制了可以在每个特征级别检测到的目标大小的范围。作为另一个示例， FoveaBox 通过经验学习的参数控制每个金字塔级别的比例范围，而在 FSAF 中，一组恒定比例因子用于定义正框和负框。如图 2 所示， ObjectBox 将所有尺度的所有目标框都视为正样本。因此，无论目标大小如何，它都从所有尺度中学习，以从多个级别实现更可靠的回归。由于 ObjectBox 仅考虑每个目标的中心位置，因此每个目标的正样本数与目标大小无关。

由于边界框的几何中心可能位于中心单元的边界附近，这里用它的相邻单元来增加中心。例如，当边界框的中心位于单元格的上半部分时，除了中心单元格之外，还使用上述位置。

本文的方法从它们的中心区域检测对象。如果两个边界框重叠，则它们的中心不太可能重叠，因为两个边界框中心位于同一位置是非常罕见的。在 MS-COCO 和 PASCAL VOC 2012 中，作者没有发现重叠目标的中心重叠的情况。然而，增强的中心位置在处理这些边界框时很有用。在作者的实验中表明除了中心位置之外添加更多点会损害检测性能。

本文的策略隐含地利用了 anchor box背后的直觉， anchor box通常是通过对数据集中的GT框的维度进行聚类来创建的。它们的尺寸是作为对不同尺寸的最常见形状的估计而获得的。例如， Faster R-CNN 和 YOLO 使用3个尺度和3个纵横比，在每个位置产生 9 个 anchor box。然而，本文的方法使用每个尺度的边界框的中心位置来为每个目标生成多个预测。本文的方法也比其他 anchor-free方法更有效，例如 FCOS，它利用额外的 FPN 级别（即总共 5 层）来处理重叠的边界框。

2.2 Box回归

由于是距离，因此可以独立处理它们，并且可以使用均方误差 ( MSE) 对这些值分别执行回归。然而，这样的策略会忽略对象边界框的完整性。 IoU 损失已经被提出来考虑预测和真实边界框区域的覆盖范围。

IoU 是一种广泛使用的2个形状之间的相似性度量，由于其可微分的吸引人的特性，可以直接用作优化的目标函数。在目标检测中， IoU 可以将每个边界框的宽度、高度和位置编码为标准化度量。因此，IoU 损失 (LIoU = 1 − IoU) 允许将边界框识别为单个实体，并联合回归边界框的四个坐标点。

通过考虑不同的情况，最近改进了 IoU 损失。例如， GIoU（损失除了覆盖区域外，还包括对象的形状和方向。它可以找到能够同时覆盖预测边界框和 ground-truth边界框的最小区域，并将其作为分母来代替 IoU loss中使用的原始分母。 DIoU损失还强调了预测框和真实框中心之间的距离。 CIoU 损失同时包括重叠区域、中心点之间的距离和纵横比。

在本文的例子中，作者感兴趣的是最小化2个 Box之间的距离，每个 Box都由4个距离值给出。当从具有不同大小的对象的不同尺度中学习时，边界框回归损失函数应该是尺度不变的。然而， ℓn-based损失会随着边界框的规模变大而增长。与原始 IoU 损失及其变体相反，本文的损失不需要匹配边界框位置，因为定位任务已经嵌入到过程中。此外，在最坏的情况下，预测框和真实框至少共享一个点（即 IoU ≥ 0）。这是因为对于每个框，≥0。

在这项工作中提出了一种为目标检测方法量身定制的基于 IoU 的损失，它也可用于改进其他 anchor-free检测器。提出的损失，称为 SDIoU，代表基于尺度不变距离的 IoU，直接应用于网络输出，即从目标中心到左上角和右下角的距离值。然而，其他基于 IoU 的损失适用于目标中心和目标宽度和高度。由于 SDIoU 基于预测框和真实框对应偏移量之间的欧几里德距离，因此它可以保持框的完整性并对所有 4 个方向的重叠区域进行评分。

与 CIoU 和尺度平衡损失类似，考虑非重叠区域、重叠或交叉区域以及覆盖这2个框的最小框。首先通过将对应距离值之间的所有欧几里德距离的平方相加来计算非重叠区域 S：

picture.image