单目3D目标检测的革新者 | MonoCD 利用互补深度估计提高检测互补性,KITTI基准上 性能 SOTA !

技术

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

picture.image

picture.image

单目3D目标检测因其能以低成本从单个图像中准确获取物体的3D定位而受到广泛关注。深度估计是单目3D目标检测中一个基本但具有挑战性的子任务,因为2D到3D的映射是不适定的。许多方法探索了多个局部深度线索,如物体高度和关键点,然后将物体深度估计公式化为多个深度预测的集合,以减轻单一深度信息的不足。然而,现有多个深度估计的错误往往具有相同的符号,这阻碍了它们相互抵消,限制了组合深度的整体准确性。

为了缓解这个问题,作者提出了两种新的设计来增加深度的互补性 。首先,作者增加了一个名为互补深度的新的深度预测分支,它利用来自整张图像的全局和高效深度线索,而不是局部线索,以减少深度预测的相似性。其次,作者提出充分利用多个深度线索之间的几何关系,以在形式上实现互补性。得益于这些设计,MonoCD实现了更高的互补性。在KITTI基准上的实验表明,MonoCD在没有引入额外数据的情况下取得了最先进的表现。此外,互补深度也可以作为一个轻量级且即插即用的模块来提升多个现有的单目3D目标检测器。

代码:https://github.com/elvintanhust/MonoCD

1 Introduction

作为学术界和工业界的一个重要研究课题,3D目标检测可以让非人类智能感知3D世界。与基于LiDAR的方法和基于立体视觉的方法相比,单目3D目标检测因其价格低廉、配置简单而受到广泛关注。然而,其3D定位精度显著低于基于LiDAR和立体视觉的方法。为了推进自动驾驶和机器人等自动化技术的发展,提高单目3D目标检测的3D定位精度至关重要。

近年来,许多单目3D目标检测算法已经意识到限制单目3D目标检测3D定位精度的最主要原因是深度估计不准确。在主流的CenterNet范式下,它们探索了多种局部深度线索,并将深度估计表述为多个深度预测的集成,以弥补单一深度信息的不足。例如,MonoFlex探索了直接估计和目标高度的局部深度线索,并随后通过加权平均将它们组合为一个深度。MonoDDE[18]进一步揭示了从目标顶部视角点的线索。

picture.image

然而,在KITTI数据集上的实验显示,现有95%的多深度预测集成具有相同的误差符号,即多个预测深度通常分布在 GT 值的同一侧,如图1(a)中的耦合所示,这导致无法相互抵消的深度误差,阻碍了组合深度精度的提高。作者将这种耦合现象归因于它们在CenterNet范式下使用的局部深度线索都来自目标周围的同一局部特征。

在本文中,作者提出增加深度的互补性以减轻问题。这里的互补性指的是这些预测不仅追求高精度,而且具有不同的误差符号。为此,作者提出了两项新的设计。首先,考虑到上述耦合现象,作者增加了一个新的深度预测分支,该分支利用来自整幅图像的全局和有效深度线索,而不是局部线索,以减少深度预测的相似性。它依赖于全局信息,即一幅图像中的所有目标大致位于同一平面上。其次,为了进一步提高互补性,作者提出充分利用多个深度线索之间的几何关系,以形式上实现互补性,这利用了同一几何量误差在不同分支上可能产生相反效果的事实。

例如,在图1(b)中,因为相关的线索3D高度被低估而有负误差,而在这种情况下,由于对新线索在上的作用与相反而有正误差。因此,基于的几何关系为和提供了形式上的互补性。

结合所有设计,作者提出了一种名为MonoCD的新型单目3D检测器,具有互补深度,它弥补了之前多深度预测中被忽视的互补性。本文的主要贡献总结如下:

  • 作者指出了现有单目目标深度预测的耦合现象,这限制了组合深度的准确性。因此作者提出改进深度的互补性以减轻这一问题。
  • 作者提出增加一个名为互补深度的新的深度预测分支,利用全局和有效的深度线索,并充分利用多个深度线索之间的几何关系,以形式上实现互补性。
  • 在KITTI基准上的评估表明,MonoCD在没有引入额外数据的情况下取得了最先进的表现。此外,互补深度可以作为轻量级的即插即用模块来提升多种现有的检测器性能。

2 Related work

近年来,在计算机视觉领域取得了显著进展,特别是在人工智能驱动的图像识别和分类任务方面。本节简要概述了影响MonoCD发展的相关工作。

在过去十年中,深度学习作为一种强大的技术手段,已经在各种视觉识别任务中崭露头角。卷积神经网络(CNNs)已成为图像分类的主导模型,其性能显著优于之前的手工特征方法。特别是 AlexNet 的出现,随后VGG、GoogLeNet和ResNet的推出,在图像分类领域引发了一系列的突破。

YOLO 和 Fast R-CNN 凭借其实时和高准确度的性能,在目标检测社区激发了兴趣。这些模型启发了许多后续研究,旨在提高检测速度和准确性。此外,递归神经网络和生成对抗网络(GANs)也被应用于图像生成和风格转换任务,扩展了深度学习在视觉领域的应用范围。

迁移学习在推动人工智能驱动的视觉系统发展方面也发挥了关键作用。通过利用在大规模数据集(如ImageNet)上预训练的模型,研究行人能够针对具有有限标注数据的特定任务对这些模型进行微调,显著减轻了标注负担并减少了训练时间。

在无监督学习领域,诸如自组织映射(SOMs)和k-means聚类等方法已用于图像分割和特征提取任务。近来,像自编码器和变分自编码器(VAEs)等方法由于能够在没有标注数据的情况下学习表示而受到关注。

本文基于这些基础性工作,并引入了一种新颖的方法,旨在解决人工智能驱动的视觉识别领域中的特定挑战。

Center-based Monocular 3D Detector

许多近期的工作都是基于流行的基于中心的范式CenterNet扩展的,这是一种最初应用于2D目标检测的 Anchor-Free 方法。它将3D边界框的所有属性转换为一个中心点进行估计,使得检测过程更简单、更高效。SMOKE继承了基于中心的框架,并 Proposal 可以省略2D边界框的估计。MonoDLE发现2D边界框的估计有助于预测3D属性,并表明深度误差是限制单目3D目标检测准确性的主要原因。MonoCon发现,在中心周围添加辅助学习任务可以提高泛化性能。

尽管基于中心的框架有许多好处,但它使得所有3D属性的预测与局部中心高度相关。它忽略了全局信息的利用,导致预测的3D属性之间的耦合。

Transformer-based Monocular 3D Detector

得益于注意力机制的的非局部编码及其在目标检测中的发展,最近提出了多种基于Transformer的单目3D检测器,以增强全局感知能力。MonoDTR提出执行深度位置编码,将全局深度信息注入Transformer以指导检测,这需要激光雷达进行辅助监督。与它不同,MonoDETR使用前景物体标签来预测前景深度图以实现深度引导。为了提高推理效率,MonoATT提出了一种自适应标记Transformer,并使更细的标记能够分配到图像中更重要的区域。

尽管上述方法表现良好,但基于Transformer的单目3D检测器的高计算复杂度和缓慢推理的缺点仍然明显。因此在现实世界的自动驾驶场景中,目前还缺乏一种既能够合成全局信息又具有低延迟的方法。

Estimation of Multi-Depth

除了直接使用深度神经网络估计物体深度外,许多近期的工作通过间接预测与深度相关的几何线索来拓宽深度估计的研究领域。[23, 32]利用数学先验和不确定性建模通过3D到2D高度比来恢复深度信息。基于这些工作,MonoFlex [43]进一步将几何深度扩展到三组,通过3D边界框的其他支持线,并提出使用不确定性作为权重将多个深度合并为最终的深度。MonoGround [28]引入了局部地面平面先验,并使用在各个目标底部平面中随机采样的密集点来丰富深度监督源。MonoDDE [18]利用关键点信息将深度预测分支的数量扩展到20,强调深度多样性的重要性。然而,多个深度之间的互补性很少被探索。几何线索(如2D/3D高度)中的错误累积到相应的深度误差中。没有有效的互补性,现有的深度误差无法被中和。

3 Approach

Problem Definition

单目3D目标检测的任务是从仅有的2D图像中识别出感兴趣的目标,并预测其相应的3D属性,包括3D位置 、尺寸 和方向 。3D位置 通常被转换成2.5D信息 进行预测。 和 的恢复过程可以表述为:

其中 是在图像中投影的3D中心, 是摄像机光学中心。 和 分别表示水平和垂直焦距。

如第1节所述,许多方法 [18, 28, 43] 已经意识到深度 是限制单目3D检测器性能的主要原因,并通过使用多深度来提高深度预测的准确性:

其中 表示n个预测的深度, 表示由预测不确定性确定的它们的权重。 作为输出的最终深度。

The Effect of Complementary Depths

为了证明互补深度的有效性,作者从数学角度展示了其优越性。定义两个不同的深度预测分支 和 如下:

其中 表示深度的 GT 值。 和 分别是两个深度分支在单一预测中的误差。注意 和 的正负与误差的符号相对应。作者定义 来模拟多深度耦合的情况,如图1(a)所示。作者将多个耦合深度的最终组合误差称为耦合深度误差。因此,参照方程(2),耦合深度误差 的 和 可以表述为:

其中 和 满足 和 。然后作者沿着 对 进行对称翻转,而不改变预测的准确性:

翻转后, 和 中的误差符号相反,人为地实现了它们之间更高的互补性。作者将多个互补深度的最终组合误差称为互补深度误差。类似地,互补深度误差 的 和 可以表述为:

通过数学变换,作者将方程式(4)和(6)进一步表达为:

显然,由于条件 ,互补深度误差 始终小于耦合深度误差 。无论权重或误差大小的变化,这种关系始终保持不变。同样,通过在翻转 时保持 不变,这一结论也是等价的。因此作者可以得出结论 :实现两个深度分支之间的互补关系有助于降低整体深度误差,即使没有提高单个分支的准确性。

为了证明互补深度在实际中的有效性,作者在KITTI验证集上选择了经典的多元深度预测 Baseline进行评估。它包含4个深度预测分支(1个直接估计的深度和3个几何深度)且在测试后,任意两个分支的耦合率约为95%。如图3左侧所示,作者基于方程式(5)在对称地沿着 GT 值翻转直接深度估计分支,从0%到100%的样本比例实现不同 Level 的深度互补。

picture.image

此外,考虑到在实际中,在保持相同准确性的同时获得误差符号相反的深度预测的难度,作者在对其进行不同大小的随机扰动的同时,进行了翻转深度分支的实验。结果展示在图3的右侧。通过在上述操作中对其他分支执行相同的操作,观察到类似的结果。基于此,作者有以下三个观察:

观察1: 如图3左侧所示,随着翻转样本比例的提高,检测准确性增加。这表明增加多个深度预测分支之间的互补性可以持续提高检测准确性。

观察2: 对于两个独立的深度预测分支,理想情况下,它们在所有样本中预测符号相反的比例应为50%。由于 Baseline 中多个分支的耦合,这种情况与图3左侧50%的翻转比例相似。因此,降低多个深度预测分支之间的相似性也可以增加它们的互补性。

观察3: 当翻转比例固定为50%时,如图3右侧所示,在应用振幅为2米的随机扰动(这对于KITTI中的Car来说是非常显著的)之前,互补效果并未消失。这表明,即使部分深度估计准确性有所下降,互补效果仍然可以提升整体性能。最终整体性能是否能够提升取决于相反符号的比例和深度估计的准确性。

此外,作者选择了具有不同深度预测分支总数的模型来进行翻转和评估。作者发现,随着翻转分支的数量接近未翻转分支的数量,整体性能相应提高。有关更多实验和详细信息,请参考附录材料。

3D Detector with Complementary Depths

picture.image

框架概述。 如图2所示,作者设计的网络从CenterNet扩展而来。回归头分为两部分:局部线索和全局线索,其中选择DLA-34作为网络的 Backbone 。局部线索分支的设计参考了MonoFlex,它基于预测的 Heatmap 估计每个局部峰值点的维度、关键点、直接深度、方向和2D检测。由于这些几何量的预测与图像中局部峰值点的位置高度相关,因此它们被称为局部线索。和都是从它们派生出来的。

全局线索分支基于所有提取的像素特征预测整个图像的水平 Heatmap ,用于获得场景中的趋势,然后输出嵌入全局线索的互补深度。如何构建具有全局线索的深度预测分支并进一步实现形式上的互补性将在下面详细说明。遵循[11, 12],作者对所有七个深度预测(1个直接深度,3个关键点深度,以及通过对角线列增强的3个互补深度如[43])建模不确定性。最终深度根据方程式(2)获得,其中 。

带全局线索的深度预测。 受[8]启发,神经网络通过以下方式从单张图像看到深度:

其中 表示物体在相机坐标系中的 轴坐标, 表示在像素坐标系中投影的底部中心的垂直坐标。考虑到 也表示物体所在平面的高度,且所有物体大致位于一个平面上, 包含这样的全局特征,并且可以与其他深度线索区分开来。与之前隐式利用方程式(9)的神经网络不同,作者提出显式预测 。

为了避免陷入耦合,作者不使用第2.1节中讨论的基于中心的方 法来预测 。作者提出首先通过地面平面方程获取场景中 的倾斜趋势。地面平面方程的预测基于水平 Heatmap 分支,类似于[38],但作者省略了边缘预测,并得到预测结果为:

给定方程式如下:

其中 , 和 。 和 分别表示由水平 Heatmap 拟合的地平线的斜率和截距。然后,考虑到方程式(1)和物体的投影底部中心 ,可以导出带有全局信息的 :

其中 ,。

将方程式(11)代入方程式(9),得到一个带有全局线索的新深度预测分支:

此外,为了更好地利用全局特征以及扩大感受野,作者使用扩张卷来预测水平 Heatmap 。

在求解中的互补形式。 简单地实现更独立的深度预测是不够的,作者希望充分利用多个深度预测分支之间的几何关系,以进一步提高互补性。

picture.image

考虑到图4中橙色部分所示的投影底部中心 和顶部中心 ,文献 [32] 中由关键点和高度推导的深度可以重写为:

其中 表示物体的3D高度。结合方程式(11)获得的全局 信息和方程式(13)中使用的几何量,作者进一步提出了一种与 形式上互补的深度预测:

几何对应关系在图4的蓝色部分中展示。可以观察到,在设计方程(14)中的和的符号与方程(13)中恰好相反。这意味着在预测每个目标的3D信息时,和的误差对和具有相反的影响。尽管方程(13)和方程(14)并不严格对称,但这进一步增加了和的误差和满足条件的概率。如第3.2节所证明,最终在方程(2)的加权平均中,一部分深度误差被中和。

4 实验

Dataset

作者的实验是在广泛采用的KITTI 3D目标数据集上进行的,该数据集包含7481张训练图像和7518张测试图像。由于测试图像的标注并不公开,作者遵循[6]的方法,进一步将7481张训练图像分为3712张和3769张,分别作为训练集和验证集。每个类别根据2D高度、截断和遮挡进一步细分为三个难度 Level :简单、中等和困难。

Evaluation Metrics

与先前的方法一样,作者使用平均精度 和 作为整体评估指标。遵循[34]的研究,上述AP计算使用了40个召回位置。对于车辆,交并比(IoU)的阈值设为0.7。

在第4.5节的消融研究中,引入了 的平均绝对误差(MAE)作为评估不同 来源准确性的指标。此外,为了更好地衡量不同设计之间的互补性,作者量化了互补性的大小,作为互补性得分。如第3.2节所述,误差符号相反比例和深度估计准确性对于实现性能提升都至关重要。因此,作者将互补性得分 (CS)制定为:

其中 表示全局和局部线索分支之间深度的误差符号相反比例 (ESOP),而 表示 的平均绝对误差。对于没有 的 Baseline ,ESOP 计算 和 之间的比例。

Implementation Details

为了证明所提出框架的有效性,作者选择了三种最近表现优异的中心基方法作为 Baseline 模型,分别是MonoFlex,MonoDLE和MonoCon。所有实验均在单个RTX 2080Ti GPU上执行。上述 Baseline 模型均采用DLA-34作为特征提取网络。在全局线索分支中,水平 Heatmap 预测头包含两个带有BN和ReLU的3x3卷积层(其中膨胀率设置为2)以及一个输出卷积层。水平方程是通过取出水平 Heatmap 中每一列的最大元素并拟合得到的。

水平 Heatmap 的 GT 值是通过拟合每个目标的底部坐标标注得到场景地面平面,然后投影到2D图像平面[38]生成的,因此在整个训练过程中只使用了RGB图像数据和相机标注。将水平方程映射到 Heatmap 时,每个像素使用的高斯核半径为2。,和的损失权重比例设置为。其他设置,如优化器、批量大小、图像填充大小等,与 Baseline 保持一致。

Quantitative Results

为了证明所提出方法的有效性,作者在KITTI的测试集和验证集上进行了定量实验。

picture.image

如表6所示,在广泛使用的KITTI测试集上,将MonoCD与近年来最先进的方法进行了比较。MonoCD在没有使用任何附加数据的情况下,在大多数指标上取得了最佳性能。与之前的多深度解算方法MonoFlex相比,性能分别提高了19.44%/15.49%。与同样融入了地面平面方程解的方法GPENet相比,性能从15.44/20.79提升到16.59/22.81。即使与最新的基于Transformer的检测器MonoDETR相比,MonoCD在大多数指标上超过了它,同时确保了实时运行。

picture.image

表6展示了近年来一些具有代表性的多深度预测方法。它们多个分支之间的耦合程度如表6的第三列所示,以误差符号相反比例(ESOP)来衡量。MonoFlex 包含4个深度预测分支,包括1个直接预测的深度和表6第二行所示的3个深度。MonoGround 和MonoCD在它们的基础上又增加了3个深度分支。由于公共分支的结果相似,对于MonoGround和MonoCD,表6只展示了非共享分支的结果。

可以观察到,关键点和高度预测的3个深度的误差符号与直接预测的深度的误差符号相似。得益于更广泛的密集深度监督范围,MonoGround 添加的来自地面的深度的耦合现象有所缓解,但并未消除耦合。因为其密集监督来自于目标底部周围的局部采样值。尽管MonoDDE的代码尚未发布,但根据其所使用的局部信息,可以推理出类似的耦合现象。然而,经过作者的补充设计,耦合现象得到了显著缓解,整体性能进一步得到提升。

picture.image

如表7所示,作者将互补深度分支扩展到三种竞争性的基于中心的单目3D检测器。KITTI验证集的结果表明,所提出的互补深度是灵活的,并且在多个框架和指标上实现了稳定的增长。值得注意的是,作者的设计改进在上的提升通常比更好。作者将这归因于MonoCD对深度估计改进的关注,因为与相比,更强调沿Z轴定位的准确性。

Ablation Study

在本节中,作者选择MonoFlex作为 Baseline 来讨论不同设计的影响。

深度线索的来源。 为了证明引入全局深度线索的有效性,作者采用了不同的方法来获取深度线索 ,结果展示在表8的第2、3、4和5行。通过比较ESOP指标,可以观察到表8中第3、4和5行的具有全局特性(即不由单个物体确定)的ESOP显著高于 Baseline 和使用局部线索分支的情况,这证明了引入全局线索的必要性,并且缓解了多深度预测的耦合。此外,可以发现 的准确性在很大程度上与 的准确性有关。

picture.image

通过比较不同设置下的 平均绝对误差(MAE)和ESOP的对结果,可以发现,判断补充深度是否能带来整体性能提升通常需要从两个角度进行评估:深度估计的准确性和ESOP。这种趋势可以通过补充分数有效地量化。

表8的第6至第7行结果证明了在预测地面平面方程时去除边缘检测并使用膨胀卷积的正确性。

最终性能得到了提升,这与3.2节中的观察3一致。

除了3.3节中提到的方程(12)和(14)之外,作者还考虑以下补充形式:

尽管从形式上看,方程(16)似乎与 更对称和互补,但其深度估计误差显著高于方程(14)。这是由于分母中的 和 相对接近,以及分子中的 和 ,这导致深度估计不稳定。这也是方程(16)具有更高ESOP的原因,因为估计的不稳定性减轻了预测趋势,但这并不利于整体性能的提升。它证明了适当补充深度形式的重要性。

Qualitative Results

根据图5所示的定性结果,可以观察到全局线索分支中的与局部线索分支中的和有显著差异,并且具有相反的错误符号。在结合之后,预测的边界框更接近于真实值。这可视化了误差中和的过程。

picture.image

跨数据集评估

为了展示作者提出方法的泛化能力,作者在KITTI和 nuScenes数据集上进行了跨数据集评估。MonoCD在KITTI训练集(3712张图像)上训练,并在KITTI(3769张图像)和nuScenes正面前(6019张图像)的验证集上进行评估。作者还提供了使用官方代码重新训练MonoCon的结果,但不限制从远距离目标()训练,以与其他方法进行公平比较。

为了适应在KITTI上训练的模型,对于nuScenes数据集,作者将图像分辨率调整为384672,并将预测的地面平面方程预设高度调整为1.562m(nuScenes中的 ego 车高度)。MonoCD与MonoCon都没有为直接深度预测分支使用归一化坐标,KITTI和nuScenes的图像具有不同的焦距,直接深度预测依赖于这些焦距。因此,按照[13],作者将它们的直接预测深度除以1.361。

picture.image

跨数据集评估结果展示在表5中,MonoCD在不同目标深度范围内的预测误差较低,这表明所提出的补充深度在提高整体准确度方面是有效的。此外,MonoCD在两个数据集上的大多数指标上都优于其他方法,这证明了MonoCD的泛化能力。

5 Conclusion

在本文中,作者指出现有多个深度预测往往具有相同符号的耦合现象,这限制了组合深度的准确性。作者通过数学推导分析互补深度如何修正这一问题,并发现互补性需要从深度估计精度和误差符号相反比例两方面考虑。为了提高深度互补性,作者提出增加一个新的深度预测分支,该分支包含全局线索,并通过几何关系在形式上实现互补性。大量实验证明了MonoCD的有效性。

局限性。 MonoCD的性能受到物体垂直位置准确性的限制,当地面起伏时,互补效果可能会丧失。未来的工作可能包括改进对全球道路场景的理解和预测。

参考

[1].MonoCD: Monocular 3D Object Detection with Complementary Depths.


扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
从 ClickHouse 到 ByteHouse
《从ClickHouse到ByteHouse》白皮书客观分析了当前 ClickHouse 作为一款优秀的开源 OLAP 数据库所展示出来的技术性能特点与其典型的应用场景。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论