低成本也能高精度!MonoDLGD标签去噪技术,让单目3D检测看清遮挡与远距目标,刷新 KITTI 全难度SOTA !

机器学习算法人工智能与算法

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

Image

单目3D目标检测是自动驾驶和机器人等领域中一种成本效益高的解决方案,但由于固有的深度线索模糊性,其问题本质上是病态的。近年来,基于DETR的方法通过引入全局注意力机制和辅助深度预测来缓解这一问题,但仍难以获得准确的深度估计。

此外,这些方法通常忽略了实例 Level 的检测难度,例如遮挡、距离远和截断等因素,导致检测性能不佳。作者提出了MonoDLGD,一种新颖的难度感知标签引导去噪 (Difficulty-Aware Label-Guided Denoising)框架,该框架根据检测不确定性自适应地对真实标签(groundtruth labels)进行扰动和重建。

具体而言,MonoDLGD对较易的实例施加更强的扰动,对较难的实例施加较弱的扰动,随后对其进行重建,从而有效提供显式的几何监督。通过联合优化标签重建与3D目标检测任务,MonoDLGD促进了几何感知的表示学习,并提升了对不同复杂度物体的鲁棒性。在KITTI基准上的大量实验表明,MonoDLGD在所有难度 Level 下均达到了当前最优的性能。

  1. 引言

单目3D目标检测旨在仅使用单张RGB图像估计目标的3D位置、尺寸和方向。由于其成本低、易于部署且与高分辨率图像兼容,该方法已成为自动驾驶、机器人以及增强现实等应用中的吸引力解决方案。然而,与基于LiDAR(Liu et al. 2024a; Wang et al. 2023; Lang et al. 2019)或双目视觉(Chen et al. 2022; Guo et al. 2021; Li, Chen, and Shen 2019)的方法不同,单目方法本质上缺乏深度信息,导致3D几何估计问题在根本上是病态的(ill-posed)。

picture.image

Image

近年来,单目3D目标检测的进展主要得益于基于Transformer架构的适配,尤其是最初为2D目标检测设计的检测Transformer(DEtection TRansformer, DETR)(Carion et al. 2020)。MonoDETR(Zhang et al. 2023)首次将DETR引入单目3D检测任务,突破了以往以CenterNet为基础的方法(Ma et al. 2021; Yang et al. 2022; Zhang, Lu, and Zhou 2021)对局部特征的依赖。通过利用Transformer的全局注意力机制,MonoDETR能够有效捕捉物体之间的空间与深度关系。为弥补缺乏显式深度线索的问题,MonoDETR(Zhang et al. 2023)和MonoDGP(Pu et al. 2025)引入了辅助的深度预测头,将几何先验注入检测流程。然而,由于深度估计仅依赖单张图像,这些方法仍受限于单目图像固有的病态性(ill-posed nature),从而限制了深度预测的准确性。如图1所示,这一固有局限导致了3D目标定位存在显著误差。

MonoMAE (Jiang et al. 2024) 通过基于深度层级对物体特征进行 Mask 与重建,尝试提升对遮挡的鲁棒性,从而实现对部分可见物体更优的3D表示学习。尽管在一定程度上有效,但其难度建模仅局限于遮挡状态或深度范围等孤立因素。在单目设置下,检测难度则源于物体尺度、距离、截断和遮挡等多种因素的共同作用。忽略这种多因素复杂性会损害训练稳定性与表示质量(Zhang, Lu, and Zhou 2021; Jiang et al. 2024)。

为解决单目 3D 检测的根本性局限,作者提出了一种新颖的框架——难度感知标签引导去噪(Difficulty-Aware Label-Guided Denoising, MonoDLGD),该框架通过向真实标签注入自适应扰动并学习重建这些标签,在训练过程中提供显式的几何监督。与以往基于 DETR 的方法(Zhang et al. 2023; Pu et al. 2025; Jiang et al. 2024)不同,adas-MonoDLGD_2511直接作用于包含丰富 3D 信息的 3D 真实标签,从而实现更稳定且具有几何感知能力的表征学习。

MonoDLGD 引入了两个关键组件:

(1) 一种去噪策略,对包含丰富 3D 信息的真实标签进行扰动与重建;

(2) 一种难度感知扰动(Difficulty-aware Perturbation, DAP)机制,根据实例级检测难度动态调节扰动强度。两者协同作用,引导模型在面对具有多样化复杂度的物体时学习鲁棒的几何表征,且仅带来微小的推理阶段开销。

picture.image

Image

具体而言,MonoDLGD 在训练过程中对真实标签(如投影后的边界框和深度)进行扰动,并通过共享解码器学习重建这些标签,如图2(b)所示。这种去噪过程提供了强有力的监督信号,有助于模型更好地从单目线索中理解3D结构。为进一步增强该效果,作者引入了3D动态 Anchor 框(3D Dynamic Anchor Box, 3D-DAB),将空间先验信息(物体投影和深度)嵌入 Query 中,使其与解码器中扰动标签的表示紧密对齐。对这些扰动标签的重建使得解码器能够更有效地将几何信号传递到检测流水线中。

至关重要的是,并非所有物体在单目设置下都具有相同的检测难度。小尺寸、远距离或被遮挡的实例具有更高的不确定性,若施加统一的扰动可能会损害其结构信号。为解决这一问题,MonoDLGD将实例 Level 的不确定性估计作为检测难度的 Agent ,自适应地调整扰动强度。对于检测难度较大的实例,施加较弱的扰动以保留其几何结构;而对于较容易的实例,则施加更强烈的扰动。这种基于难度感知的策略能够在不同复杂度水平下促进稳定且具有区分性的特征学习,最终提升3D检测的准确性。

作者的主要贡献如下:

• 作者提出了难度感知的标签引导去噪方法(Difficulty-Aware Label-Guided Denoising, MonoDLGD),该方法引入了由预测不确定性引导的标签扰动与重建,有效利用了显式的几何监督。

• 作者证明了仅建模实例 Level 的不确定性即可显著提升检测精度,凸显了在单目3D目标检测中不确定性感知去噪的重要性。

• 所提方法在KITTI基准上实现了当前最优性能,且无需额外的推理开销,因为难度感知的扰动与重建仅在训练阶段进行。

基于Transformer的单目3D检测

近年来,单目3D目标检测的进展主要得益于Transformer架构的采用,相较于基于CNN的方法,Transformer在捕捉全局上下文和长距离依赖方面表现出更优的能力(Ma et al. 2021; Yang et al. 2022; Zhang, Lu, and Zhou 2021)。MonoDETR(Zhang et al. 2023)首次提出了基于DETR范式的单目3D检测器,引入了深度引导的Transformer,通过预测的深度图与深度感知解码器来融合全局上下文信息。MonoDGP(Pu et al. 2025)进一步提升了Transformer检测器的性能,通过解耦2D与3D Query 流,并引入视角不变的几何误差先验,以优化深度估计。与此同时,MonoMAE(Jiang et al. 2024)通过一种深度感知的 Mask 自编码器(masked autoencoder)来应对遮挡问题:它对部分目标 Query 进行 Mask ,并学习重建这些被 Mask 的部分,从而有效处理严重遮挡的目标。然而,这些方法本质上仍面临病态的几何约束问题,因为深度估计仅依赖于单张图像。此外,它们往往忽视实例 Level 的挑战,如遮挡、距离和截断等问题,导致训练不稳定以及3D表示质量下降。

去噪策略在目标检测中的应用

去噪(Denoising)近年来已成为一种有效稳定训练并提升检测性能的技术,尤其在基于Transformer的检测框架中表现突出。DNDETR(Li et al. 2022a)通过扰动真实框(ground-truth boxes)并训练模型重建这些框,将去噪机制引入DETR,显著加速了训练收敛并降低了二分图匹配过程中的不稳定性。该方法随后被DINO(Zhang et al. 2022)进一步改进,其引入对比去噪(contrastive denoising)机制,利用噪声 Query 显式建模正负 Query 对,进一步提升了检测精度与训练稳定性。去噪技术也已拓展至3D检测领域。ConQueR(Zhu et al. 2023)在基于LiDAR的检测器中应用去噪,通过在 Voxel 空间(voxel space)中扰动并重建 Query ,实现Sparse预测;SEED(Liu et al. 2024b)则在基于点云的DETR框架中采用去噪训练,增强了点云数据上的检测精度与鲁棒性。本文中,作者采用一种去噪策略,以显式地引入几何监督。与以往采用统一去噪的方法不同,adas-MonoDLGD_2511基于实例 Level 的检测难度,直接向真实标签注入自适应扰动,使模型能够稳定地学习鲁棒的3D表示。

不确定性估计

(Kendall and Gal 2017) 从形式上将不确定性分为两类:aleatoric uncertainty (观测中固有的噪声不确定性)和 epistemic uncertainty (模型参数的不确定性)。其中,aleatoric uncertainty 已在目标检测领域得到广泛研究(Choi et al. 2019; Chen et al. 2020; He et al. 2019; Zhang, Lu, and Zhou 2021)。例如,Gaussian YOLOv3(Choi et al. 2019)将边界框建模为高斯分布,以量化定位不确定性,从而校正检测得分并降低误检率。He et al. (2019) 将边界框预测为高斯分布,并采用 KL 散度作为回归损失,显式地建模 aleatoric uncertainty,以实现更精确的目标检测。MonoPair(Chen et al. 2020)在后处理优化中利用不确定性对成对几何约束进行加权,有效提升了检测的稳定性和准确性。MonoFlex(Zhang, Lu, and Zhou 2021)进一步建模了多个深度预测器输出的深度估计不确定性,利用 aleatoric uncertainty 自适应融合直接回归与基于关键点几何的深度预测结果,显著提升了定位精度。在本文中,作者利用 aleatoric uncertainty 来提升单目 3D 目标检测中的训练稳定性和表征质量。作者将该不确定性引入 2D 边界框与深度监督的去噪过程,并用于指导作者提出的 difficulty-aware label-guided denoising framework 中自适应扰动强度的调整。

动机与概述

现有的基于DETR的单目3D目标检测器,如MonoDETR(Zhang et al. 2023)和MonoDGP(Pu et al. 2025),利用辅助的前景深度图来缓解深度模糊问题,但仍从根本上受限于单目几何的病态特性。这些方法在训练过程中对所有物体采用统一处理方式,忽略了物体尺寸、距离、遮挡和截断等关键难度因素。MonoMAE(Jiang et al. 2024)通过遮挡感知的 Mask 机制部分解决了上述问题,但其对检测难度的考量仍局限于遮挡因素,未能充分考虑其他关键的复杂性因素。

picture.image

Image

作者提出 MonoDLGD,一种新颖的框架,该框架利用来自真实标签的丰富几何信息,并显式建模实例 Level 的检测难度。图3展示了 MonoDLGD 的整体架构,包括一个主干网络(Backbone)、3D 检测编码器(3D detection encoder)和 3D 检测解码器(3D detection decoder)。遵循先前基于 DETR 的架构(Pu 等 2025;Zhang 等 2023),编码器层由自注意力(Self-Attention)层后接前馈层构成,而解码器则在 Query (Query)之间执行自注意力,并在编码器生成的特征与 Query 之间执行交叉注意力(cross-attention)。

MonoDLGD 采用两阶段架构,利用 3D 检测解码器。在第一阶段,标签 Query (label queries)通过解码器及两个预测头,用于估计投影边界框和深度属性的检测不确定性。基于估计的不确定性,应用难度感知扰动(Difficulty-Aware Perturbations, DAP)生成扰动后的标签 Query 。

该策略通过根据实例级难度自适应调整扰动强度,促进了鲁棒学习。在第二阶段,将第一阶段生成的扰动标签 Query (perturbed label queries)与显式嵌入空间先验的3D-DAB Query 共同输入解码器。解码器同时执行扰动重建与3D目标预测,有效利用实例难度和几何先验,提升了单目3D检测性能。

3D-Dynamic Anchor Box (3D-DAB)

MonoDLGD 在检测解码器中初始化 Query 为 3D-DAB(3D Dynamic Anchor Boxes),该方法显式地编码空间先验信息,而非使用任意可学习的嵌入。受 DABDETR(Liu et al. 2022)的启发,作者的 3D-DAB 通过引入投影几何与类别语义信息,将动态 Anchor 框(dynamic anchor boxes)扩展至单目 3D 检测任务。3D-DAB 集合中的每个 Query

,其中

表示一个 mini-batch 中 3D-DAB Query 的数量,定义为

其中,

表示投影到归一化2D图像平面上的边界框,

为深度,

个物体类别对应的类别嵌入(class embedding)。投影后的边界框

包含中心坐标

以及该中心到四个边的距离

。其中,上标

分别对应从投影中心指向边界框四个边的方向(左、上、右、下)。

通过直接利用投影边界框在2D图像平面与3D物体空间之间的几何对应关系,3D-DAB 将搜索空间限制在具有几何意义的区域,而非依赖于任意的可学习嵌入。这显著降低了检测的歧义性,促进了更准确、更鲁棒的单目 3D 目标检测(Liu et al. 2022)。通过将这些显式的空间先验嵌入 Query 表示中,3D-DAB 使模型能够更有效地在 3D 空间中定位物体。

难度感知扰动(Difficulty-Aware Perturbation)

为解决单目 3D 检测中几何线索有限以及实例难度多样性的挑战,MonoDLGD 提出 DAP(Difficulty-aware Perturbation)策略,该策略基于检测器估计的不确定性计算每个实例的难度得分,并自适应地调整每个标签 Query (label query)的扰动强度,如图3 所示。对于不确定性更高、难度更大的物体,施加较小的扰动以保留关键的几何信息;而对于较容易的物体,则施加更强的扰动,以更有效地实现训练正则化。由此生成的难度自适应扰动标签 Query ,通过重建过程显式引导模型学习几何感知的表示。由于扰动与重建仅在训练阶段应用,DAP 引入的推理阶段额外开销可忽略不计。

(  ,  ) 扰动标签 Query 集表示为

,其中

表示一个 mini-batch 中的目标数量( , )。所提出的 DAP 包含两个阶段:(i) 难度得分估计;(ii) 基于难度的标签扰动。

难度评分估计

难度评分基于每个实例的深度估计不确定性和投影边界框的不确定性进行计算。作者使用真实标签(ground-truth labels)来估计不确定性

,而非采用受均匀噪声污染的标签 Query (label queries),后者通常需要仔细调整超参数,且可能导致训练动态不稳定。真实标签天然包含了目标 Level 的几何信息和监督保真度,为不确定性估计提供了更稳定、更可靠的信号。与均匀噪声标签 Query 的详细对比见附录材料。

具体而言,如图3所示,标签 Query (label queries)由投影后的边界框坐标

、深度以及一个热独(one-hot)类别向量组成,首先由第一阶段(Stage 1)的3D检测解码器进行处理。随后,所得特征被输入到两个独立的检测Head中:投影边界框头(projected bounding box head)和深度头(depth head),用于估计对数方差不确定性

,其中

。为简化符号表示,此处省略下标

。需要注意的是,投影边界框的不确定性是针对

进行估计的,其中

分别表示左上角和右下角坐标,而非3D-DAB中使用的

。这是因为后者需要对投影中心

额外进行不确定性估计,这将使扰动设计变得更加复杂。

为了将不确定性转化为确定性得分,作者计算对数方差的倒数:

然后将得到的确定性值进行最小-最大归一化,以获得相对难度得分

其中

分别表示在整个训练数据集上置信度

的最小值和最大值。较高的

表示预测的置信度更高。为了确保归一化能够捕捉训练过程中预测难度的全局分布,最小和最大置信度值通过指数移动平均(Exponential Moving Average, EMA)在每个批次中进行更新:

其中

表示迭代

时的最小置信度,

为动量系数。

以相同方式计算。

从第一个 mini-batch 初始化。

难度感知的标签扰动

针对

计算得到的实例级难度分数

随后被用作扰动的缩放因子。该扰动独立应用于深度

和投影后的边界框坐标

(a) 投影边界框扰动:

picture.image

Image

图4展示了边界框扰动的整体流程。作者利用计算得到的难度得分,将扰动注入到边界框坐标

中。具体而言,为计算每个坐标点的扰动幅度,作者独立地采样一个随机符号

,并将该符号与难度得分

、边界距离

以及边界框扰动缩放因子

相乘。由此得到的扰动后坐标

计算如下:

确保扰动后的边界框保持在归一化图像平面坐标范围

内。

picture.image

Image

扰动被限制在范围

内,因此扰动后的坐标满足

。通过这种方法,作者确保每个

的扰动尺度保持在边界距离范围内,并满足有效边界框的几何约束条件

。算法1展示了投影边界框扰动的过程。

深度扰动(Depth Perturbation):深度扰动的执行方式与边界框扰动类似。为了确定深度扰动的尺度,作者将深度

乘以一个随机采样的符号

、深度难度得分

以及一个深度扰动缩放因子

,具体如下:

(c) 类别扰动:在单目3D目标检测中,类别信息作为强先验,用于约束目标的尺寸和宽高比。因此,在训练过程中对类别标签进行扰动可作为一种有效的正则化手段。作者采用标签翻转(label-flipping)策略,即以相等的概率将类别标签随机替换为另一类别。与深度或边界框扰动不同,类别扰动不依赖于难度,且对所有实例均匀应用。最终的扰动后标签 Query 定义为:

输入

重参化

难度感知的标签扰动

对于每个坐标

执行以下操作:

  • 采样随机符号:
  • 计算扰动幅度:
  • 如果

,则更新坐标:

  • 否则,如果

,则更新坐标:

end for

获取扰动后的边界框:

逆重参化

其中

为投影后的中心坐标。

重新参数化的扰动2D边界框

输出:扰动后的投影边界框 ˜bproj

难度感知重建

通过 DAP 生成的扰动标签 Query

与 3D-DAB Query

一同输入到 3D 检测解码器中。其中,

表示一个 mini-batch 中的物体数量,

表示 3D anchor Query 的数量。两个 Query 集合共享相同的检测Head(投影边界框、深度、类别),如图3 所示。此外,投影边界框头和深度头均对各自对应属性的不确定性进行估计。

解码器通过以下两点进行监督:(i) 从

重建原始标签,以及 (ii) 从

检测目标。由于扰动标签 Query

具有已知的真实标签(ground truth label),因此在重建损失

中无需使用匈牙利匹配(Hungarian matching)。为了重建投影后的边界框和深度,作者采用拉普拉斯型偶然不确定性损失(Laplacian aleatoric uncertainty loss),从而实现不确定性自适应训练:

其中

分别表示重参化投影边界框的真实坐标和重建坐标。类别重建采用标准的交叉熵损失(cross-entropy loss)。

整体重建损失定义为:

其中,

表示用于平衡损失的权重因子。作者提出的模块可轻松作为插件集成到现有的基于 DETR 的 3D 目标检测器中,在推理阶段引入可忽略的额外计算开销,因为扰动(perturbation)和重建(reconstruction)仅在训练阶段发生。

损失函数

整体训练目标由标签重建损失

和基准方法采用的检测损失

组成。对于来自 3D-DAB Query 的预测结果,作者采用匈牙利匹配(Hungarian matching)与真实标签进行对齐,随后使用与 MonoDGP(

et al. 2025)相同的损失函数来计算方向(orientation)、3D 尺寸(3D size)、2D 投影边界框(2D projected bounding box)、深度(depth)和类别(class)的损失:

实验设置

数据集 作者在 KITTI 3D 目标检测基准(Geiger, Lenz, and Urtasun 2012)上评估了所adas-MonoDLGD_2511,该数据集是单目 3D 检测领域广泛使用的一个数据集。该数据集包含 7,481 张训练图像和 7,518 张测试图像,提供了三种物体类别(Car、Pedestrian 和 Cyclist)的标注。每个物体进一步划分为三个难度等级(Easy、Moderate、Hard)。遵循 (Chen et al. 2015) 中建立的通用协议,作者将 7,481 张训练图像划分为 3,712 张用于训练,3,769 张用于验证。

评估指标 作者在三个难度 Level (Easy、Moderate、Hard)上报告了结果,采用3D边界框的平均精度(Average Precision, AP)

和鸟瞰图投影的平均精度(

)。这些指标按照官方KITTI协议(Simonelli et al. 2019)在40个召回位置上计算。所有方法均基于Car类别的Moderate

分数进行排名。

实现细节

adas-MonoDLGD_2511基于 MonoDGP(Pu et al. 2025)实现,该方法采用 ResNet50(He et al. 2016)作为主干网络(Backbone)。检测损失

采用 MonoDGP 的设置。所有主要实验与消融实验均基于 MonoDGP 的实现进行。模型训练共 250 个 epoch,采用 Mixup3D(Li, Jia, and Shi 2024)策略,遵循(Pu et al. 2025)的设置。批量大小(batch size)和初始学习率分别设置为 8 和

。使用 AdamW 优化器(Loshchilov and Hutter 2018),权重衰减(weight decay)为

,学习率在第 85、125、165 和 225 个 epoch 时分别按因子 0.5 进行衰减。训练在 NVIDIA RTX A6000 上进行。推理阶段,作者丢弃类别置信度低于 0.2 的 Query (Query)。此外,作者将该方法应用于基于 MonoDETR 的实现,训练设置与 MonoDGP 保持一致。

主要结果

picture.image

Image

作者在基于 MonoDGP(

等,2025)架构的基础上实现了所adas-MonoDLGD_2511。表1展示了在 KITTI 3D 测试集上的结果,采用官方在线服务器(Geiger, Lenz, 和 Urtasun 2012)进行评估,以确保公平比较。为促进模型对不同难度物体的3D几何信息更好地学习,adas-MonoDLGD_2511引入了一种难度感知的标签引导去噪策略。如表所示,MonoDLGD 在所有难度 Level 上均达到了当前最优性能,且无需依赖任何额外的训练数据。相较于 MonoDGP Baseline ,MonoDLGD 在测试集上将

分别提升了 +2.76(Easy)、+1.15(Moderate)和 +1.77(Hard)。这些一致的提升表明,MonoDLGD 能有效增强单目场景下的3D几何推理能力,尤其是在遮挡、截断和深度模糊等挑战性条件下表现尤为突出。

picture.image

Image

为了进一步评估adas-MonoDLGD_2511的通用性,作者在不修改其核心设计的前提下,将 MonoDLGD 集成到 MonoDETR(Zhang et al. 2023)架构中。具体而言,作者将标签去噪策略与 3D-DAB Query 相结合。如表2 所示,该集成带来了持续的性能提升。这些结果表明,adas-MonoDLGD_2511可作为现有基于 DETR 的单目 3D 检测流水线的补充组件,有望为具有类似结构的更广泛架构带来收益。

消融实验

效率对比 表2对比了在KITTI验证集上的推理时间。所有方法均在相同的计算环境下进行评估,使用单张NVIDIA Titan RTX GPU,批量大小(batch size)为1,以确保公平比较。MonoDGP(

et al. 2025)和MonoDETR(Zhang et al. 2023)的每张图像平均推理时间分别为

。当与所adas-MonoDLGD_2511集成后,推理时间基本保持不变。由于在Stage 1中增加了扰动(perturbation)和重建(reconstruction)操作(见图3),训练时间略有增加,但这些操作仅在训练阶段应用。详细分析见补充材料。

picture.image

Image

表3展示了对MonoDLGD框架核心组件的消融研究。从MonoDGP Baseline 模型(a)开始,仅将anchor queries替换为3D-DAB(b)会导致性能轻微下降,这是由于尽管编码了空间先验,但缺乏相应的监督信号。然而,将3D-DAB与均匀标签扰动(c)相结合,立即带来了性能提升,表明标签引导去噪通过为anchor queries提供显式监督,有效增强了3D几何学习能力。进一步引入基于预测不确定性的难度感知扰动(DAP),即对比(d)与(e),可获得更显著的性能增益。与DN-DETR(Li et al. 2022a)采用的均匀噪声方案不同,DAP能够自适应地对简单样本进行正则化,同时保留困难样本的几何结构。总体而言,虽然3D-DAB为单目3D检测提供了强大的几何监督,但DAP进一步提升了模型对不同难度样本的建模能力。

通过适应实例 Level 的难度,实现更鲁棒的学习。

不确定性在去噪中的有效性

作者将aleatoric uncertainty (随机不确定性)的应用扩展至边界框去噪过程。如表3所示,这一扩展带来了显著的性能提升,即(c)与(d)的对比。将不确定性感知的估计引入去噪过程,有助于模型降低对困难或模糊目标的不可靠监督信号的权重,从而将注意力集中在更具置信度和信息量的信号上。这些结果表明,aleatoric uncertainty 为建模标签去噪中的实例级检测难度提供了有意义的信号。

深度信息的有效性

picture.image

Image

为了评估深度信息在本文方法中的贡献,作者通过从标签 Query (label queries)和去噪过程(denoising process)中移除深度属性,开展了一项消融实验。如表4所示,仅对投影后的边界框(projected bounding boxes)和类别标签应用作者的去噪策略,即可将 moderate

提升至

,验证了去噪核心检测组件的有效性。更重要的是,进一步将深度信息引入去噪过程后,性能显著提升至

,凸显了深度监督在增强几何表征能力方面的重要性。

结论

作者提出了 MonoDLGD,一种用于单目 3D 目标检测的新框架,通过标签扰动与重建实现难度感知的标签引导去噪。通过基于重建不确定性的自适应调节扰动强度,adas-MonoDLGD_2511显式地引入了几何监督,有效缓解了单目 3D 目标检测的病态性问题。此外,作者的不确定性感知估计策略带来了稳定的性能提升,凸显了建模实例级不确定性的关键作用。在 KITTI 基准上的大量实验表明,MonoDLGD 在所有难度 Level 下均能持续提升 3D 检测性能。

[1]. Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论