DPL 深度梯度投影 | 突破半监督三维目标检测的伪标签难题！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

作者深入研究了半监督单目三维目标检测（SSM3OD）中的伪标签技术，并发现了两个主要问题：三维和二维属性预测质量之间的不一致性，以及由伪标签产生的深度监督往往存在噪声，这会导致与其他可靠监督形式产生显著的优化冲突。

为了解决这些问题，作者为SSM3OD提出了一种新颖的解耦伪标签（DPL）方法。作者的方法特点是一个解耦伪标签生成（DPG）模块，旨在通过分别处理二维和三维属性来高效生成伪标签。

这个模块包含了一种独特的基于单应性方法，用于在鸟瞰（BEV）空间中识别可靠的三维属性伪标签。

此外，作者提出了一个深度梯度投影（DGP）模块，以减轻由伪标签的噪声深度监督引起的优化冲突，有效解耦深度梯度并移除冲突梯度。这种双重解耦策略——在伪标签生成和梯度 Level 上——显著提高了SSM3OD中伪标签的利用率。作者在KITTI基准上的综合实验证明了作者方法相较于现有技术的优越性。

1 Introduction

单目3D目标检测（M3OD）旨在使用单个2D RGB图像作为输入，在3D空间中检测目标，这在自动驾驶和机器人导航等现代3D感知系统中扮演着关键角色。当前M3OD方法的主要挑战在于它们依赖于精确的标注，这是一个劳动密集且成本高昂的过程。

为了克服这一障碍，半监督单目3D目标检测（SSM3OD）应运而生，作为一种有前景的解决方案。它利用大量易于获取的未标注图像来提升M3OD检测器的性能。与流行的半监督学习方法[1, 34, 35, 44]一致，伪标签化和一致性正则化是SSM3OD[19, 41]中广泛使用的技术。本文特别探讨了在SSM3OD领域内的伪标签化技术。

M3OD本质上是一个多任务挑战，包括了一系列2D（例如分类）和3D（例如深度）属性预测。作者观察到2D和3D属性之间存在显著差异。

如图1（a）所示，在许多情况下，置信度得分高的检测在深度和方向预测方面表现不佳。以深度属性为例，作者的分析显示，深度预测的质量与相关的分类置信度之间的相关性很弱（皮尔逊相关系数：-0.196），如图1（b）所示。

这个问题源于透视投影，它使得在2D图像平面上区分3D属性质量变得复杂，如图1（a）所示。然而，大多数现有的SSM3OD方法[19, 41]忽视了这种差异，仅依赖于2D属性（例如：置信度得分）的准确性来实现伪标签生成，这导致了对于3D属性来说不可靠的监督。

picture.image

为了解决这个问题，作者引入了一个解耦伪标签生成（DPG）模块，以生成对2D和3D属性更有效的伪标签。具体来说，鉴于2D和3D属性之间的差异，作者建议将这两种类型的伪标签生成分开，并开发了一个基于单应性伪标签挖掘（HPM）的模块，专门为3D属性生成伪标签。利用估计的2D-3D单应性变换，HPM将2D图像平面的预测转换为3D鸟瞰图（BEV）平面，在这个平面上，基于定位误差，迭代识别具有可靠3D属性的伪标签。

然而，由于深度估计的噪声性质，作者观察到伪标签派生的深度监督与其他可靠监督来源（深度的 GT 值，除深度之外的属性的地真实值和伪标签）之间的频繁冲突。如图1（c）所示，伪标签深度损失与其他可靠监督损失之间的梯度冲突（表现为与以及与）比可靠监督内部冲突（与）更为普遍。这种梯度冲突可能会削弱可靠监督的使用。

为了缓解这个问题，作者进一步开发了一个深度梯度投影（DGP）模块。这个模块有效地将冲突的深度梯度投影到主要可靠的梯度上，消除了有害的成分。

这种调整确保了来自伪标签的深度监督总是与可靠的监督保持一致。通过结合DPG和DGP模块，作者的解耦伪标签（DPL）方法显著提高了SSM3OD伪标签的生成和利用。作者在KITTI [10]基准上进行了全面的实验，以验证作者方法的有效性，并取得了最先进的结果。作者的贡献可以总结如下：

作者识别并解决了2D和3D属性预测之间的质量不一致问题，这是在现有伪标签SSM3OD方法中之前被忽视的问题。
作者引入了一个解耦的伪标签生成模块，其特点是一个基于单应性（homography）的深度标签挖掘模块，用以生成对于2D和3D属性都可靠的伪标签。
作者开发了一个深度梯度投影模块，以减轻可能由噪声深度伪标签引起的负面影响。
作者的广泛实验结果在KITTI基准测试上表明，作者的方法显著超越了所有之前的现有技术水平。

2 Related Work

单目3D目标检测。单目3D目标检测（M3OD）旨在仅利用单个相机来检测三维空间内的物体。现有的M3OD方法可以大致分为两个流派：一种完全依赖单目图像，另一种则结合了补充数据源，例如CAD模型[22]，密集深度图[8, 24, 37, 40, 43]，以及LiDAR[3, 5, 13, 18, 29]。由于它们的成本效益和部署的便捷性，作者专注于仅使用单目图像作为输入的方法。该领域早期的尝试[2, 21, 38]采用了传统的2D目标检测框架[30, 36, 48]以融入3D目标检测能力。如Mono-DLE[25]和PGD[39]的研究强调了M3OD中的一个关键挑战：精确的深度预测。

为此，许多研究尝试利用2D-3D几何关系[14, 16, 23, 32, 33]的协同效应或利用空间上下文[7, 11, 15, 16, 20]来提高深度估计的准确性。MonoFlex[46]引入了一种新颖的深度集成方法，综合了各种深度估计技术，显著提升了检测性能。然而，这些进展在很大程度上依赖于具有精确深度的标注，而这些标注获取起来既费时又成本高昂。因此，本研究探索了半监督学习方法论的潜力，以减轻标注负担。

半监督单目3D目标检测。半监督单目3D目标检测（SSM3OD）利用了大量未标注的单目图像以及有限数量的精确标注的单目图像集，以提高单目3D目标检测的效果。Mix-Teaching [41] 引入了一种以数据库为导向的伪标签策略，它将伪实例粘贴到背景未标注的图像上，从而生成额外的训练样本。

它还包含了一个基于模型预测集成的伪标签过滤器，以隔离高质量的伪标签。然而，这种方法并未完全解决2D与3D属性之间的不同特点，导致在伪标签生成过程中对3D信息的利用不充分，从而使得伪标签的效果降低。MVCMonoDet [19] 集中于一致性正则化技术，并设计了一个多视图一致性策略来利用未标注多视图单目图像（视频，立体图像）中的深度线索。

作者的方法与[19]正交，并专门关注在SSM3OD中相对未被深入探索的伪标签策略。值得注意的是，[26, 28]也提出了针对单目3D目标检测的伪标签方法。然而，这些方法使用激光雷达点云来导出伪标签，而点云本身为物体提供了精确的深度信息。相比之下，作者的方法仅从单目图像生成伪标签，不依赖于额外的激光雷达数据，呈现了一个更具挑战性但实际的应用场景。

3 Preliminary

问题定义。给定标记数据集，以及未标注数据集，其中和分别表示标记数据集和未标注数据集中的RGB图像，和分别是相应的数据量。是对第张标记图像的个3D边界框标注的列表，其中是类别标签，是包括方向、尺寸和位置在内的3D框标签。SSM3OD的目标是利用有限的标记图像以及额外的丰富未标注图像来实现单目3D目标检测。SSM3OD的优化可以表述为：

其中和分别是监督损失和非监督损失，是损失权重，默认设置为1。

4 Method

图2展示了作者针对半监督单目三维目标检测（SSM3OD）的解耦伪标记（DPL）方法的概览。该方法采用了经典的教学-学习框架[35]，涉及一个教师网络和一个学生网络，两者都由有监督预训练模型初始化。教师模型在未标注图像上生成伪框，而学生模型则用带有真实标注的标记图像和带有伪标签的未标注图像进行训练。教师模型通过指数移动平均（EMA）策略从学生模型进行迭代更新。作者的DPL方法整合了两个关键模块：解耦伪标签生成（DPG）和深度梯度投影（DGP），以增强SSM3OD中伪标签的有效利用。

picture.image

Decoupled Pseudo-label Generation

鉴于SSM3OD中2D和3D属性的预测质量并不一致，作者 Proposal 为这两种类型的属性解耦伪标签生成过程。作者将目标类别、2D大小和投影的3D中心归类为2D属性，而深度、3D大小和方向归类为3D属性。对于2D属性，作者使用分类置信度阈值来过滤伪标签，遵循[19]的方法。

对于3D属性，作者引入了一种新颖的方法，利用单应性几何关系来生成3D属性伪标签。这构成了作者解耦伪标签生成（DPG）的基础，无监督损失可以表示为：

其中 , 分别是模型输出的2D和3D属性预测，而 , 分别是对应的两组2D和3D属性的伪标签。损失函数和与MonoFlex [46]一致。采用解耦设计，2D和3D属性都可以通过更有效的伪标签进行监督。

基于单应性伪标签挖掘由于透视投影的影响，准确评估图像平面上边界框的3D属性预测质量具有一定的挑战性。为此，作者设计了一个独特的基于单应性的深度伪标签挖掘模块。

该模块的关键特性是使用单应性变换将2D图像平面上的预测转换到鸟瞰图（BEV）平面。这种转换显著提高了评估3D属性预测的精度，例如深度和方向。

单应性变换：通常，作者设定地面上的点的坐标在二维图像平面上为，在鸟瞰图（BEV）平面上为，如图3所示。同质坐标和之间的变换可以通过一个单应性矩阵来描述：

picture.image

单应性变换[9, 47]是二维和三维平面两个坐标系统之间的几何关系。因此，在平面地面假设[11]下，图像内的不同物体将共享同一个单应性矩阵。

_迭代伪标签挖掘_：作者开发了一种迭代伪标签挖掘算法，以获取可靠的3D属性伪标签，具体细节在4.1节中说明。这个算法使用与一致的单应性变换的偏差作为3D属性预测质量的衡量标准。

具体来说，它最初选择具有相对准确的三维属性预测的伪标签，以可靠地估计初始的单应性矩阵。为了协助这一初始伪标签的生成，作者使用了从拉普拉斯随机不确定性损失[7]中定义的深度预测不确定性，如公式4所示：

在这里，表示物体的真实深度，是预测的深度，而被称为预测深度不确定性，用于加权预测。作者选择的伪标签作为初始伪标签。

然后，作者选取每个初始3D伪边界框的底角点和底中心点（共5个点）作为候选点来估计单应性矩阵。这些点在图像平面中的坐标是由教师模型[25, 46]直接预测的。接下来，作者估计这些点在鸟瞰（BEV）平面上的坐标。具体来说，作者首先通过局部变换[18]获取这些点在相机坐标系中的位置，该变换是从3D框的尺寸、方向和中心位置估计得出的。

然后，通过使用外参矩阵的逆进行投影，可以得到在激光雷达坐标系中的坐标。

因此，这些点在BEV平面上的坐标为。将N个物体在图像平面和BEV平面上的候选点坐标分别表示为和，利用直接线性变换（DLT）[31]求解方程式3，可以得到单应性变换。

最后，作者将估计的单应性矩阵应用于尚未被选为伪标签的预测边界框的候选点，以获得它们在BEV空间中的期望坐标：

理想情况下，通过单应性变换得到的鸟瞰图坐标应该与通过方程5从模型预测得到的相同。然而，预测不佳的3D属性（例如深度、方向）会导致这种偏差。因此，这种偏差可以作为这些属性预测质量的代理，作者选择满足的预测作为合格的伪标签，其中是预先定义的阈值。新获得的伪标签随后被附加到之前获得的伪标签上，开始新一轮的单应性矩阵估计和伪标签过滤，如图3所示。迭代过程持续进行，直到不再获得新的伪标签或达到预定义的最大迭代限制，记作。完整的算法请参考附录。

Depth Gradient Projection

由于从单目图像估计深度的固有局限性，伪标签的深度监督将不可避免地存在噪声，并且可能引起与可靠监督的优化冲突（即梯度方向冲突）。具体来说，作者将总损失分为伪标签深度损失，真实深度损失和其他属性损失（包括标记和未标注的损失）。它们的梯度分别表示为，和。通常，由于除了深度之外的其他属性的伪标签可以比深度更合理地准确估计[39]，和可以被认为比更可靠。作者检查了不同监督之间的优化冲突，如图1所示。它清楚地表明，来自深度伪标签的梯度与可靠监督发生冲突的频率更高。

为了解决这个问题，作者开发了一个简单的深度梯度投影模块，从梯度的角度消除可能由噪声深度监督带来的负面影响。

具体来说，鉴于和冲突的频率较低，作者将它们结合起来，并将其视为优化原则梯度，这代表了可靠监督的优化方向。然后，在发生冲突时，作者将投影到梯度的法向量上：

(g^{}^{\prime}}{ud}(\theta)=\begin{cases}g{ud}(\theta)-\frac{g_{ud}(\theta)g_{p}(\theta)}{|g_{p(\theta)||{2}^{2}}.g{p}(\theta),&if\ cos(g_{ud},g_{p} )<0,\ &\ \MonoDETR[45]. 作者特意从这项研究中排除了FCOS3D，因为正如作者所承认的，它在KITTI数据集上的性能不佳。这些实验的结果在表4中详细列出，显示了在各个基础检测器上一致且显著的性能提升。这些发现强调了作者方法对不同单目检测器的强大适应性。)

picture.image

标记数据和未标注数据量的影响。作者在表3和表2中展示了标记数据和未标注数据量对DPL性能的影响。作者的方法一致地提高了MonoFlex在各种标记数据量下的性能。特别是，在标记数据稀缺的情况下，作者的方法显示出显著的优点。例如，当只有10%的标记训练图像可用时，作者观察到的实质性性能提升**+4.29**。这些结果突显了作者的方法在有效利用有限标记数据方面的优越性。此外，随着未标注数据量的增加，DPL在性能上的提升更为显著。这强调了作者方法的可扩展性，凸显了其有效利用更大数量未标注数据的能力。

picture.image

解耦伪标签生成分析。作者在表6中消融了不同的伪标签生成方法。结果清楚地表明，仅利用分类置信度阈值（thr=0.6）进行伪标签生成只能带来有限的改进（+0.51 ）。这归因于它反映3D属性预测质量的能力较差，尤其是深度，如图5所示，这导致了具有较大深度预测误差的噪声深度伪标签。如文献[25]所述，模型在预测近距离物体时表现出合理的性能，但在预测远距离物体时存在限制。因此，作者按照[25]的建议，仅通过保留检测距离小于45米的预测来生成伪标签。

如表6第三行所示，观察到显著性能提升（对于中等难度物体为+1.01 ）。然而，完全忽略一定距离以外的伪标签会阻碍模型检测距离ego-car较远的物体的能力。这种局限性得到了与使用置信度阈值相比，在检测困难类别物体时仅边际改进0.36的支持。相比之下，作者的DPG通过单应性变换利用2D和3D空间之间的几何关系，使作者能够从更易区分的鸟瞰图（BEV）平面上推导出更具效果的伪标签，并具有更准确的深度，如图5所示。通过将这些伪标签用于2D和3D属性的监督，作者最终实现了显著的性能提升。进一步解耦2D和3D属性的监督，并通过置信度阈值生成2D属性的伪标签，作者能够利用具有准确2D属性预测但不具备3D属性预测的伪标签的潜力。这进一步增强了作者方法的性能。这些结果清楚地突显了在伪标签过程中分别处理2D和3D属性的重要性。

picture.image

解耦伪标签的可视化。作者在图4中可视化了通过分类置信度阈值化和DPG生成的伪标签。作者的DPG首先通过深度预测不确定性来选择伪标签，这导致了初始伪标签具有准确的深度。随后，基于单应性伪标签挖掘进一步识别出具有合理深度和方向预测的附加伪标签。相比之下，仅通过置信度阈值化生成的伪标签往往较为噪声化，因为它们通常包含了置信度高但深度估计不准确的伪标签。

picture.image

深度梯度投影分析作者进行了一项分析，以研究和之间的梯度相似性与深度预测质量之间的联系。

6 Conclusion

在这项工作中，作者引入了一种解耦的伪标签方法，用于半监督单目三维目标检测（SSM3OD），旨在更有效地优化伪标签的使用。这种方法的特点是一个解耦的伪标签生成模块，它融合了一个基于单应性矩阵的深度伪标签挖掘算法，以高效地为2D和3D属性提供可靠的伪标签。此外，作者还开发了一个深度梯度投影模块，以减轻噪声深度监督的负面影响。在KITTI和nuScenes数据集上的全面评估验证了作者所提方法的有效性，证明了它在SSM3OD中的优越性能。

Acknowledgments

这项工作部分得到了国家自然科学基金（编号62322608）的支持，部分得到了中国人工智能学会-MindSpore开源基金的支持，该基金在OpenI社区下发展，还部分得到了辽宁省人工智能感知与理解重点实验室（AIPU）开放项目计划（编号20230003）的支持。

Appendix B Extended Details of Homography-based Pseudo-label Mining

提出的基于单应性伪标签挖掘（HPM）算法的完整流程在算法1中进行了总结。下面将解释该算法的几个关键组成部分。

picture.image

模型预测。正式地，对于未标注图像，教师模型的输出包含每个预测物体的2D和3D属性：

在本文中，代表分类置信度，是物体的2D边界框。是在图像平面上预测的3D边界框的投影点。在作者的主论文中，作者总共预测了10个3D框点，遵循MonoFlex[46]的方法，这包括八个角点以及顶部和底部中心点。指的是底部中心点的深度值。表示3D尺寸，并包含物体的长度、宽度和高度。代表物体的朝向。

2D-3D 变换。基于单应性矩阵的伪标签挖掘涉及在2D和3D空间之间伪标签的几何变换。具体来说，作者取每个目标的四个底角点加上底中心点作为候选点来估计单应性变换。具体而言，这些候选点在图像平面中的位置是通过方程式9直接获得的。为了估计这些点在鸟瞰图（BEV）坐标系中的坐标，首先将底中心点从图像平面变换到相机坐标系，如下所示：

然后，作者使用方程式9中的方向和三维尺寸（长度、宽度和高度）预测，对应用局部变换，得到候选角点的相机坐标。这样的局部变换仅涉及平移和旋转。最后，进一步应用相机外参矩阵的逆变换来获取它们的鸟瞰图坐标。

在这里，指的是底角点及底中心点在相机坐标系中的坐标，而表示它们对应的鸟瞰图（BEV）坐标。

请注意，这些候选点的3D BEV坐标并非直接通过其在图像平面上的2D位置转换而来，而是基于模型对3D属性（如深度、方向等）的预测来估计的。因此，通过DLT[31]从这些坐标求解的单应性矩阵并不是一个简单的解。

平面地面假设的可行性。作者验证了在基于单应性伪标签挖掘算法中使用的平面地面假设的可行性。实际上，KITTI数据集在地面上展示了一些微小的凹凸不平，这也会在使用从 GT 边界框求解出的单应性时，导致 GT 物体出现小的定位误差，正如表10所示。然而，与由不准确深度导致的伪标签定位误差相比，这些错误是微不足道的。在 GT 边界框与不准确的三维属性预测的伪标签之间明显的差距下，作者的方法仍然适用于区分可靠的伪标签。但值得注意的是，在地面严重不平的道路上，当 GT 物体实质性地违反了单应性约束时，作者的方法可能难以区分可靠与不可靠的伪标签。

Appendix C Extended Implementation Details

作者的实验是基于MonoFlex[46]进行的，并使用了作者提供的官方代码。对于KITTI数据集，作者首先在标注数据上以默认设置，批次大小为8，对模型进行140个周期的预训练。之后，作者将预训练的模型权重复制到学生和教师模型中，进行端到端的半监督微调。在每次半监督微调迭代中，作者随机选择8张标注图像和8张未标注图像作为批处理数据，并将图像填充到[1280, 384]的大小。

作者使用学习率为3e-4，权重衰减为1e-5的AdamW优化器，用半监督学习对模型进行20个周期的微调，在第10和15个周期将学习率分别降低0.1倍。为了证明作者方法的通用性，作者还对nuScenes数据集[4]进行了实验，这是另一个大规模的自动驾驶数据集。由于[38, 39]是唯一在此基准上提供M3OD工作结果的文章，作者选择与这两个基础检测器进行实验。

对于nuScenes数据集，作者遵循MMDetection3D中实现的FCOS3D[38]和PGD[39]的默认设置。作者首先以批次大小为16和输入大小为[1600,900]在标注数据上对模型进行12个周期的预训练。作者使用学习率为2e-3和权重衰减为1e-4的SGD优化器。在每次半监督微调迭代中，作者随机选择8张标注图像和8张未标注图像作为批处理数据，并进行了5个周期的微调，在第二个和第四个周期将学习率分别降低0.1倍。

对于其他M3OD检测器的实验，鉴于DPL中基于单应性图的伪标签挖掘算法依赖于3D边界框的关键点预测。对于没有关键点预测的单目3D目标检测器[23, 25, 45]，作者在原始 Head 添加了关键点预测分支头。所有实验都是在8 32G NVIDIA Tesla V100 GPUs上进行的。

Appendix D More Experiment Results

** 未标注数据多样性的影响**。作者分析了未标注数据的分布对SSM3OD性能的影响。KITTI原始数据是从五种不同场景中收集的：城市、住宅、道路、校园以及行人，如图6右侧所示。分析每个场景中的目标类别分布，发现了显著差异。例如，在住宅和道路场景中，车辆目标占主导地位，而行人和骑自行车者很少。

相反，校园和行人场景主要由行人组成。为了研究未标注数据多样性的影响，根据目标类别分布，将这些图像大致分为两组：以车辆为主和以行人为主。作者为每组随机选择了5K张图像作为未标注数据。作者进一步通过从两组中随机选择图像构建了一个更全面的未标注数据集，每组选取了2.5K张图像。《表7》中报告了结果。它清楚地表明，这些类别的多样性影响了性能。

具体来说，以车辆为主的未标注图像提升了车辆类别的性能，同时对行人和骑自行车者类别造成了轻微的性能下降。当使用以行人为主的未标注图像进行训练时，出现了相反的趋势，行人和骑自行车者类别的性能得到提升，而车辆类别没有观察到明显的性能提升。这些结果背后的主要原因是类别不平衡导致的确认偏差。相比之下，结合了两组图像的未标注数据，其中含有丰富的目标，提升了这三个目标类别的性能。这些结果强调了在M3OD的半监督学习中未标注数据多样性重要性。

picture.image

大规模数据集上的性能。nuScenes数据集是一个用于多视角3D目标检测（MVOD）的大型数据集，一些M3OD方法[38, 39]可以通过在每个单一视图中进行单目检测，然后融合多视角检测结果来扩展实现MVOD。为了展示作者方法的通用性，作者在基于FCOS3D和PGD的官方MMDetection3D代码的基础上，对此大型数据集进行了进一步实验。请注意，MVC-MonoDet [19]是唯一在nuScenes数据集上报告结果的SSM3OD研究，但他们只展示了一些部分指标。作者提出的方法在表8中详细展示了通过所提出的伪标签方法的性能显著提升。

具体来说，FCOS3D的mAP提高了3.1，NDS提高了2.2；PGD的mAP提高了1.8，NDS提高了1.2。作者的方法在mAP和mATE指标上也超过了MVC-MonoDet。这些结果验证了作者的方法的有效性，展示了其在扩展到多视角3D目标检测和泛化方面的潜力。需要注意的是，MVOD关注于不同视图或时间帧之间的特征交叉，这超出了本文的范围。因此，作者_并非旨在超越该基准上的现有最优方法[12, 17]_，而只是展示作者方法的泛化能力。

picture.image

阈值消融研究。作者在表9中对不确定性阈值和位置误差阈值进行了消融研究。当和时，取得了最佳效果。

行人和骑车人类别的性能。作者还在表11中报告了在KITTI测试集上行人和骑车人类别的检测性能，其中作者的方法对这些实例相对较少的类别也显著提高了检测性能。

picture.image

检测结果可视化。作者在图7中展示了作者的方法与监督 Baseline 方法在KITTI验证集上的检测结果对比。清晰地表明，作者的方法不仅更准确地检测到目标，如第一、第二和第三张图像所示，而且在第四和第五张图像中显示出更高的预测召回率。这些结果再次证明了作者方法的优势。

picture.image

Appendix E Limitations

作者的方法显著提升了仅依靠图像输入的单目3D检测方法的性能。与其他3D目标检测方法相比，例如基于激光雷达的方法、基于鸟瞰图的方法等，单目3D目标检测在实际应用中展现出巨大的优势。使用单摄像头设置，它在成本效益上更有优势，并且适用于众多实际场景，如机器人技术、自动驾驶和移动增强现实等。

然而，由于从单一RGB图像估计深度的根本性困难，目前的性能仍然落后于一些使用额外输入（如激光雷达）的方法。这一限制促使作者探索使用来自其他互补传感器模态的未标注数据，例如激光雷达点云和立体图像。实际上，这种跨模态学习已经在各种任务中验证了其有效性[27]。对于SSM3OD，这些其他模态中的未标注数据包含更可靠的目标深度信息，这可以大大减轻在现实世界中准确检测3D物体的难度。作者将这一探索留作未来的工作。

参考

[1].Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection.

点击上方卡片，关注「AI视界引擎」公众号

​DPL 深度梯度投影 | 突破半监督三维目标检测的伪标签难题！

1 Introduction

2 Related Work

3 Preliminary

4 Method

6 Conclusion

Acknowledgments

Appendix B Extended Details of Homography-based Pseudo-label Mining

Appendix C Extended Implementation Details

Appendix D More Experiment Results

Appendix E Limitations

参考

DPL 深度梯度投影 | 突破半监督三维目标检测的伪标签难题！