YoCo来啦 | 3D分割新突破，0.8%标注+时空优化实现Waymo超越全监督性能 - 文章 - 开发者社区

点击下方卡片，关注

「集智书童」

公众号

picture.image

导读

室外激光雷达点云3D实例分割是自动驾驶中的一个关键任务。然而，为训练分割模型标注点云需要大量的人工劳动。为了应对这一挑战，作者提出了一种YoCo框架，该框架利用鸟瞰视图平面上的最小粗略点击标注生成3D伪标签。从Sparse标注中生成高质量伪标签是一个重大挑战。作者的YoCo框架首先利用视觉基础模型结合点云的几何约束来增强伪标签生成。其次，设计了一个基于时间和空间标签更新模块，以生成可靠的更新标签。该模块利用相邻帧的预测，并利用点云固有的密度变化（近处密集，远处Sparse）。最后，为了进一步提高标签质量，提出了一种基于IoU的增强模块，用高置信度和高IoU预测替换伪标签。

在Waymo数据集上的实验表明，YoCo框架的有效性和通用性，在弱监督方法中实现了最先进的性能，并超越了全监督的Cylinder3D。此外，YoCo适用于各种网络，仅使用

的全标注数据，经过最小量的微调，就能达到与全监督方法相当的性能，显著降低了标注成本。

引言

3D点云分割（例如，语义分割、实例分割）是计算机视觉领域的一项基础研究任务，尤其在自动驾驶领域。近年来，多项研究[10, 15, 16, 34, 38, 40, 47]取得了有希望的结果，这主要归功于神经网络架构的进步[37, 38, 41, 46, 47]以及高质量自动驾驶数据集的出现[2, 3, 8, 28]。然而，点云分割任务通常依赖于密集的点级标注，这既费时又昂贵。例如，在ScanNet数据集[7]中，标注单个场景平均需要22.3分钟。因此，减少对密集点级标注的依赖是一个既经济又有挑战性的问题。

近期研究试图解决3D点云上的弱监督分割问题。现有方法利用各种类型的弱标签，如Sparse点级标签[4, 11, 45]、涂鸦级标签[32, 33]和框级标签[12, 17, 24, 43]。然而，这些方法大多集中于语义分割，而实例分割更为复杂，因为它需要在同一语义类别内区分不同的实例。对于3D实例分割任务，尽管使用3D边界框作为弱监督的方法[17, 24, 43]已取得有希望的结果，但3D边界框的标注仍然成本高昂。最近的一项工作MWSIS[12]探索了使用低成本2D边界框作为弱监督的室外LiDAR点云的弱监督实例分割，但与全监督方法相比，性能差距较大。受上述工作的启发，作者重新思考是否存在一种具有更低标注成本的方法，以获得更好的实例分割性能，甚至缩小弱监督和全监督方法之间的差距。

基于此动机，作者提出了一种单点监督实例分割框架，称为YoCo。在该框架中，鸟瞰图（BEV）平面上每个目标的单个点击标注就足以生成该目标的对应3D伪标签。众所周知，从Sparse点击标注生成密集3D伪标签是一项非平凡的任务。遵循[12]，点击标注可以用作SAM[13]的 Prompt 来生成相应的2D Mask ，然后将其投影以获得密集3D伪标签。然而，一个主要挑战在于SAM有限的零样本能力，导致2D Mask 噪声或不准确。因此，一个关键挑战在于从这些噪声输出中过滤出高质量的3D伪标签。为了应对这一挑战，作者引入了一个基于视觉基础模型（VFMs）的3D伪标签生成模块，命名为VFMPLG。具体来说，作者使用点击标注通过VFMs获取相应的2D Mask ，然后利用相应3D Mask 的几何约束（例如，大小、体积、深度等）来过滤出高质量的3D伪标签。此外，为了进一步提高伪标签的质量，作者利用神经网络的泛化能力和鲁棒性，引入了两个关键模块：基于时间和空间的标签更新（TSU）模块和交并比（IoU）引导的标签增强（ILE）模块。TSU模块通过结合相邻帧的预测来细化并更新伪标签，而ILE模块通过用更准确的预测替换在线的低质量标签来进一步提高标签质量。

实验结果表明，作者的YoCo在弱监督3D实例分割方面显著优于之前的最先进方法，甚至超过了全监督的Cylinder3D [47]，如图1所示。此外，YoCo表现出强大的泛化能力，使其适用于各种网络。此外，通过仅使用

的全监督数据进行微调，它就能超越全监督 Baseline 的性能。

picture.image

总之，作者的贡献总结如下：

• 据作者所知，作者首次提出使用点击标注进行室外激光雷达点云的实例分割。这种方法显著减轻了实例分割标注的负担。
• 作者提出了VFM-PLG，该方法结合了VFM和目标几何约束信息以生成高质量的伪标签。此外，TSU和ILE模块通过利用神经网络的泛化能力和鲁棒性进一步提高了伪标签的质量。
• 在Waymo数据集上进行的广泛实验表明，作者的YoCo在弱监督实例分割方面取得了最先进的性能，超越了Cylinder3D等全监督方法。此外，YoCo表现出强大的泛化能力，使其适用于各种网络。

相关工作

基于激光雷达的完全监督3D分割。根据数据表示方式，现有的3D激光雷达点云分割方法可以分为三种类型：基于点、基于投影和基于 Voxel 。

基于点的方法[25, 26, 31, 36-38, 46]直接使用原始点云作为输入。经典的PointNet[25]利用点级MLP和池化层的排列不变性来聚合集合中的特征。KPConv[31]和PointConv[36]构建连续卷积以直接处理3D点。Point Transformer系列[37, 38, 46]采用Transformer架构从3D点中提取特征。基于投影的方法[1, 14, 23]将3D点投影到2D图像上以形成规则表示，允许使用来自2D图像处理的成熟神经网络。RangeViT[1]直接应用预训练的ViT模型作为编码器并进行微调，证明了将2D知识迁移到3D任务的可行性。Rangeformer[14]和RangeNet-

[23]使用编码器-解码器形如沙漏的架构作为特征提取的主干。其他方法[5, 6, 9, 47]将点云转换为规则的3D Voxel 化。SSCN[9]引入Sparse卷积网络来处理 Voxel 化的Sparse点云。Cylinder3D[47]引入3D圆柱分区和不对称3D卷积来处理户外点云的Sparse性和密度变化。

基于点的算法虽然性能出色，但由于大规模原始激光雷达数据，其计算成本也相当高。另一方面，基于投影的算法效率更高，但会丢失有价值的内部几何信息，导致性能不佳。在考虑时间和内存效率的同时，作者采用 Voxel 化表示，并选择Sparse卷积U-Net[27]作为作者的主干网络。

弱监督3D实例分割。点云分割在完全监督环境下取得了显著进展。然而，密集的点级标注成本高昂。为了减轻标注负担，一些研究[4, 11, 12, 17, 24, 32, 33, 35, 43, 45]探讨了使用各种弱监督信号。

对于3D实例分割任务，3D边界框提供了实例目标的粗略信息，使得实例分割成为可能。Box2Mask [17] 是第一个使用3D边界框作为弱监督标签的工作。GaPro [24] 提出了一种高斯过程方法来解决多个3D边界框重叠区域中的伪标签模糊问题。CIP-WPIS [43] 利用2D实例知识和3D几何约束来处理3D边界框扰动问题。此外，MWSIS [12] 是第一个将2D边界框作为室外点云分割弱监督信号的工作。它引入了各种细粒度伪标签生成和细化方法，并探讨了与SAM [13] 集成的可能性。然而，2D和3D边界框仍然涉及相当大的标注成本。YoCo只需要在BEV平面上点击目标即可生成高质量的伪标签。

点击级标注用于3D感知任务。点击级标注是一种高效且节省劳动力的标注方法。近期的研究[18, 19, 21, 22, 29, 39, 44]已经开始将其应用于各种3D感知任务中。

一点一点点击 [19] 采用点击级标签并引入图传播模块，以迭代方式生成语义伪标签。SegGroup [29] 通过迭代分组将点击级标签传播到未标注的片段，生成实例伪标签。同时，ClickSeg [18] 提出了一种使用固定初始种子的

-means 聚类在线生成实例伪标签的方法。在3D目标检测领域，WS3Ds [21, 22] 在BEV平面上标注物体中心。它利用这些中心点击作为监督信号生成圆柱形候选框，然后使用少量真实标签训练网络以产生3D边界框。ViT-WSS3D [44] 提出使用视觉Transformer构建点到框的 Transformer 。

上述研究，尤其是那些专注于弱监督3D实例分割的研究，主要针对室内点云。相比之下，室外LiDAR点云的3D实例分割仍基本未得到探索。尽管MWSIS [12]利用了2D边界框，这降低了标注成本，但与全监督方法相比，它仍然存在显著的性能差距。为了进一步降低标注成本，作者提出了一种仅依赖于点击级标注的弱监督实例分割框架，有效地缩小了与全监督方法的差距。

方法

作者的目标是利用Sparse的点击级标注生成高质量的3D实例伪标签，并缩小弱监督方法和全监督方法之间的性能差距。为此，作者提出了一种简单而有效的框架YoCo，如图2所示，该框架将伪标签生成与网络训练相结合。通过利用点击标注的最小输入，YoCo能够高效地创建可靠的伪标签，即使在有限的监督下也能保持强大的性能。详细过程如下：

picture.image

对于图2(a)中的伪标签生成，给定一组校准图像和点云数据，作者首先在BEV平面上对点云进行点击级标注。然后，将这些标签投影到相应的图像上，并由作者提出的VFM-PLG模块进行处理。VFM-PLG利用VFMs和点云中的几何约束来生成高质量的3D伪标签，具体内容如第3.2节所述。

对于图2(b)中的网络训练，作者采用了MeanTeacher [30] 方法，该方法涉及一个学生网络和一个教师网络。教师网络通过学生权重的指数移动平均（EMA）进行更新。它从相邻帧预测标签，而TsU模块使用这些预测来细化VFM-PLG生成的3D伪标签。这种细化结合了相邻帧的时间和空间信息，具体内容详见第3.3节。

此外，为了进一步提高伪标签的可靠性，作者引入了ILE模块。该模块通过使用高置信度和高IoU的结果来更新3D伪标签，离线增强标签，如第3.4节所述，进一步提升了YoCo的表现。

3.1. 初步

给定一组校准图像和点云数据，作者利用传感器校准将点云投影到图像上，建立三维点和图像像素之间的映射关系。具体来说，考虑一组三维点

，作者可以通过应用投影变换公式获得相应的像素坐标

。

其中，

表示点的数量，

代表点在相机坐标系中的深度，

和

分别表示相机的内参和外参。

3.2 基于VFM的伪标签生成

SAM [13] 是一种视觉基础模型，它输入图像和 Prompt 信息以生成相应的二维 Mask 。 Prompt 信息包括点、边界框、 Mask 和文本。通过利用方程1中描述的投影关系，作者将点云中的点击级标注投影到图像上作为 Prompt 信息，以获取目标的二维 Mask 。落在这些二维 Mask 区域内的点可以被视作三维伪标签。这个过程可以用以下方程形式表达：

其中

表示第

个点击标注的3D伪标签，颜色代表将2D Mask 映射到3D伪标签的操作，

和

分别代表第

个点击标注对应的图像、2D坐标和类别标签。

然而，这种方法面临三个挑战。首先，SAM在分割如骑行者这样的复合类别时存在困难。其次，SAM分割 Mask 和投影关系存在不准确的问题。最后，由于BEV平面缺乏高度信息，当前点击可能对应多个3D点，错误的 Prompt 将导致分割结果不准确。

picture.image

为解决第一个问题，作者利用深度任何模型（Depth Anything Model，DAM）[42]作为辅助工具执行基于深度的平滑处理，特别是对于如图3所示的复合类别，如骑自行车的人。

picture.image

具体来说，图像通过DAM进行处理以生成深度图，然后使用深度图的特征与 Prompt 特征进行交互，从而得到相应的2D Mask （如图4所示）。因此，方程2更新如下：

至于最后两个问题，提出了点云几何约束以过滤标签。具体来说，作者首先通过投影关系获得第

个目标的3D伪标签

。然后，对

应用聚类算法，得到一系列聚类。包含点击标注

的聚类被识别为该目标的3D伪标签（方程4中的查找操作）。接下来，对识别出的聚类执行几何一致性检查（方程4中的过滤操作）。如果聚类满足某些几何条件，则保留标签；否则，丢弃伪标签，即

。此过程可表示如下：

如果当前点击对应多个点，作者将迭代选择其中一个作为 Prompt 。如果当前结果满足几何约束，则将其保留为3D伪标签；否则，重新选择一个新点作为 Prompt 以生成伪标签，如图4中的蓝色虚线所示。

3.3 基于时空的标签更新

为了提升VFM-PLG模块生成的伪标签质量，作者提出了一种基于时间和空间标签更新模块。该模块通过利用相邻帧的高可靠性预测来在线更新当前帧的伪标签，从而利用了神经网络的泛化能力。

将相邻帧的点云转换到当前帧，需要使用坐标系统变换，该变换可以用以下方程表示：

表示当前帧中的自我车辆位姿，

表示相邻帧中的自我车辆位姿，

和

分别对应于当前帧和相邻帧中点云的坐标。

与MWSIS的[12] PVC模块不同，YoCo不需要从之前的训练时期建立投票空间，这减少了训练过程中的内存需求。此外，由于难以在相邻帧的点云之间建立一对一的对应关系，作者采用 Voxel 投票机制。设置一个在线 Voxel 投票空间

，其中每个 Voxel 根据预定义的更新策略更新其对应的标签。当前帧需要将点云进行 Voxel 化，并从相应的 Voxel 空间中获得更新后的标签。具体的更新策略如下：

• 软投票策略。考虑一个包含

个点的 Voxel ，其中每个点

都有一个与之关联的分类置信度分数

，其中 num 表示类别数量。作者平均 Voxel 内所有点的分类置信度分数，然后识别具有最高分数的类别

。如果这个分数超过设定的阈值

，则将该类别分配为 Voxel 的标签。上述过程可以用公式 6 表示。与直接选择点数最多的类别的方法不同，这种方法增强了对抗预测噪声的鲁棒性。

其中

表示忽略的标签。

• 基于距离的可靠性更新策略。为了提高投票标签的可靠性，作者认为更多的 Voxel 点和更高的点置信度会导致更可靠的投票。鉴于激光雷达点云在传感器附近密集而在远处Sparse，作者动态调整投票阈值：靠近传感器的 Voxel 需要更多的投票和更高的置信度来进行标签分配。

通过应用上述更新策略，构建了一个可靠的 Voxel 投票空间

，然后使用该空间来更新当前帧的标签。有关更详细的信息，请参阅补充材料中的算法1。

3.4 IoU引导的标签增强

为进一步利用神经网络的鲁棒性并纠正VFMPLG生成的错误伪标签，作者引入了一个基于IoU的标签增强模块。该模块通过使用高置信度分数和高IoU值预测进行离线更新伪标签。此外，作者相应地调整置信度分数阈值，以适应激光雷达点云中特征密度变化（近处密集，远处Sparse）的特点。该过程可以表示如下：

W其中

，

和

分别代表更新后的标签和预测标签，而

和

对应于预定义的置信度阈值和IoU阈值。

3.5. 损失函数

YoCo的整体损失函数定义为：

₁

₂

其中

表示交叉熵损失或Focal Loss，

代表501损失，

和

是用于平衡损失项的超参数。

实验

4.1. Waymo开放数据集

遵循最先进的MWSIS [12]，作者在Waymo Open Dataset (WOD) [28]的1.4.0版本上进行了实验，该版本包含同步且对齐的激光雷达点和图像。WOD包含1,150个序列（超过200K帧），其中798个序列用于训练，202个序列用于验证，150个序列用于测试。对于3D分割任务，该数据集包含23,691帧和5,976帧分别用于训练和验证。作者特别关注车辆、行人和自行车类别进行评估。

4.2 实施细节

点击设置。对于点击标注，作者以每个实例在BEV平面的平均坐标为参考，然后选择最近的点来模拟手动点击。同时，在表6中，作者还模拟了手动标注误差的结果。

picture.image

评估指标。作者采用与[12]相同的评估指标。对于3D实例分割，作者使用不同IoU阈值下的平均精度（AP）来评估性能，而对于3D语义分割，作者使用平均交并比（mIoU）作为评估指标。

训练设置。作者选择了几个经典的 Backbone 网络，包括Cylinder3D [47]、SparseUnet [27]和Point Transformer V3 (PTv3) [38]，并使用两个独立的大脑：一个用于预测语义 Mask ，另一个用于将像素分组为实例。Cylinder3D、PTv3和SparseUnet分别训练了40、50和24个epoch。所有模型均在4个NVIDIA 3090 GPU上使用8个批大小进行训练，采用Adam W [20]优化器。

4.3 WOD上的结果

作者比较了YoCo与其他弱监督和全监督的3D实例分割方法。考虑到计算时间和内存效率，作者选择SparseUnet [27] 作为实验的 Baseline 。此外，表7展示了YoCo在不同网络上的结果，进一步证明了YoCo的通用性。

picture.image

在表1中，作者的YoCo在弱监督方法中取得了最佳性能。它比基于Click*的方法在mAP上提高了15.16%，并超过了最先进的MwSIS方法，mAP提高了6.93%，同时使用了成本更低的Sparse点击标注。此外，与使用3D边界框的方法相比，这些方法的标注成本更高，YoCo实现了6.03%的mAP提升。此外，YoCo在mAP上比全监督的Cylinder3D方法高出3.95%。

picture.image

作者也为3D语义分割提供了指标。与基于点击的方法相比，YoCo在mIoU上实现了7.260%的提升。与基于3D边界框的方法相比，它实现了2.225%的mIoU增长。此外，YoCo达到了完全监督性能的94.76%。

4.4 消融研究与分析

所有模块的影响。表2展示了所有提出模块的消融研究。当仅使用VFM-PLG模块时，作者观察到显著的性能提升，实例分割和语义分割分别提高了

mAP和

mIoU。这证明了通过将VFM模块与点云的几何约束相结合生成伪标签的有效性。当引入TSU模块时，性能进一步提升了

mAP和

mIoU。这突出了利用神经网络泛化能力，通过使用相邻帧的高置信度预测来更新当前帧的标签，从而提高伪标签质量的价值。此外，作者提出的ILE模块利用网络的鲁棒性对VFM-PLG生成的伪标签进行离线细化。这种方法导致标签质量进一步改善，实例分割提高了

mAP，语义分割提高了

mIoU。这些结果证明了YoCo在逐步细化伪标签和缩小弱监督与全监督方法性能差距方面的有效性。

picture.image

VFM-PLG的影响。在表3中，作者进行了一项消融研究，以评估VFM-PLG模块中每个组件的影响。第二行是 Baseline 性能，其中模型使用来自点击标注和SAM生成的标签进行训练。当采用聚类算法来细化伪标签时，mAP显著提高了14.83%。此外，应用DAM处理复合类别，如骑自行车的人，可以进一步提高性能，提高5.82%的AP。当引入几何约束时，mAP达到47.37%，超过了使用2D框作为 Prompt 的方法。结合这些方法不仅提高了分割性能，还显著降低了标注成本，证明了作者在弱监督3D实例分割中的方法的高效性和实用性。

picture.image

表4和表5提供了TSU模块的消融研究。

picture.image

在表4中，作者分析了使用不同数量的帧进行标签更新的影响。作者观察到，随着帧数的增加，性能在达到某个点之前持续提升。具体来说，当使用两个相邻帧的预测来更新标签时，该方法达到了最佳性能，mAP为52.18%，mIoU为74.449%。然而，当帧数超过三个时，动态目标的运动增加导致帧间差异增大，从而产生错误的投票，导致整体性能下降。

picture.image

此外，当作者整合基于距离的可靠性更新策略（第6行），该策略根据点云与传感器的距离来适应其密度变化时，作者观察到性能显著提升。具体来说，实例分割的mAP提高了4.81%，而语义分割的mIoU提升了2.260%。这些结果突显了作者提出的策略利用LiDAR点云固有属性的鲁棒性，特别是传感器附近点的密集分布和较远距离处的Sparse分布，以增强训练过程中伪标签的可靠性。这种方法不仅提高了分割精度，还解决了由噪声或不准确预测带来的挑战。

手动标注错误的影响。为了模拟手动标注过程中可能出现的潜在错误，作者进行了不同点击标注范围的实验，具体细节如表6所示。这些结果表明，YoCo在不同标注范围内表现出很强的稳定性。值得注意的是，即使点击范围扩大到0.5米，性能也没有显著下降，mAP和mIoU值仍然保持在可接受的范围内。这种鲁棒性表明，YoCo对点击标注半径的变化具有抵抗力，无论实例中心的距离如何，都能保持高性能。这种稳定性在现实世界的应用中至关重要，因为在手动标注可能会引入变化的情况下，仍需要可靠的分割结果。

使用YoCo进行微调。遵循[12]，作者在YoCo框架内对不同比例的全监督数据上对训练好的网络进行微调。如图1所示，仅使用

的全监督数据进行微调即可达到与全监督相同的效果。（

与

）此外，当将全监督数据的利用率提高到

时，YoCo超越了最先进的PTv3的全监督性能。

上述实验表明，作者的YoCo框架仅使用少量标注即可实现与全监督方法相当的性能，显著降低了标注成本。YoCo的通用性在表7中，作者展示了在YoCo框架下训练各种网络（包括Cylinder3D、SparseUnet和PTv3）的实验结果，以验证YoCo的有效性。如图所示，YoCo在弱监督下对所有三个网络都表现出强大的性能。具体来说，对于3D实例分割任务，YoCo使Cylinder3D的mAP提高了4.59%，SparseUnet提高了7.24%，PTv3提高了7.98%。此外，作者还使用一小部分全监督数据对在YoCo框架下训练的不同网络进行微调。结果表明，仅使用0.8%的全监督数据进行微调，Cylinder3D和SparseUnet的性能就超过了全监督训练的性能。当使用5%的标注数据时，PTv3网络也超过了其全监督训练的性能。

这些结果表明，YoCo不仅对单一网络架构有效，而且能够适应多种架构，展示了其通用性。

结论

本文介绍了YoCo，这是一个仅使用点击级标注进行激光雷达点云实例分割的新颖框架。YoCo旨在最小化点击级监督与全监督之间的性能差距。作者通过两个关键组件实现这一目标：VFMPLG模块，该模块利用VFM模型的零样本能力和点云的几何约束生成高质量的伪标签；以及TSU和ILE模块，这两个模块通过利用神经网络的鲁棒性和泛化能力在线和离线地细化标签。

作者广泛的实验表明，YoCo不仅优于之前的弱监督方法，而且超越了基于Cylinder3D的完全监督方法，显著降低了标注成本，同时保持了高分割性能。此外，YoCo表现出强大的通用性，适用于各种网络。这些结果突出了YoCo的高效性和鲁棒性，为减少大规模点云分割任务中的标注开销提供了实际解决方案。

参考

[1]. You Only Click Once: Single Point Weakly Supervised 3D Instance Segmentation for Autonomous Driving

picture.image

扫码加入👉

「集智书童」

交流群

（备注：

方向

学校/公司+

昵称

）

picture.image