从室内到室外, Point-SAM 在三维点云基准测试中的表现卓越 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

作者显著推进了用于图像分割的二维基础模型的发展，特别是通过分割任何模型（SAM）。然而，在三维模型上取得类似成功仍然具有挑战性，这归因于诸如数据格式不统一、模型轻量化以及具有多样化 Mask 的标注数据稀缺等问题。

为此，作者提出了一个针对点云的三维可提示分割模型（Point-SAM）。

作者的方法采用基于 Transformer 的方法，将SAM扩展到三维领域。作者利用部分级和目标级的标注，并引入一个数据引擎从SAM生成伪标签，从而将二维知识蒸馏到作者的三维模型中。

作者的模型在多个室内外基准测试中超越了现有技术水平，并展示了包括三维标注在内的各种应用。

代码和演示可以在https://github.com/zyc00/Point-SAM找到。

1 Introduction

二维基础模型在图像分割方面的发展受到了_Segment Anything_[13]的显著推动。那项开创性工作包括一个可提示的分割任务、一个分割模型（SAM）以及一个用于收集超过10亿个 Mask 的数据集（SA-1B）的数据引擎。SAM展示了在新图像分布和任务上的令人印象深刻的零样本迁移能力。因此，它已被广泛应用于许多应用中，例如为图像条件下的3D生成分割前景物体，NeRF[3]，以及机器人任务。

作者能否仅仅提升SAM来创建用于分割的3D基础模型？ 尽管有少许努力将SAM扩展到3D领域，但现有方法仅限于在2D图像上应用SAM，然后将结果提升到3D。这个过程受限于图像质量，因此对于像CAD模型[15]这样无纹理或无色彩的形状很可能会失败。此外，它还受到视图选择的影响。视图过少可能无法充分覆盖整个形状，而视图过多则可以显著增加计算负担。而且，当从不同视图合并结果时，它还可能遭受多视图不一致的问题，因为它们可能会发生冲突并受到遮挡的影响。此外，多视图图像仅捕捉表面，使得标注有关节物体的内部结构（例如内阁中的抽屉）变得不可行。因此，有必要开发原生的3D基础模型来解决上述限制。

然而，开发原生的3D基础模型，或扩展SAM到3D领域，面临着几个挑战：

对于3D形状没有统一的表示方法。 3D形状可以用网格、 Voxel 、点云、隐式函数或多视角图像来表示。与2D图像不同，3D形状在规模和稀疏性上可以显著变化。例如，室内和室外数据集通常涵盖不同的范围，并且通常需要不同的模型。
3D领域没有统一的网络架构。由于3D数据的异质性，为不同的表示提出了不同的网络架构，例如针对点云的PointNet [27] 和针对 Voxel 的SparseConv [8]。
3D网络的扩展更困难。 3D网络在计算上天生就更加昂贵。例如，SAM在其解码器中使用反卷积和平滑上采样，而点云还没有像2D那样高效的3D操作符。
高质量的3D标签，尤其是那些具有多样化 Mask 的标签，很罕见。 SAM最初在具有低多样性的真实标签的现有数据集上进行训练，然后用于辅助标注更多不同粒度（例如，部分、目标、语义）的 Mask 以增加标签多样性。然而，在3D领域，现有数据集只包含少量的分割标签。例如，带有部分 Level 标注的最大数据集PartNet [24]，只包含大约26,671个形状和573,585个部分实例。

在本工作中，作者的目标是构建一个针对点云的3D提示分割模型，作为迈向3D基础模型的一个基础步骤。选择点云作为作者的主要表示形式，因为其他表示形式可以轻松转换为点云，而且现实世界的数据通常以这种格式捕获。遵循SAM，作者关注三个关键组成部分：任务、模型和数据。

作者专注于3D提示分割任务，该任务涉及根据任何给定的分割提示预测有效的分割 Mask 。为了处理这一任务，作者提出了SAM的3D扩展版本，名为Point-SAM。作者使用基于 Transformer 的编码器来嵌入输入点云，以及一个点提示编码器和一个 Mask 提示编码器。点云和提示嵌入被送入基于 Transformer 的 Mask 解码器以预测分割 Mask 。关于数据，作者在包括PartNet和ScanNet [6]在内的异构数据集混合上训练Point-SAM，这些数据集带有部分和目标级的标注。为了扩展标签多样性并利用如ShapeNet [4]这样的大规模未标注数据集，作者开发了一个数据引擎，在SAM的协助下生成伪标签。这个流程使作者能够从SAM中提取知识，作者的实验表明，这些伪标签显著提高了零样本迁移性。

作者的贡献包括：

作者开发了一个针对点云提示分割任务的3D基础模型Point-SAM，能够统一处理来自各种来源的点云。
作者提出了一种数据引擎，通过从SAM中提取知识生成具有丰富 Mask 多样性的伪标签。这被证明可以显著提高作者模型在分布外（OOD）数据上的性能。
作者设法扩大了作者的模型和用于3D分割训练的数据集。作者的实验突显了作者的模型在未见点云分布和新任务上的强大零样本迁移能力。

picture.image

2 Related Work

将2D基础模型提升至3D分割尽管3D数据集的数量在增长，但高质量的3D分割标签仍然稀缺。为了解决这个问题，利用在网页规模的2D数据上训练的2D基础模型，如CLIP [29]，GLIP [16]和SAM [13]。一个普遍的框架涉及将这些2D基础模型适配到3D应用，通过合并多个视图的结果。SAM3D [39]和SAMPro3D [38]利用带有已知相机姿态的RGB-D图像，将SAM提升以分割3D室内场景。针对部件级分割的PartSLIP [21; 47]首先渲染密集点云的多个视图，然后使用GLIP和SAM来分割部件，最后将多视图结果整合成3D预测。这些方法受到2D基础模型的性能和多视图渲染质量限制。此外，它们通常需要复杂的、缓慢的后处理来整合多视图结果，这也带来了保持多视图一致性的挑战。另一种策略涉及直接将知识从2D基础模型蒸馏到3D模型中。例如，Segment3D [12]和SAL [25]都使用SAM给RGB图像生成伪标签，并在场景级点云上训练原生的3D模型。然而，这些方法只能处理表面点，这使得在带有抽屉的橱柜等部件级分割的3D形状中分割内部结构变得困难。

3D基础模型3D基础模型的发展已经取得了显著进展。PointBERT [41]提出了一个自监督的范式，用于在点云上预训练3D表示。OpenShape [20]和Uni3D [46]通过多模态对比学习扩展了3D表示。[9]在收集的多样化3D语言数据上训练基于3D的大型语言模型（3D-LLM），利用2D预训练的VLMs。LEO [11]与之有相似想法，但专注于如导航和机器人操作等身体能力。作者的工作集中在3D分割上。尽管有几个旨在开放世界3D分割的举措，如OpenScene [26]和OpenMask3D [32]，但这些都主要解决场景级分割，并且在相对较小的数据集上进行训练。

3D交互式分割交互式分割已经在2D和3D领域都得到了探索。[13]介绍了一个开创性项目，包括可提示的分割任务，2D基础模型（SAM）以及一个收集大规模标签的数据引擎。在3D领域，InterObject3D [14]和AGILE3D [43]分享了相似的想法来分割点云，但它们的训练仅限于ScanNet [6]。相比之下，作者的模型设计用于处理目标级和部件级分割，利用广泛的数据集，包括CAD模型和真实扫描。因此，作者的模型展现出更大的灵活性和适应性。此外，3D交互式分割也在隐式表示中得到了探索。SA3D [3]允许用户通过在渲染视图中的一次性手动提示，实现对任何目标目标的3D分割。SAGA [2]通过对比训练，将SAM特征蒸馏到3D高斯点特征中。尽管这些方法需要额外的优化过程，至少需要几分钟，但作者的模型在正向传播的基础上运行，并在几秒钟内响应，提供了一个更有效的解决方案。

3 Point-SAM

在本节中，作者提出了Point-SAM，一个适用于点云的提示分割模型。图2提供了Point-SAM的概述。受到SAM[13]的启发，Point-SAM由3个部分组成：点云编码器、提示编码器和 Mask 解码器。与2D模型不同，Point-SAM解决了与点云相关的独特挑战：计算效率、可扩展性和不规律性。作者将输入点云表示为，其点特征表示为。

picture.image

点云编码器点云编码器将输入点云转换成点云嵌入。受到2D视觉 Transformer [7]的表达能力和可扩展性以及3D点云 Transformer [45; 36; 42]的最新进展的启发，作者的编码器基于Uni3D[46]，一个可扩展的3D基础模型。具体来说，作者首先使用最远点采样（FPS）选择固定数量的中心点，并将每个中心的k近邻分组为一个 Patch 。每个 Patch 的特征使用PointNet[27]提取。以上步骤构成了“ Patch 嵌入”模块，它根据给定的点云生成带有特征的 Patch 。这些 Patch 特征与 Patch 中心的位置嵌入相结合，由Uni3D的预训练 Transformer 处理，生成最终的点云嵌入。Point-SAM可以通过扩展此 Transformer 直接进行扩展。作者包括两个版本：Point-SAM-Large和Point-SAM-Giant，分别对应Uni3D-Large(307M)和Uni3D-Giant(1B)。

提示编码器提示编码器将各种类型的提示编码为提示嵌入。在本研究中，作者关注两种类型的提示：点和 Mask 。点提示的处理与SAM类似。每个点都关联一个二进制标签，指示它是否为前景提示。这些提示被编码为其位置编码[33]，并与表示其标签的学习嵌入相加。表示点提示的数量。Mask 提示表示为密集的点状逻辑值，通常来自模型的先前预测。这些逻辑值与输入点云的坐标连接起来，通过在点云编码器中的 Patch 嵌入模块的镜像中处理的 Mask 编码器。得到的 Mask 提示嵌入与点云嵌入逐元素相加。

Mask 解码器 Mask 解码器有效地将点云嵌入、提示嵌入和一个输出标记映射为一个分割 Mask 。由于点云的不规则特性，作者的 Mask 解码器与其2D版本有很大不同。作者遵循SAM，使用两个Transformer解码块，通过提示自注意力和双向交叉注意力（提示到点云以及反之）来更新所有嵌入。作者使用基于3个最近邻居的反距离加权平均插值[28]将更新后的点云嵌入上采样到输入分辨率，然后通过MLP。作者将上采样后的点云嵌入表示为。另一个MLP将输出标记转换为一个动态线性分类器的权重，它计算每个点位置的 Mask 前景概率为。与SAM一致，作者的模型可以通过引入多个输出标记为一个点提示生成多个输出 Mask 。需要注意的是，仅当存在单个点提示且没有 Mask 提示时，才启用多 Mask 输出。此外，作者还引入了另一个标记来预测每个 Mask 输出的IoU分数，其中是多个 Mask 输出的数量。

训练 Mask 预测受到Focal Loss[18]和dice损失[23]的加权组合监督，与SAM一致。作者通过在每次 Mask 迭代中跨7次采样提示来模拟交互式设置。Mask 预测的损失是在 GT Mask 和所有迭代中的预测之间计算的。交互式设置在5.1节中详细说明。更多细节在附录A中提供。对于多个 Mask 输出，作者遵循SAM使用“后见”损失，只对 Mask 上的最小损失进行反向传播。此外，预测的IoU分数使用均方误差损失进行监督。对于训练，作者随机采样10,000个点作为输入。此外，作者将输入点归一化以适应以零为中心的单位球内，以标准化输入。Patch 数和 Patch 大小默认设置为512和64。

推理中的可变性处理3D点云的一个重大挑战是它们不规则的输入结构；点的数量可以变化，这需要动态地将点分组到数量可变的、大小可调整的 Patch 中。虽然先前的基于点的算法[46]通常仅限于处理固定数量的点，但作者的模型灵活的设计使其可以通过调整 Patch 的数量和大小来处理比训练时更大的点集。除非另有规定，当输入点的数量超过32768时，作者将 Patch 的数量和大小设置为2048和512。相比之下，基于 Voxel 化的方法[43]在与这种变化作斗争时遇到困难，因为改变 Voxel 分辨率可以显著影响性能，不同 Voxel 分辨率的结果在附录B中展示。

4 Training Datasets

整合现有数据集基础模型通常对数据的需求很大，而且分割 Mask 的多样性对于支持“分割任何物体”至关重要。因此，作者使用了带有 GT 分割标签的现有数据集的混合，这些数据集在表1中进行了总结。作者利用了包括PartNet [24]的训练分割、PartNet-Mobility [37]和Fusion360 [15]在内的合成数据集。由于PartNet不提供带纹理的网格，作者只保留了ShapeNet中可用的带纹理网格的模型。作者使用了PartNet的所有部分层次。对于PartNet-Mobility，作者留出了不在ShapeNet中的3个类别（剪刀、冰箱和门），用于在未见类别上的评估。对于PartNet和Fusion360，作者从网格面均匀采样32768个点。对于PartNet-Mobility中的每个目标，作者渲染12个视图，将从渲染的RGB-D图像融合点云，并使用最远点采样（FPS）从融合点云中采样32768个点。对于场景级数据集，作者使用了ScanNet200 [6]的训练分割，并通过将每个场景分割成块来增强它。增强版本表示为ScanNet-Block。具体来说，作者使用了一个3m3m的块，步长为1.5m。作者使用FPS每个场景或块采样32768个点。

picture.image

生成伪标签现有数据集在 Mask 多样性方面不足。像ShapeNet [4]这样的大规模3D数据集通常不包括部分级分割标签。此外，大多数分割数据集只提供排他性标签，每个点属于单一实例。为此，作者开发了一个数据引擎来生成伪标签。

最初，Point-SAM在现有数据集的混合上进行训练。接下来，作者利用预训练的Point-SAM和SAM生成伪标签。具体来说，对于每个网格，作者在6个固定的摄像机位置渲染RGB-D图像并融合一个彩色点云。SAM应用于生成每个视图的多样化2D Proposal 。对于每个2D Proposal ，作者试图找到一个对应的3D Proposal 。作者从对应于2D Proposal 的视图开始。从2D Proposal 中随机采样一个2D提示并将其提升为3D提示，这促使Point-SAM在融合点云上预测一个3D Mask 。然后，作者从该视图中2D Proposal 和3D Proposal 投影之间的误差区域采样下一个2D提示。将新的3D提示和之前的3D Proposal Mask 输入到Point-SAM以更新3D Proposal 。这个过程重复进行，直到2D Proposal 和3D Proposal 投影之间的IoU大于一个阈值。这一步确保了由Point-SAM正则化的3D一致性分割，同时保留了SAM预测的多样性。作者在其他视图上以一些修改重复上述过程，以细化3D Proposal 。在其他视图中，作者首先从先前3D Proposal 的投影中采样初始2D提示，用于提示SAM生成多个输出。相对于投影具有最高IoU的输出2D Mask 被选为先前过程中的“2D Proposal ”。如果IoU低于阈值，则丢弃3D Proposal 。在每次迭代中使用先前的3D Proposal Mask 提示Point-SAM。这一步通过空间雕刻结合SAM的2D先验，有助于细化3D Mask 。作者使用作者的数据引擎为ShapeNet中的20000个形状生成伪标签。平均而言，每个形状用17个 Mask 进行标注，提供了与PartNet相当多样性。图3展示了伪标签生成过程以及从初始视图使用附加视图细化3D分割 Mask 。

picture.image

5 Experiments

在本节中，作者展示了实验，证明了作者方法在零样本迁移学习中的强大性能。作者在补充材料中展示了一个3D交互式标注应用。

Zero-Shot Point-Prompted Segmentation

任务与指标任务是基于3D点提示进行目标分割。为了自动评估，需要选择点提示。作者采用了与[14]中描述的相同方法来模拟用户点击。简而言之，第一个点提示被选为真实值 Mask 的“中心”，即距离边界最远的点。随后的每个点都是从两个候选点中选择出来的：一个来自与补集最远最小距离的假阳性集合，另一个以类似方式从假阴性集合中选择。然后，选择距离边界更远的候选点，详见附录C。这种评估协议在先前的2D [13, 44] 和3D [14, 43] 关于交互式单目标分割的工作中常见使用。遵循 [14, 43]，作者使用指标 IoU@k，即给定个点提示下真实值 Mask 与预测之间的交并比(IoU)。该指标在实例上进行平均。

数据集作者在涵盖室内和室外数据以及部分和目标 Level 标签的异构数据集上进行评估。对于部分 Level 的评估，作者使用合成数据集 PartNet-Mobility [37] 和真实世界数据集 ScanObjectNN [34]。如第4节所述，作者从PartNet-Mobility中留出3个类别进行评估。与训练数据集相同，作者为每个形状渲染12个视图，从多视角深度图像融合点云，并采样10,000个点进行评估。ScanObjectNN包含从SceneNN [10] 和 ScanNet [6] 收集的15个类别的2902个目标。对于场景 Level 的评估，作者使用S3DIS [1] 和 KITTI-360 [17]。具体来说，作者使用来自AGILE3D [43] 的处理过的数据，其中包含围绕每个实例裁剪的扫描。表2总结了用于评估的数据集。

picture.image

Baseline 方法作者对比了Point-SAM与SAM的多视图扩展版本，名为MV-SAM，以及一种3D交互式分割方法，AGILE3D[43]。受到之前工作[39, 47, 38]的启发，这些工作将SAM的多视图结果提升到3D，作者引入了MV-SAM作为零样本点提示分割的一个强有力的 Baseline 。首先，作者从每个形状的网格中渲染多视图的RGB-D图像。请注意，网格渲染是为了确保高质量图像，这对于SAM的良好性能至关重要。因此，这个 Baseline 实际上拥有比作者更多的信息。然后，作者在每个视图中提示SAM，使用从SAM的预测与2D真实 Mask 之间的误差区域的“中心”位置模拟的点击。随后，这些预测被提升到稀疏点云（10,000个点）并合并成单一 Mask 。如果一个点可以从多个视图看到，它的前景概率会被平均。对于MV-SAM和作者的方法，如果有多个输出，作者会选择最自信的预测。AGILE3D与作者的方法相似，但它使用稀疏卷积U-Net作为其主干网络，并且只在ScanNet40的真实世界扫描上进行训练。此外，它没有对其输入进行归一化，因此对物体尺度很敏感。为了处理没有已知物理尺度的CAD模型，作者调整了AGILE3D输入点云的尺度，使其轴对齐包围盒的最大尺寸为5m，这是通过网格搜索确定的。

表3展示了定量结果。Point-SAM展示了卓越的零样本迁移能力，并且有效地处理了不同点数以及不同来源的数据。Point-SAM显著优于MV-SAM，特别是在只提供少数点提示的情况下，而MV-SAM在提供足够提示的情况下也能达到相当好的性能。值得注意的是，对于IoU@k，MV-SAM实际上在每个视图中采样个提示。这表明作者的3D原生方法在提示效率上更高。此外，在没有额外微调的情况下，SAM很难实现多视图一致性，特别是在提示有限的情况下。此外，Point-SAM在所有数据集上也都超过了AGILE3D，特别是在分布外（OOD）场景如下PartNet-Mobility（保留类别）和KITTI360中。这强调了作者方法的强大零样本迁移能力以及扩展数据集的重要性。图4展示了Point-SAM、AGILE3D和MV-SAM之间的定性比较，其中Point-SAM使用单个提示就显示出优于AGILE3D和MV-SAM的质量，并且显著加快了收敛速度。

picture.image

图4展示了定性结果。作者在KITTI360和S3DIS上与AGILE3D进行了比较，在PartNet-Mobility上与MV-SAM进行了比较。尽管Point-SAM和AGILE3D都没有在户外数据上进行训练，但KITTI360上的结果表明，Point-SAM仅使用三个提示点就能准确标注户外物体。S3DIS的结果进一步证实，Point-SAM在使用更少的提示点时取得了卓越的性能。对于PartNet-Mobility，作者展示了Point-SAM通过利用几何信息有效地处理小部件，如门把手，而MV-SAM则被从纹理渲染的RGB数据误导。

Zero-shot Object Proposals

在本节中，作者评估了Point-SAM在零样本目标 Proposal 生成方面的表现。在SAM中，自动为所有可能实例生成 Mask 的能力被称为“分割一切”。SAM在图像上采样一个64x64的点网格作为提示，并使用基于边界框的非最大抑制（NMS）去除重复实例。作者对3D点云采用了这种方法，并进行了一些修改。首先，作者使用FPS进行提示采样，然后让Point-SAM为每个提示生成3个 Mask 。在后期处理中，应用了一种基于点状 Mask 的NMS的修改版本。

作者在Replica [31]上与OpenMask3D [32]进行了比较。OpenMask3D使用ScanNet200上训练的Mask3D [30]的类不可知版本来生成目标 Proposal 。对于作者的Point-SAM，作者采样1024个提示并将NMS阈值设置为0.3。此外，为了处理Replica中的大量点数，作者将每个场景降采样到100,000个点，并将预测结果传播到原始分辨率下的最近邻。作者还调整了 Patch 数量和 Patch 大小分别为4096和64。对于这两种方法，作者将 Proposal 数量截断为前250个。

表4：零样本目标 Proposal 生成和少样本部分分割的定性结果。

picture.image

作者使用平均召回率（AR）指标。作者从 GT 标签中过滤掉“未定义”和“地板”类别。表3(a)展示了定量结果。与专为这一任务设计的OpenMask3D相比，Point-SAM展示了强大的性能，尽管作者的模型从未在如此多的点上训练，并且是在未见数据上进行零样本评估。它突显了作者方法的强大零样本能力。### 少样本部分分割

基础模型可以有效地针对各种任务进行微调。在本节中，作者证明Point-SAM已经捕获了用于部分分割的良好表示。作者在近词汇、少样本部分分割上与PointBERT [41]和Uni3D [46]进行了比较。作者使用ShapeNet-Part [40]，并报告了mIoU，即跨类别的平均IoU。与Uni3D类似，作者为近词汇部分分割适配了Point-SAM。具体来说，作者从编码器中的ViT的第4层、第8层和最后一层提取特征，并使用特征传播[28]将它们上采样为点状特征，然后通过MLP预测点状多类逻辑回归。在少样本训练期间，作者冻结了编码器，只优化特征传播层以及使用交叉熵损失进行MLP训练。与PointBERT和作者方法不同，Uni3D原始地将点状特征与通过CLIP提取的 GT 部分标签的文本特征进行对齐。作者将其称为Uni3D（开放），因为它专为开放词汇部分分割而设计。作者还评估了其变体，该变体采用了作者的修改以用于近词汇部分分割，表示为Uni3D（关闭）。表3(b)展示了1次射击和2次射击设置的结果。Point-SAM超越了PointBERT和Uni3D（关闭），这表明作者的方法已经获得了适用于下游任务的多样化知识。

Ablations

扩展数据集以往的工作受到了训练数据集大小和范围的限制。例如，AGILE3D [43] 仅在 ScanNet [6] 上进行训练，而 ScanNet 只包含1,201个场景。如表1所示，作者的训练数据集包含了100,000个点云，比ScanNet大100倍。为了验证扩大训练数据的有效性，作者对数据集大小和组成进行了消融研究。

作者引入了4个数据集变体：1) 仅PartNet，2) PartNet+ScanNet，3) PartNet+ShapeNet，以及4) PartNet+ShapeNet+ScanNet。

作者在这些变体上训练Point-SAM-Large，产生了不同的模型。表5显示了在PartNet-Mobility（保留类别）上进行零样本提示分割的这些模型的比较。在PartNet+ScanNet上训练的模型超过了仅在PartNet上训练的模型，尽管评估数据集（部分级标签）与添加的ScanNet（目标级标签）的分布明显不同。此外，仅在PartNet+ShapeNet上训练的模型取得了更好的性能，尤其是在单个提示的情况下。需要注意的是，IoU@1指标评估模型是否捕获了足够的 Mask 多样性，因为单个提示固有的模糊性以及 GT 标签取决于数据集偏差。这表明作者的伪标签有效地融入了从SAM提炼出的部分级知识。此外，观察到随着作者利用越来越大和越多样化的数据，对分布外数据的零样本性能一致提升。

picture.image

对点数量的敏感性如第3节所讨论，点云通常是稀疏不规则的。在处理比作者训练中所用的点更多的点云时，作者必须相应地调整 Patch 的数量和大小。因此，作者进行了实验来研究这两个超参数的影响。表6显示了在S3DIS [1] 上进行零样本提示分割的定性结果。作者选择S3DIS，因为S3DIS的平均点数约为500K，比作者的训练数据集大50倍。作者的结果表明，增加 Patch 数量以适应更大的点云是很重要的。由于与作者的训练分布相比邻域密度的不同，扩大 Patch 大小也是至关重要的。

picture.image

6 Conclusion

总之，作者的工作为使用点云开发一个基础的3D提示分割模型迈出了重要的一步。通过采用基于 Transformer 的架构，作者成功实现了Point-SAM，它有效地响应了3D点云和 Mask 提示。

作者的模型利用了PartNet和ScanNet等混合数据集上的强大训练策略，特别是通过作者新颖的流水线从SAM中提炼知识生成的伪标签增强了模型的性能。然而，作者的方法存在固有的局限性和挑战。

所使用的3D数据集的多样性和规模仍然落后于2D领域可用的数据集，这对于训练能够在不同的3D环境和任务中良好泛化的模型构成了挑战。

此外，处理大规模3D数据的计算需求以及开发高效的3D特定操作的复杂性仍然是重大障碍。虽然作者对伪标签的依赖对于扩展标签多样性是有益的，但它也引入了对SAM提供的2D标签的质量和可变性的依赖，这些标签可能并不总是能捕捉到3D结构的复杂细微差别。

总体而言，作者的贡献为3D分割的未来进步奠定了坚实的基础，这对于增强现实到自主导航等一系列应用至关重要。

参考

[1].Point-SAM

点击上方卡片，关注「AI视界引擎」公众号