SAM2POINT：基于Segment Anything 2的零样本3D分割新方法 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

作者引入Sam2Point，这是一个针对零样本和可提示式3D分割的SAM2的初步探索。

Sam2Point将任何3D数据解释为一系列多方向的视频，并利用SAM2进行3D空间分割，而无需进一步训练或2D到3D投影。

作者的框架支持各种提示类型，包括 3D点、 Box 和遮挡，并且可以泛化到多种场景，如 3D目标、室内场景、室外场景和原始激光雷达数据。

在等多个3D数据集（例如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI）上的示例强调了Sam2Point的强大泛化能力。

据作者所知，作者在这里提出了SAM在3D领域的最忠实实现，这可能成为未来在可提示性3D分割方面研究的起点。

1 引言

分割 Anything Model (SAM) 已经确立了一个强大的、可转移的图像分割框架。基于其强大的泛化能力，后续的研究进一步将SAM扩展到不同的视觉领域，例如个性化物体、医学影像和时间序列。

尽管如此，有效地将SAM应用到3D分割仍然是一个悬而未决的挑战。

作者发现与现有努力相比，主要有三个问题，如表1所示，这阻止了它们充分利用SAM的优点：

picture.image

不 efficient 二维到三维投影。由于二维和三维之间的领域差距，大多数现有方法将三维数据表示为其二维对应物作为SAM的输入，并将其分割结果反向投影到三维空间，例如使用附加的RGB图像（Yang等人，2023年；Yin等人，2024年；Xu等人，2023年）、多视图渲染（Zhou等人，2023年）或神经辐射场（Cen等人，2023年）。这种模态转换引入了显著的处理复杂性，阻碍了有效的实现。
三维空间信息的退化。依赖二维投影导致了细粒度三维几何学和语义学的损失，因为多视数据往往无法保持空间关系。此外，三维目标的内部结构无法由二维图像充分捕捉，这大大限制了分割的准确度。
提示灵活性的减少。SAM的一个令人信服的优势是通过各种提示选项实现交互功能。然而，在当前的方法中，这些功能大部分被忽视了，因为用户在用二维表示精确指定三维位置时遇到困难。因此，SAM通常用于整个多视图像的密集分割，从而牺牲了交互性。
有限的领域可移植性。现有二维到三维投影技术通常针对特定的三维场景设计，严重依赖领域模式。这使得它们难以应用于新的上下文，例如从物体到场景，或者从室内到室外环境。另一种研究方法（Zhou等人，2024年）试图从头开始在三维中训练一个可提示的网络。虽然跳过了二维投影的需要，但它需要巨大的训练和数据资源，并且可能会受到训练数据分布的限制。

在本项目中，作者介绍了Sam2Point，该方法将SAM 2修改为高效、投影无关、可提示和零样本三维分割。作为在这个方向上的第一步，作者的目标并不是推动性能极限，而是演示SAM在实现多种环境中强大和有效的三维分割的潜力。具体而言，Sam2Point展现出三种类型的特征：

将任何3D分割为视频为了在分割过程中保持3D几何结构的还原，同时保证与SAM 2的兼容性，作者采用 Voxel 化来模拟视频。这种表示形式具有的形状，与的视频格式非常接近。这样，SAM 2可以在零样本情况下进行3D分割，同时保留足够的空间信息，无需额外的训练或2D-3D投影。
支持多种3D提示在SAM 2的基础上，Sam2Point支持三种类型的提示：3D点、边界框和 Mask 。作者从用户提供的3D提示开始，例如一个点（x, y, z），将3D空间划分为三个正交方向，生成六个相应的视频。然后，多方向分割结果被集成到3D空间以形成最终预测，实现交互式可调整的分割。
适用于各种场景的泛化性凭借作者简洁的框架，Sam2Point在具有不同点云分布的多样3D场景中展示出强大的泛化能力。如图1所示，作者的方法可以有效地分割单个物体、室内场景、室外场景和原始激光雷达数据，突显了跨不同领域的优越迁移能力。

picture.image

2 Sam2Point

Sam2Point 的详细方法论在图2中进行了介绍。在2.1节中，作者介绍了Sam2Point如何高效地格式化3D数据以便与SAM 2（Ravi等人，2024年）兼容，从而避免了复杂的投影过程。接着，在2.2节中，作者详细介绍了支持的三种3D提示及其相关的分割技术。最后，在2.3节中，作者说明了Sam2Point能够有效处理的四个具有挑战性的3D场景。

picture.image

3D Data as Videos

作者假设任何目标的级或场景级的点云为 ,其中每个点表示为。作者的目标是将转换为一种数据格式，一方面，SAM 2 可以无损地直接处理，另一方面，细粒度的空间几何结构可以得到很好的保留。为此，作者采用了 3D Voxel 化技术。与 RGB 图像映射（Yang 等人，2023； Yin 等人，2024； Xu 等人，2023a）和多视渲染（Zhou 等人，2023b）以及之前的工作中的 NeRF（Cen 等人，2023）相比， Voxel 化在 3D 空间中高效执行，从而避免了信息损耗和复杂的后期处理。

因此，作者得到的是 3D 输入的 Voxel 化表示，记作 ,其中每个 Voxel 表示为。为了简洁起见，值是根据 Voxel 中心最近的点设置的。这种格式与具有形状的 video 格式非常接近。主要的区别是视频数据包含跨越帧的单向时间依赖性，而 3D Voxel 在三个空间维度上具有 isotropic 特性。考虑到这一点，作者将 Voxel 表示转换为一系列多方向的视频，启发 SAM 2 按照视频的方式对 3D 进行分割。

Promptable Segmentation

为了实现灵活的互动性，作者的Sam2Point在3D空间中支持三种类型的提示，可以单独或联合使用。作者将提示和分割的详细如下：

3D点提示，用符号表示，即。作者先将视为3D空间的 Anchor 点，定义三个正交的2D部分。从这些部分开始，作者将3D体积分割成六个子部分，即前、后、左、右、上、下六个方向。然后，它们被看作六个不同的视频，其中部分作为第一帧，被投影为2D点提示。在应用SAM 2进行并行分割后，作者将六个视频的结果集成到最终的3D Mask 预测中。
3D Box 提示，用符号表示，即，包括3D中心坐标和尺寸。作者采用的几何中心作为 Anchor 点，用六个不同的视频表示3D体块。对于某个方向的视频，作者将投影到相应的2D部分作为分割的 Box 点。作者还支持带有旋转角度的3D Box ，例如，其中投影的边界矩形被用作2D提示。
3D面提示，用符号表示，其中1或0表示被遮挡或未被遮挡的区域。作者采用面提示的重心作为 Anchor 点，将3D空间分为六个视频。3D面提示与每个部分之间的交集被用作分割的2D面提示。这种提示也可以作为对先前预测的3D面进行精炼的步骤，以提高预测的准确性。

Any 3D Scenarios

凭借作者简洁的框架设计，Sam2Point在各个领域都表现出卓越的零样本泛化性能，从物体到场景以及从室内到室外环境都可以做到。以下是作者更详细地阐述的四种不同的3D场景：

3D物体，例如Obiayverse (Deitke等，2023)，具有众多类别，不同的实例具有独特的特性，包括颜色、形状和几何形状。物体相邻的组件可能重叠，遮挡或与彼此集成，这需要模型准确地判断微小的差异来进行部分分割。
室内场景，例如S3DIS (Armeni等，2016)和ScanNet (Dai等，2017)，通常由多个在有限空间内的物体组成，如房间。复杂的空间布局，外观相似度和物体之间的不同方向，对模型从背景中分割物体提出了挑战。
室外场景，例如Semantic3D (Hackel等，2017)，与室内场景的不同主要是因为物体的巨大尺寸对比（建筑物、车辆和人类）以及点云的大规模（从房间到整个街道）。这些变化使得全局或细粒度的物体分割变得复杂。
原始激光雷达，例如KITTI (Geiger等，2012)在自动驾驶中，具有稀疏分布和缺乏RGB信息，与典型的点云不同。稀疏性要求模型推理缺失的语义以理解场景，同时缺乏颜色迫使模型只能依赖几何线索来区分物体。在Sam2Point中，作者直接根据激光雷达强度设置3D Voxel 的RGB值。

3 讨论与洞察

基于Sam2Point的有效性，作者深入探讨了3D领域的两个令人兴奋但具有挑战性的问题，并分享了对未来多模态学习的见解。

How to Adapt 2D Foundation Models to 3D?

大规模、高品质数据的可获得性极大地加速了语言、2D视觉、视觉语言领域大型模型的开发。相比之下，3D领域长期以来一直面临着数据的稀缺性，阻碍了大型3D模型的训练。因此，研究行人已经转向将预训练的2D模型迁移到3D的替代方法。

主要挑战在于在2D和3D之间建立模式鸿沟。开创性的方法，如PointCLIP、其V2（Zhu等，2022）以及后续方法，将3D数据投影为多视图图像，这遇到了实现效率和信息损失的问题。另一条工作线，包括ULIP系列、I2P-MAE（Zhang等，2023c）等，使用2D-3D配对数据进行知识蒸馏。尽管由于大量训练而表现更好，但在跨领域场景中存在3D转移性有限的问题。最近的努力也探索了更复杂且更昂贵的解决方案，如联合多模态空间（例如Point-Bind & Point-LLM（Guo等，2023b）），更大的预训练规模（Uni3D（Zhou等，2023a））和虚拟投影技术（Any2Point（Tang等，2024））。

从Sam2Point中作者可以观察到，将3D数据通过 Voxel 化表示为视频可能是最理想的解决方案，在性能和效率之间实现了平衡取舍。这种方法不仅通过简单的变换保留了3D空间中的空间几何特性，而且提出了基于网格的数据格式，2D模型可以直接处理。尽管如此，还需要进一步的实验来验证和强化这一观察结果。

What is the Potential of Sam2Point in 3D Domains?

到目前为止，Sam2Point 是实现 3D SAM 的最准确全面的实现，成功继承了其实现效率、及时灵活性和泛化能力。尽管之前基于 SAM 的方法已经实现了 3D 分割，但它们往往在可扩展性和可迁移性方面落后，以在各种 3D 任务中受益。相比之下，受到了 2D SAM 的启发，Sam2Point 为提高各种 3D 应用展示了巨大潜力。

在基础的 3D 理解中，Sam2Point 可作为一个统一的初始化后端进行进一步的微调，同时为 3D 目标、室内场景、室外场景和原始 LiDAR 提供强大的 3D 表示。在训练大型 3D 模型的背景下，Sam2Point 可以作为一种自动数据标注工具，通过在各种场景中生成大规模分割标签来缓解数据稀缺问题。对于 3D 和语言视觉学习，Sam2Point 由于其零样本能力，在 2D、3D 和视频域之间天生提供了共同的嵌入空间，这有可能进一步提高 Point-Bind（Guo 等人，2023b）等模型效率。此外，在 3D 大语言模型（LLM）的开发的背景下，Sam2Point 可以作为一种强大的 3D 编码器，为 LLM 提供 3D Token ，并利用其可提示特性，使其具有可提示的指令遵循能力。

4 Demos

图3：3D 目标分割与 SAM2Point 在 Obiayverse 上的应用（Deitke 等人，2023 年）。3D 提示和分割结果分别用红色和绿色突出显示。

picture.image

图4：3D 室内场景分割与 SAM2Point 在 S3DIS 上的应用（Armeni 等人，2016 年）。3D 提示和分割结果分别用红色和绿色突出显示。

picture.image

图5：3D 室内场景分割与 SAM2Point 在 ScanNet 上的应用（Dai 等人，2017 年）。3D 提示和分割结果分别用红色和绿色突出显示。

picture.image

图6：3D 室外场景分割与 SAM2Point 在 Semantic3D 上的应用（Hackel 等人，2017 年）。3D 提示和分割结果分别用红色和绿色突出显示。

picture.image

在图3-7 中，作者展示了 SAM2Point 在具有不同 3D 提示的多个数据集（Deitke 等人，2023 年；Armeni 等人，2016 年；Dai 等人，2017 年；Hackel 等人，2017 年；Geiger 等人，2012 年）上的分割 3D 数据的示例。有关进一步实现细节，请参阅作者的开源代码。## 5 结论

图7：3D 原始激光雷达分割与 SAM2Point 在 KITTI 上的应用（Geiger 等人，2012 年）。3D 提示和分割结果分别用红色和绿色突出显示。

picture.image

结论

在这个项目中，作者提出了SAM2POINT，这是一个利用Segment Anything 2（SAM 2）进行零样本学习和可提示框架的3D分割方法。

SAM2POINT通过将3D数据表示为多方向视频，支持用户提供的各种提示类型（3D点、框和掩码），并在多种3D场景（包括3D物体、室内场景、户外环境以及原始稀疏激光雷达数据）中展现了强大的泛化能力。

作为初步探索，SAM2POINT为有效且高效地适应SAM 2进行3D理解提供了独特的见解。

作者希望方法能够成为可提示3D分割的基础基准，激励进一步的研究，以充分利用SAM 2在3D领域的潜力。

参考

[1].Sam2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners.

点击上方卡片，关注「AI视界引擎」公众号