利用超点与 SAM 模型:SA3DIP 实现零样本 3D 实例分割 !

大模型向量数据库云存储

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

2D基础模型的广泛应用催生了将它们适应于开放世界3D实例分割的研究。最近的方法引入了一种利用超点作为几何原语并且将Segment Anything模型(SAM)的2D多视图 Mask 作为合并指导,从而实现了卓越的零样本实例分割结果。

然而,3D先验知识的有限使用限制了分割性能。

以前的方法仅基于空间坐标估计正常,从而导致具有相似几何的实例欠分割。此外,2D空间中过度依赖SAM和手工算法导致过度分割,因为SAM具有固有的部分级分割倾向。

为了解决这些问题,作者提出了一种名为SA3DIP的新方法,通过利用潜在的3D先验知识进行任何3D实例的分割。

具体而言,一方面,作者根据几何和纹理先验知识生成互补的3D原语,从而减少后续过程中累积的初始错误。

另一方面,作者通过使用3D检测器从3D空间引入额外的约束,以引导进一步的合并过程。

此外,作者还注意到ScanNetV2基准数据中大量低质量的 GT 标签,这影响了公平评估。因此,作者提出了ScanNetV2-INS,其中包含完整的 GT 标签,并增加额外的实例用于3D类无关实例分割。

在各种2D-3D数据集上的实验评估表明作者方法的有效性和鲁棒性。作者的代码和提出的ScanNetV2-INS数据集可以在这里找到。

1 Introduction

3D实例分割是跨多个领域(如自动驾驶、机器人导航和虚拟现实应用等)实现3D理解的基本任务。当前最先进的方法[1; 2]主要是监督学习,并严重依赖精确的3D标注进行训练,从而限制了它们在开放世界场景中的应用。与稀缺的3D标注数据相比,获取和标注2D图像更为方便。最近,在大规模标注的2D数据上训练的2D基础模型在零样本场景中展示了出色的性能和强大的泛化能力。最近的努力试图通过将 Segment Anything Model(SAM)的类无关2D分割结果提升到3D任务。具体而言,一些方法提出了一种 Pipeline ,将3D场景分解为几何基本单元,并利用SAM的2D多视图遮挡从多个视角计算配对相似度得分作为融合引导。此外,还包括进一步精心设计的算法或图神经网络(GNNs)以确保多视图一致性。

然而,几何基本预分割初始化阻碍了它们在具有高度相似法向量的点(如墙壁上的黑板和平板上的书籍)上聚类超点的功能。如图1左下所示,使用先前方法将黑板和墙错误地分配在同一个超点内。

由于流水线的粗粒度到细粒度的模式,这一阶段的错误会传播到后续阶段,而这些复杂的合并算法无法纠正。此外,当前方法 heavily 依赖于 2D 基础模型和 2D 空间的设计算法或 GNNs,而忽略了数据的固有 3D 先验知识。SAM 生成的 2D Mask 在 3D 空间中的部分级分割会导致过度分割的 3D 实例。如图1右下所示,沙发和椅子在 2D 空间中以部分级分割,导致最终结果中的过度分割。这些限制主要源于 3D 先验知识的未充分利用:

picture.image(1)完整的点云数据不仅包含空间坐标,还包含颜色通道;

(2)在合并过程之前,由 3D 空间提供的约束不能被忽视。

在本文中,作者提出了一种名为SA3DIP(Segment Any 3D Instance with potential 3D Priors)的新颖方法,用于分割高质量的3D实例。具体而言,作者观察到具有相似法线的不同实例通常呈现不同的颜色。因此,作者引入了几何和纹理先验,以生成更细粒度的互补原语。如图1右上所示,作者的方法清楚地识别出黑板和墙壁之间的边界。这样,初始错误被最小化,从而减少了后续过程中的错误累积。此外,作者在合并阶段利用了3D先验,为过度分割的3D实例提供约束,这通过引入3D检测器实现。这种额外的3D先验使得对过度分割的3D实例进行校正成为可能,同时保留了处理细粒度物体的能力。

因此,作者的方法使得沙发和椅子在3D空间中保持其完整性,如图1右上所示。此外,作者注意到广泛使用的基准数据集ScanNet[11]包含大量低质量的实例分割真实值标注,这导致评估模型性能时存在偏差。因此,作者提出了一种针对3D类无关实例分割的点级增强版本,即ScanNetV2-INS。修订后的数据集包含更少的无效标签和缺失实例,更好地展示了真实世界场景。

作者贡献了三个方面:

首先,作者提出了SA3DIP,这是一个利用潜在3D先验分割任何3D实例的新颖流程,该流程包括在计算3D超点时融合几何和颜色先验,并在合并阶段引入3D先验约束;

其次,作者提出了一种针对3D类无关实例分割的扫描网络V2的点级增强版本,通过纠正不完整的标注并纳入更多实例;

最后,作者在扫描网络V2,扫描网络V2-INS和ScanNet++ [12]数据集上进行了大量实验,结果表明了作者的方法的有效性和鲁棒性。

2 Related Work

闭合集3D分割。3D语义分割的目标是将每个点分类到特定的语义类别。另一方面,3D实例分割为同一语义类别内的每个独特实例分配唯一的 Mask。以前的研究可以分为基于聚类的、基于核的[29]和基于 Transformer 的方法,主要依赖于有监督的标注数据集。Mask3D[2]提出了第一个基于 Transformer 的3D语义实例分割模型,该模型使用实例 Query 和 Transformer 解码器。Spherical Mask[1]通过利用基于球面表示的新颖从粗粒到细粒方法,在ScanNetV2数据集上实现了最先进的3D实例分割性能。然而,它们都需要大量的标注3D数据集进行网络训练,这既具有财务负担,也面临着将方法扩展到来自未观察类别的新目标的开放世界场景的挑战。

开放集3D分割。2D基础模型在各种任务中表现出显著的效用。在SA-1B数据集上训练,该数据集包含1100万张图像和1.1亿个 Mask ,Segment Anything模型(SAM)成为图像分割的基石,实现了强大的零样本迁移能力,并可以生成高质量的分割 Mask ,如点、框和文本等。受到基础模型的泛化能力的启发,一些工作互补原语生成。

遵循[39]中的图割算法,作者在几何和纹理先验的基础上通过过度分割来计算互补原语。之前的方法[7, 8]在原语生成过程中只考虑了几何信息。如图2-A中的中间示例所示,门、墙和板在类似法向量的区域中出现过度分割。这一初始阶段的错误会传播和累积,对最终分割产生负面影响。相比之下,作者提出将额外的纹理先验纳入考虑,如图2-A中的右示例所示,这导致了更细致的原语。具体而言,对于一个3D场景P,作者首先将P中的每个点视为一个节点,并计算每个节点对之间的边权重。作者首先使用相应的3D坐标估计所有的法向量。

然后,作者提取额外的颜色信息,这是之前的方法未能利用的。需要注意的是,和的组合表示完整的点。作者计算法向量和之间的余弦相似度,以及颜色和之间的归一化欧几里得距离。最终边权重通过这两个相似度的加权求和得到:

picture.image
picture.image

随后,作者根据每对 将点聚类到更精细的基本单元 中。

场景图构建。如图2-B所示,作者遵循范式构建给定场景的超点图。

生成的原语义子作为节点,通过匹配算法获得的相似分数作为边权重。具体而言,作者首先利用共用针孔相机矩阵,得到第i个3D原语义子U_{i}在m个图像上的2D投影 ,作为节点,然后将通过匹配算法获得的相似分数作为边权重。

picture.image

作者将第个RGB图像输入到2D基础分割器(如SAM)中,以获得其 Mask 。然后,在2D投影和 Mask 上执行原初 Mask 匹配算法,以计算亲和分数。 具体而言,作者计算归一化的直方图向量来收集由渲染覆盖的中的2D Mask ,由于2D Mask 存在歧义或精度问题,可能被多个标签覆盖。第帧中和个超点的亲和分数通过计算它们的直方图向量的余弦相似度得到:

picture.image

遍历所有张图像可以得到和之间的所有相似度分数。然而,基元可能在所有帧中不可见,导致无效的相似度分数。

为了解决这个问题,作者在得到的分数上应用了一个基于可见性的滤波器。可见性定义为-帧中的可见点数量与其在场景中的总点数量之比。因此,最终相似度分数采用加权求和的方式进行计算:

picture.image

其中,权重 是由 和 相乘得到的。通过迭代处理所有超点和2D帧,可以得到邻接矩阵 。因此,场景的超点图可以由以 为节点,邻接矩阵 为边权的原语义网络构建。

区域生长和实例感知精炼。作者在构建的图中进行亲和力和距离感知的区域生长。以前的方法从SAM生成的2D Mask 中继承了部分级分割的趋势,这通常导致在3D空间中过度分割。例如,图2-C中主要分割的椅子被分割成两个不同的部分。为了解决这个问题,作者提出通过将3D检测器[40, 41, 42]的辅助先验进行融合来利用3D空间的补充先验。如图2-输出所示,额外的3D先验提供的约束纠正了过度分割的实例,同时保留了处理详细物体的能力。

在初级合并阶段,作者不仅考虑了节点之间的相似性分数 ,还考虑了节点 和 之间的欧几里得距离 ,从而引入了一定程度的全局 Aware 。

作者应用了动态阈值 来减少初始错误的合并和随后的错误累积。具体而言,作者将 与衰减因子 相乘,得到节点 和 之间的合并确信分数 :

picture.image

然后,作者将第i个节点的置信得分δ_{i,j}与阈值δ_{1}进行比较,以判断是否合并节点U_{i}和U_{j}。因此,通过迭代所有节点对N_{t}次,作者得到了主要的分割结果。

作者进一步引入了来自3D空间的补充先验信息,通过使用基于检测的实例感知精炼。如图1所示,作者收集了所有位于边界框内的点,并评估了这些点属于实例ID 的比例与整个场景的比例。

如果比例超过了一个指定的阈值,则表明实例ID为的点很可能代表了过分割的实例的一部分。作者将超过阈值的点分配一个新的标签,从而校正过分割的实例。然而,有可能较小的目标被错误地校正为较大的目标。为解决这个问题,作者选择根据大小对边界框进行预排序。这样,校正将在边界框大小的递减顺序中进行,以确保在最终输出中,较小目标保持其独立性。

ScanNetV2-INS

扫描NetV2已被用作评估模型性能的标准基准。然而,它包括相当比例的低质量真实标签,可能导致误导性的结果。为解决此问题,作者引入了一个经过优化的数据集版本,称为ScanNetV2-INS,其中在标注 Level 进行了增强。

vanilla ScanNetV2 中的不完美之处。原始的 ScanNetV2 显示其 GT 标注存在不完美之处,主要体现在两个方面。首先,某些明显的实例未被 Token 。如图3-a 顶部一行所示,墙壁上的木板和桌子上的纸张被忽视了。其次,一些实例的标注不完整。例如,图3-a 底部一行中,在干净的点云中清晰可见的门和木板,标注中有大片黑色区域(表示“ 未标注 ”)。这种现象对评估指标的准确性产生了严重影响,导致对模型性能的错误估计。因此,采取纠正措施至关重要。

picture.image

修订ScanNetV2:借助最近发布的标注工具AGILE3D[43],作者有效地对验证集的312个场景的 GT 标注进行了点级更新。修订主要解决了两个上述缺陷,如图3-a右栏所示。首先,作者重新 Token 了被无标签的黑点遮挡的实例,如门和木板。其次,作者将某些明显可见但对 GT 标注中未进行 Token 的实例分配了类无关标签,如桌子上的纸张和墙上的海报。

Statistic analysis and limitation of ScanNetV2-INS. 图3-b展示了有多少场景拥有超过(10,20,...,100)个实例。在表1中,作者展示了两个数据集中指定范围内的点数不同的实例数量。ScanNetV2-INS数据集包含更多较小的物体,这需要模型具有更细粒度的实例感知能力。因此,如表2所示,作者的新数据集的实例数量显著增加,这更好地反映了并提出了更高的模型性能挑战。然而,作者的数据集仅包含验证集的修订版312个场景,重点关注无训练方法的3D类无关实例分割的评估使用。

picture.image

picture.image

4 Experiments

在本节中,作者将定量评估作者的SA3DIP在ScanNet系列(包括原始ScanNetV2[11],作者的ScanNetV2-INS以及更具挑战性的ScanNet++[12]),Matterport3D [44]和Replica [45]数据集上的性能,以证明其在3D实例分割中的有效性和鲁棒性。作者还提供了ScanNet系列数据集的定性可视化,以便与其他方法进行更直观的比较。

Experiment settings

扫Net [11]整合了来自室内环境的大量2D和3D数据,这些数据通过与深度传感器配合使用的iPad应用程序获取。该数据集包括RGB图像和深度图像,以及3D点云数据,所有数据都仔细地标注了语义和实例标签。它包含了超过1500次扫描产生的超过250万条视图。相比之下,ScanNet++ [12]是一个最近推出的室内数据集,它与ScanNet具有相似的组成,但具有更高的分辨率3D几何和更详细的数据标注。ScanNet++数据使用高级设备拍摄,包括Faro Focus Premium激光扫描仪、iPhone 13 Pro和配备鱼眼镜头的DSLR相机。作者提出的ScanNet-INS涵盖了ScanNetV2中所有312个验证场景的修订版,同时保持了与ScanNetV2在数据和标签格式上的一致性。它提供了更准确的评价指标和更公平的比较方法。

参数设置。作者在单个RTX4090上进行所有实验。互补基本图形和纹理生成的权重分别设置为和。这是因为纹理先验知识如RGB值在仅考虑照明条件、反射、阴影和传感器收集到的噪声时不够鲁棒。在后续部分,作者将详细研究两个权重选择的实验。区域生长的区域扩展阈值在ScanNetV2和ScanNetV2-INS中经验地设置为[0.9,0.8,0.7,0.6,0.5],ScanNet++中设置为[0.9,0.8,0.7],实例感知精炼中的阈值实验地设置为0.75。

评估指标。作者使用广泛使用的平均精确度(AP)分数来评估定量结果。根据[2, 7, 8, 25],作者报告AP,阈值为25%(表示为)和50%(表示为),并按5%的步长在[50%和95%]之间的所有重叠区域进行平均()。由于2D基础分割模型产生的分割 Mask 是无类别别的,作者在评估中忽略语义类别标签,仅考虑实例 Mask 本身的准确性。

作者将作者的方法与闭合词汇和开封闭词汇方法进行了比较。Mask3D [2] 在ScanNetV2上进行训练,作为闭合词汇 Baseline 。最近基于利用2D基础模型的方法,包括SAM3D [10] (带和不带集成过程)、SAM-graph [7],SAI3D [8] 和 SAMPro3D [9] 作为开封闭词汇方法进行比较。此外,作者还与Felzenszwalb [39] 提出的传统点分组方法进行了比较。

Results on ScanNet series

作者还在图4中呈现了定性结果。视觉比较进一步证明了作者的方法的有效性。如图4的前两行所示,作者的方法具有更好的实例 Aware ,能够将表格整体识别出来。此外,通过使用更精确的3D基元,作者的方法是唯一能够将门从墙壁分割出来的,如图4的第三行所示。这展示了利用潜在3D先验知识的重要性。

picture.image

Ablation studies

作者对先验模型进行了详细的权重消融研究,权重分别为和,并报告了表4中的指标。作者为几何和纹理分配了几个权重,以测试它们的贡献。具体来说,作者进行了一个配置为和的实验,该实验生成的三维基本单元数量与SAM3D、SAI3D等所使用的基本单元数量相似,以进行公平的比较。

picture.image

观察到,在受到阴影、反射等影响的情况下,纹理先验并不是足够稳健。因此,作者选择将纹理先验的权重分配得更小,以尽量减少其负面影响。实验结果显示,和的设置最适合作者的方法。

然而,人们注意到,只使用互补原语导致平均精确率在两个数据集上略有下降。这与指标AP(正确识别实例与总识别实例比例)的定义有关。AP指标更倾向于欠分割而不是过分割,因为前者可以获得高精确率和较少的假阳性,而后者则给出较少的精确率和更高的召回率。

More experiments

作者进一步在Matterport3D [44] 和 Replica [45] 数据集上进行了实验以及相应的消融研究,以测试作者方法的可 robustness 和 generalization 能力。Matterport3D 数据集包含 194,400 张 RGB-D 图像,涵盖 90 个建筑规模的室内场景,其 2D 帧上的视图变化比 ScanNet 更大。Replica 数据集则包含了 18 个具有密集几何、高分辨率和动态范围纹理的高度照片写实 3D 室内场景重构。如表5 所示,作者的方法在定量结果上明显优于其他方法。

picture.image

Limitations

由于在效率和准确性之间存在权衡,作者选择仅基于先验计算3D超点。这使得在几秒钟内执行时间非常短,但可能导致过多的超点,这增加了合并过程中的挑战。此外,对于具有鲜明光暗效果的高分辨率点云,基于几何和纹理生成的超点还不够。一种方法是设计一个更复杂的预分割模型,具有语义 Aware 。此外,尽管引入了3D先验的约束,基于2D Mask 的亲和矩阵仍然严重依赖2D基础分割器的准确性。设计一个更强大的合并算法或更好地利用各种2D基础模型在将来具有前景。

5 Conclusion

在本文中,作者提出了一种新颖的方法,通过利用潜在的3D先验知识对任意3D实例进行分割。关键思想是将更多的3D先验知识集成到2D基础模型引导 Pipeline 中,并利用不仅来自2D空间的知识转移,还利用3D空间中的特征。

作者首先基于几何和纹理先验知识生成互补3D超点基本单元,以减少后续过程中累积的初始错误。然后作者通过使用3D检测器从3D空间引入补充约束。与使用2D Mask 构建的亲和矩阵相结合,作者对3D基本单元执行区域生长和细化过程。

此外,作者提出了ScanNetV2-INS,具有完整的真实标签,并添加额外的实例进行3D类无关实例分割,其比较不同方法的指标无偏。在ScanNetV2,ScanNetV2-INS和ScanNet++数据集上的实验评估表明作者方法的有效性。

作者认为作者在利用2D基础模型引导 Pipeline 中3D先验知识的重要性方面处于创新地位,并且它应该引起对将2D基础模型扩展到3D空间的方法未来研究的关注,不应忽视固有的3D先验知识的作用。

参考文献

[0]. SA3DIP: Segment Any 3D Instance with.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论