FusionVision | 革新RGB-D相机输入处理，提升3D物体分割精度 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

在计算机视觉领域，将先进技术整合到RGB-D相机输入的处理中是一项重大挑战，这源于不同环境条件和物体外观变化所带来的固有复杂性。因此，本文提出了FusionVision，一个全面的设计用于在RGB-D图像中健壮地进行3D物体分割的 Pipeline 。传统的计算机视觉系统在同时捕获精确的物体边界和在深度图上实现高精度的目标检测时面临限制，因为它们主要是为RGB相机提出的。为了应对这一挑战，FusionVision采用了一种整合方法，结合最先进的目标检测技术，以及先进的实例分割方法。这些组件的整合使得能够全面（统一分析从彩色_RGB_和深度通道获得的信息）解释RGB-D数据，从而促进提取全面且准确的物体信息。所提出的FusionVision Pipeline 使用YOLO在RGB图像领域中识别物体。随后，应用FastSAM这一创新的语义分割模型来描绘物体边界，产生精细的分割 Mask 。这些组件之间的协同作用及其整合到3D场景理解中，确保了目标检测和分割的连贯融合，提高了3D物体分割的整体精度。代码和预训练模型可在https://github.com/safouaneelg/FusionVision/公开获取。

点云处理在各个领域的重要性急剧上升，如机器人学[1, 2]，医疗领域[3, 4]，自动驾驶[5, 6]，计量学[7, 8, 9]等。在过去的几年中，视觉传感器技术的进步导致了显著的改善，使这些传感器能够提供对周围环境的实时3D测量，同时保持良好的准确性[10, 11]。因此，点云处理通过促进稳健的目标检测、分割和分类操作，成为众多应用的关键支点。

在计算机视觉领域内，有两个被广泛研究的重要分支尤为突出：目标检测和物体分割。这些子领域在过去的几十年里吸引了研究界的极大关注，帮助计算机理解和与视觉数据互动[12, 13, 14]。目标检测涉及在图像或视频流中识别和定位一个或多个物体，通常采用高级深度学习技术，如卷积神经网络（CNNs）[15]和基于区域的CNN（R-CNNs）[16]。

追求实时性能导致了更高效模型的开发，如单次多框检测器（SSD）[17]和仅看一次（YOLO）[18]，这些模型在准确性和速度之间展示了平衡的性能。另一方面，目标分割超越了检测过程，允许描绘出每个被识别目标的精确边界[19]。分割过程使得对视觉场景有更细致的理解，并在给定图像中实现精确的目标定位。在文献中，区分了两种分割类型：语义分割为每个像素分配一个类别标签[20]，而实例分割则区分同一类别的不同个体实例[21]。

最受欢迎的目标检测模型之一是（YOLO）。目前所知的YOLO的最新版本是YOLOv8，它是一个实时目标检测系统，使用单个神经网络同时预测边界框和类别概率[22, 23]。它被设计为快速且准确，适用于自动驾驶车辆和安全系统等应用。YOLO通过将输入图像划分为单元格网格来工作，每个单元格预测固定数量的边界框，然后使用定义的置信度阈值进行过滤。接下来，对剩余的边界框进行缩放和重新定位，以适应它们所预测的目标。最后一步是对剩余的边界框执行非最大值抑制[24]，以移除重叠的预测。YOLO使用的损失函数是两个项的组合：定位损失和置信度损失。定位损失衡量预测边界框坐标与真实坐标之间的差异，而置信度损失衡量预测类别概率与真实类别之间的差异。

SAM [25]另一方面，是一种近期流行的深度学习模型，用于图像分割任务。它是基于通常被选用于医学应用中的U-Net架构[26, 27, 28]。U-Net是一个专为图像分割设计的卷积神经网络，它由一个编码器和一个解码器组成，两者通过跳跃连接[29]相连。编码器负责从输入图像中提取特征，而解码器处理分割 Mask 的生成。跳跃连接使模型能够利用编码器在不同抽象层次上学习的特征，这有助于生成更准确的分割 Mask 。SAM之所以受欢迎，是因为它在各种图像分割基准测试中取得了最先进的表现，包括医学[30]等许多领域，以及在PASCAL VOC 2012[31]等额外的知名数据集上。它特别擅长分割复杂目标，例如建筑物、道路和车辆，这些目标在都市环境中很常见。该模型在不同数据集和任务上的泛化能力，极大地促进了它的流行。

YOLO和SAM的使用仍然被科学界广泛研究和在实际中应用，主要用于2D计算机视觉任务[32, 33, 34]。然而，在本文中，作者将研究重点放在了这两种前沿算法在RGB-D图像上的可能应用。RGB-D相机是一种深度感测相机，可以同时捕捉场景的RGB通道（红、绿、蓝）和D图（深度信息，如图1所示）。这些相机使用红外（IR）投影仪和传感器来测量物体与相机之间的距离，为RGB图像提供足够精确的额外深度维度。例如，根据F. Pan等人的研究[35]，在面部扫描方面，对RGB-D相机的估计精度已经评估为0.61±0.42毫米。与传统RGB相机相比，RGB-D相机具有几个优势，包括：

picture.image

改进的目标检测与跟踪[36]：RGB-D摄像头提供的深度信息使得即使在遮挡和光照条件多变等复杂环境中，也能实现更准确的目标检测与跟踪。

三维重建[37, 38] - RGB-D相机可以用于创建物体和环境的3D模型，从而使得增强现实（AR）和虚拟现实（VR）等应用成为可能。

人机交互[39, 40] - RGB-D相机提供的深度信息可以用来检测和追踪人体动作，这使得人机交互变得更加自然和直观。

RGB-D相机在众多领域有着广泛的应用，包括机器人学、计算机视觉、游戏和医疗保健。在机器人学领域，RGB-D相机被用于物体操作[41]、导航[42]和地图绘制[43]。在计算机视觉中，它们用于三维重建[37]、物体识别和追踪[44, 45]。所有这些算法都利用深度信息处理3D数据，而不是图像。点云处理为物体追踪提供了额外的精度，从而提高了在三维空间中对其位置、方向和大小的了解。与传统基于图像的系统相比，这提供了明显的优势。此外，由于使用了红外照明，RGB-D技术还能够克服不同的光照条件[46]。

2 Related work

上述的YOLO和SAM模型主要是为2D计算机视觉操作而提出的，缺乏对RGB-D图像的适应性。因此，目标的3D检测和分割超出了它们的能力范围，这需要3D目标检测方法。在这个背景下，已经研究了一些从RGB-D摄像机进行3D目标检测和分割的方法。Tan Z.等人[47]提出了一种改进的YOLO（版本3）用于3D目标定位。该方法旨在通过单个RGB-D摄像机从点云实现实时高精度的3D目标检测。作者提出了一种将2D和3D目标检测算法相结合的网络系统，以改进实时目标检测结果并提高速度。所使用的两种最先进的目标检测方法的组合是：[48]从RGB传感器进行目标检测，以及Frustum PointNet [49]，这是一种实时方法，它使用视锥约束来预测一个物体的3D边界框。该方法框架可以总结如下（图2）：

picture.image

二维目标检测算法用于在RGB图像中检测和定位物体。这提供了关于物体的有用先验信息，包括它们的位置、宽度和高度。

来自2D目标检测的信息随后被用来生成3D截头体。截头体是一个金字塔形状的体积，它根据物体的2D边界框表示物体在3D空间中可能的位置。

生成的截锥体被输入到PointNets算法中，该算法执行实例分割并预测截锥体内每个目标的3D边界框。

通过结合2D和3D目标检测算法的结果，该系统实现了室内外实时目标检测性能。在方法评估中，作者指出使用Intel RealSense D435i RGB-D相机，在基于GTX 1080 ti GPU的系统上运行的算法，实现了实时3D目标检测。然而，这种方法存在局限性，通常由于深度和目标反射率估计不准确而容易受到噪声影响。

3 FusionVision Pipeline

提出的流程可以总结为5个步骤，除了第一步的数据获取之外：

数据获取：这个初始阶段涉及获取适合训练目标检测模型的图像。这个图像收集可以包括单类或多类场景。在准备所获取数据的过程中，需要将其分成用于训练和测试目的的不同子集。如果感兴趣的目标在Microsoft COCO（常见物体在场景中）数据集[50]之内，这一步可能是可选的，允许利用现有的预训练模型。

YOLO模型训练：在数据获取之后，对YOLO模型进行训练以提高其检测特定物体的能力。这个过程包括根据获取的数据集优化模型的参数。

模型推理：在成功训练后，YOLO模型被部署在RGB-D相机的RGB传感器实时流上，以实时检测物体。这一步骤包括应用训练后的模型来识别相机视野内的物体。

FastSAM应用：如果RGB流中检测到任何物体，估计的边界框将作为FastSAM算法的输入，便于提取物体 Mask 。这一步骤通过利用FastSAM的能力，改进了物体分割过程。

RGB与深度匹配：从RGB传感器生成的估计 Mask 与RGB-D相机的深度图进行对齐。这种对齐是通过利用已知的内参和外参矩阵实现的，提高了后续3D物体定位的准确性。

从深度图进行3D重建的应用：利用对齐的 Mask 和深度信息，生成一个3D点云，以实现在三维空间中对检测目标的实时定位和重建。这一最终步骤在3D空间中产生了目标的孤立表示。

Data Acquisition

对于需要检测特定目标的应用，数据采集包括使用特定目标的角度、位置和不同光照条件下拍摄的相机收集一定数量的图像。之后，这些图像需要用对应的边界框进行标注，以指示图像中目标的位置。在这一步骤中，可以使用多个标注工具，例如Roboflow [51]、LabelImg [52] 或 VGG Image Annotator [53]。

YOLO training

训练YOLO模型以实现稳健的目标检测构成了FusionVision Pipeline 的强大基础。获取的数据被划分为80%用于训练，20%用于验证。为了进一步增强模型的泛化能力，采用了数据增强技术，包括水平垂直翻转图像，以及应用轻微的角度倾斜[54]。

在YOLO目标检测的背景下，训练模型以准确地在图像中定位和分类物体时，使用了几个关键的损失函数。目标性损失（），如公式（1）所定义，采用二元交叉熵来评估模型在给定网格单元中预测物体存在与否的能力，其中表示图像中给定网格单元的 GT 目标性标签。分类损失（），如公式（2）所示，使用交叉熵来惩罚在所有类别（为类别数）中检测到的物体类标签预测的错误。为了提高定位的准确性，边界框损失（），如公式（3）所述，采用均方误差来衡量预测的与 GT 边界框坐标之间的差异。其中、指边界框的中心坐标，、分别是它的宽度和高度。此外，中心坐标损失（），如公式（4）详细说明，包含了Focal Loss，包括参数和，以解决预测物体中心坐标的不平衡问题。这些损失函数共同指导训练过程中的优化过程，引导YOLOv8模型在各种场景中实现强大而精确的目标检测性能。

在整个训练过程中，图像及其对应的标注被输入到YOLO网络[22]中。网络进而生成边界框、类别概率和置信度的预测。然后，这些预测将使用前述损失函数与真实数据进行比较。这个迭代过程逐步提高模型的目标检测准确度，直到达到总损失的最小值。

FastSAM deployment

一旦YOLO模型训练完成，其边界框将作为后续步骤中FastSAM模型的输入。在处理完整图像时，FastSAM估计实例分割 Mask 。

所有被观察到的物体。因此，不是处理整个图像，而是使用YOLO估计的边界框作为输入信息，将注意力集中在物体所在的相关区域，显著减少了计算开销。其基于Transformer的架构然后深入研究这个裁剪的图像块以生成逐像素的 Mask 。

RGB and Depth matching

RGB-D成像设备通常集成了一个RGB传感器，负责捕捉传统的2D彩色图像，以及一个深度传感器，该传感器整合了左侧和右侧摄像头并配有一个位于中间的红外（IR）投影仪。投影到物理目标上的红外图案会因其形状而扭曲，随后被左右摄像头捕捉。之后，利用两个图像中对应点之间的视差信息来估计场景中每个像素的深度。由FastSAM输出得到的提取片段通过相机的RGB通道中的二值 Mask 来表示。在DS中识别物理目标是通过将两个二值 Mask 和深度帧对齐来完成的（图4）。

picture.image

在这个对齐过程中，需要估计RGB相机和深度传感器坐标系之间的变换，这可以通过校准过程完成，或者基于默认的工厂设定值。一些校准技术，如[55, 56]，可用于提高矩阵估计的准确性。这种变换在数学上由方程式（5）表示。

分别表示对齐深度图像中的深度值和像素坐标。

是原始深度图像中的深度值和像素坐标。

是RGB相机的内参矩阵。

是DS的内在矩阵。

表示 RGB 与 DS 之间的刚体变换。

3D Reconstruction of the physical Object

一旦FastSAM Mask 与深度图对齐，就可以只考虑感兴趣区域（ROI）来重建识别的物理目标在三维坐标中的位置。这个过程包括几个关键步骤，包括：(1) 下采样，(2) 去噪，以及 (3) 为点云中每个识别的目标生成三维边界框。

下采样过程应用于原始点云数据，可以在保留基本目标信息的同时降低计算复杂性。所选择的下采样技术包括

Voxel 化，其中点云被划分为规则的 Voxel 网格，每个 Voxel 只保留一个点[57]。在降采样之后，实施了一种基于统计异常值移除[58]的去噪程序，以增强生成的点云质量。可能由传感器噪声引起的异常值被识别并从点云中移除。最后，在已对齐的FastSAM Mask 中检测到的每个物理目标，在去噪后的点云中生成一个3D边界框。边界框的生成包括创建一组连接沿每个轴的最小和最大坐标的线条。这组线条与去噪点云中目标的位置对齐。生成的边界框提供了检测到的物体在3D空间中的表示。

4 Results and discussion

Setup configuration

在实验研究中，所提出的框架在检测三种常用物理目标（如杯子、电脑和瓶子）上进行了测试。所使用的设置配置总结在表1中。

Data acquisition and annotation

在数据采集步骤中，总共使用了RealSense相机的RGB通道捕获了100张包含常见物体，即一个杯子、电脑和瓶子的图片。所记录的图片包含了所选3D物理物体的几种姿态和光照条件，以确保为模型训练提供一个健壮且全面的数据库。这些图片使用Roboflow标注器为YOLO目标检测模型进行了标注。此外，还应用了数据增强技术来丰富数据集，包括水平翻转、垂直翻转以及角度倾斜（图5）。

picture.image

YOLO training and FastSAM deployment

目标检测的训练已经使用获取的及增强的图像进行。图6总结了训练结果和验证曲线，包括损失函数和，精确度和召回率，以及最终的mAP50和mAP50-95指标。mAP50衡量的是一个模型在不同目标类别上，当预测边界框与真实边界框之间的重叠阈值（IoU - 交并比）设置为50%时的平均精度。mAP50-95是mAP50的扩展，它考虑了从50%到95%的IoU阈值范围，通过考虑更广泛的重叠标准范围来更全面地评估模型的性能。YOLO算法使用最小型的YOLO模型变体_yolov8n_，以0.01的学习率和Adam优化器[59]进行了300轮训练。

picture.image

对于bbox损失（图6-(a)），训练框损失显示出持续下降的趋势，这要求考虑增加更多的轮次。相比之下，验证框损失在大约0.48附近于200轮次时稳定下来，并在之后达到一个平台期。类别损失曲线（图6-(b)）显示出更快的收敛速度，训练和验证的损失曲线都迅速下降。在大约100轮次时，曲线开始稳定，并在后续轮次中显示出轻微的持续下降。观察精确度和召回率（图6-(c)），可以看到这两个参数在大约206轮次时稳定，估计值分别为97.08%和96.94%。至于mAP50和mAP50-95（图6-(d)），这两个指标都在大约170轮次时达到一个平台期，值分别为97.92%和87.9%。

图7-(a)展示了使用预训练的YOLO模型进行目标检测结果，突显了在检测某些物体（主要是瓶子）时的挑战，同时对于另外两个物体——杯子和笔记本电脑——达到了高准确度（平均值为90%）。另一方面，图7-(b)表明，定制训练是检测预训练模型未涵盖特定物体的解决方案，对瓶子的检测准确率至少达到了91%。

picture.image

3D object reconstruction and discussion

生成的 Mask 随后使用默认的realsense参数和K矩阵[60]与深度帧对齐。RGB和深度图像所选的原始分辨率是，这在完全视图重建的点云中产生了大约300k个3D点。在应用FusionVision Pipeline 时，背景被移除，将点数减少到大约32k，并且只关注感兴趣区域的检测，这导致了更准确的目标识别。

在进行3D物体重建之前，点云会经历降采样和去噪流程，以增强可视化和准确性。降采样是通过使用Open3D的 Voxel 降采样方法实现的， Voxel 大小为5个单位。随后，对降采样后的点云应用统计离群点移除，参数设置为：和标准差。这些流程产生了一个精细且去噪的点云，解决了诸如噪声和冗余数据点等常见问题。这个精细的点云为精确的3D物体重建提供了基础。YOLO和FastSAM的实时性能已近似为，因为图像处理涉及三个主要组成部分：预处理（）、运行推理（）以及处理结果（）。

在整合原始、未处理的3D物体点云的3D处理和可视化时，实时性能下降至每秒5帧。因此，有必要进行额外的点云后期处理，包括降采样和去噪。结果在图8中展示。

picture.image

在图8-(a)中，作者可以区分出噪声和错误的深度估计，这主要是由于物体反射率和视差计算不准确造成的。因此，如图8-(b)所示，后期处理提高了3D边界框检测的准确性，同时保持了3D物体的准确表示。

图9展示了不同的处理步骤对从原始点云派生的点分布和目标重建的影响。分析重点关注三种场景：(a)原始点云，(b)降采样点云，以及(c)降采样+去噪点云。在9-(a)中，原始点云在不同目标类别之间显示出相对平衡的分布。值得注意的是，计算机和瓶子类别贡献显著，分别占点的29.8%和17.3%。与此同时，杯子和其它目标占有较小的比例。这个点云存在一些噪声和不准确的三维估计问题。在9-(b)中，原始点云经过的降采样但未去噪，观察到分配给计算机和瓶子类别的点数量有显著减少（分别为4.7%和2.3%）。

picture.image

该技术提高了实时性能，同时保持了目标三维结构的良好估计。在9-(c)中，进一步对下采样的点云进行去噪处理。分布与9-(b)相比相对相似，在电脑和瓶子类别中略有下降（分别为4.3%和1.8%），同时消除了每个检测到的目标点云的噪声。

二维图像处理与三维点云数据的融合显著提高了目标检测和分割的效果。通过结合这两种截然不同的信息源，作者能够消除超过85%的非兴趣点和噪声点云，从而实现对场景中目标的极高准确性和集中表示。这增强了场景理解能力，并使得单个目标的可靠定位成为可能，进而可以用于6D物体姿态识别、3D追踪、形状和体积估计以及3D物体识别的输入。FusionVision Pipeline 的准确性和高效性使其特别适合于自动驾驶、机器人技术和增强现实等实时应用。

5 Conclusion

融合视觉作为一种全面的3D目标检测、分割和重建领域的方法而存在。所概述的融合视觉 Pipeline 包括一个多步骤的过程，涉及基于YOLO的目标检测、FastSAM模型的执行，然后使用点云处理技术将其整合到三维空间中。这种整体方法不仅提高了目标识别的准确性，还丰富了环境的空间理解。通过实验和评估获得的结果强调了融合视觉框架的效率。首先，YOLO模型在一个自定义创建的数据集上进行训练，然后在实时RGB帧上部署。在考虑检测到的目标边界框后，接着在帧上应用FastSAM模型以估计它们的 Mask 。最后，将点云处理技术添加到 Pipeline 中，以增强3D分割和场景理解。这使得在特定物理目标的3D重建中消除了超过85%的不必要的点云。《物体估计的3D边界框很好地定义了空间中3D目标的形状。从角度来看，融合视觉的持续进化可能涉及利用最新的零样本检测器来增强其目标识别能力。此外，对于诸如基于提示的具体目标识别和实时3D重建等操作，研究语言模型（LLM）整合作为一个有前景的未来增强途径。》

Acknowledgments

这项工作得到了EURAMET计划（22DIT01-ViDiT和23IND08-DiVision）的资助，该计划由参与国和欧洲联盟的“地平线2020”研究与创新项目共同资助。

参考

[1].AbstractFusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything.

点击上方卡片，关注「AI视界引擎」公众号