OLIVINE 超越像素级冲突 | 视觉基础模型 VFMs 在图像到激光雷达对比蒸馏中的创新 !

技术

点击下方卡片,关注 「AI视界引擎」 公众号

picture.image

对比图像到激光雷达的知识迁移,通常用于学习同步图像和点云的3D表示,常常面临自我冲突的困境。这个问题出现是因为对比损失无意中分离了那些共享语义标签的不匹配点和平面的特征,损害了学习表示的完整性。

为了克服这个问题,作者利用视觉基础模型(VFMs),这些模型已经改变了像素级语义的获取方式,以增强3D表示学习。具体来说,作者使用现成的VFMs为弱监督像素到点的对比蒸馏生成语义标签。

此外,作者采用冯·米塞斯-费舍尔分布来构建特征空间结构,确保同一类别的语义嵌入在变化多样的输入中保持一致。

此外,作者还调整点的采样概率,以解决空间分布和类别频率的不平衡问题,促进全面和平衡的学习。

广泛的实验表明,作者的方法减轻了传统方法带来的挑战,并在下游任务中一致地超过了现有的图像到激光雷达的对比蒸馏方法。

源代码可在https://github.com/Eaphan/OLIVINE获取。

1 Introduction

激光雷达传感器在3D环境中提供关键信息,对于自动驾驶等应用至关重要。最先进的神经网络已经在点云处理上显示出良好的性能,这依赖于大量的标注数据集。然而,标注点云的过程既耗时又成本高昂,在可扩展性和实用性方面存在重大挑战[31]。自监督提供了一种解决方案,通过利用大量的未标注数据来预训练网络,然后使用较小的标注数据集进行微调。这种方法大大减少了对大量标注数据集的依赖[9]。

学习3D表示的一种流行方法涉及对比像素到点的知识转移,使用同步和校准的图像和点云。PPKT [34]使3D网络能够通过像素到点的对比损失从预训练的2D图像 Backbone 网络中获取大量知识。整个预训练过程无需对图像或点云进行标注。然后SLidR [43]使用超像素对来自视觉连贯区域的像素和点进行聚类,从而产生更有意义的对比任务。在此基础上,Seal [33]利用视觉基础模型生成的富含语义信息的超像素,并在不同时间的点片段上引入时间一致性正则化。同时,HVDistill [62]通过实施融合图像平面和鸟瞰视图的跨模态对比蒸馏进行创新。

不幸的是,现有的对比蒸馏方法受到几个关键限制的影响。

首先,在预训练过程中会出现“自我冲突”问题,其中属于 Anchor 点(超)像素同一类别的(超)像素,如果不直接对应,就被简单地视为负样本(见图1(a))。这种方法忽视了同一类别内的内在语义联系,导致在学习过程中可能忽视有益关系的问题。这个问题被对比损失的内在硬度感知特性放大,这种特性导致来自在语义上最相似的负样本的最显著梯度影响。尽管ST-SLidR [36]引入了语义容忍损失来减轻这个问题,但缺乏强大的高级语义理解并不能根本改变对比损失的内在硬度感知特性。

其次,传统的点像素对采样方法没有考虑类别不平衡或点云密度相对于传感器距离的变化[34]。例如,在nuScenes-lidarseg数据集中,自行车只占1.47%的标注,而可行驶表面占37.66%。这种疏忽可能导致环境表示的偏斜,其中占主导地位的类别或人口密集区域被过度代表,影响模型的有效性和公平性。

picture.image

在这项研究中,作者通过利用监督对比蒸馏增强生成的弱语义标签来解决“自我冲突”问题,这些弱语义标签由VFMs(视觉基础模型)生成。像SAM(Segment Anything Model)这样的VFMs,在广泛的数据集上训练,通过简化获取像素级语义简化了计算机视觉。这些模型非常适应性强,无需重新训练,就能通过指定提示直接导出语义标签。如图1(b)所示,使用这些弱标签,作者将 Anchor 点及其同一类别的对应像素的嵌入拉近,而将 Anchor 点与不同类别的“负”像素推开。此外,由于同一类别的样本在不同批次中的表示可能存在显著差异,作者引入了语义引导的一致性正则化来增强3D表示学习。这种方法通过为每个类别建模一个冯·米塞斯-费希尔分布,并使点特征紧密遵循其各自的分布,来构建特征空间。

考虑到类别不平衡和点云非均匀分布带来的挑战,作者提出了一个考虑点密度和类别频率的密度和类别感知采样策略。这种方法同时考虑了点的密度和其类别的频率。通过调整不同 Anchor 点的采样概率,作者提高了学习到的3D表示的质量,尤其是对于属于少数类别或位于低密度区域的点。

广泛的实验表明,作者的预训练方法在nuScenes和SemanticKITTI数据集上的性能优于最先进的3D自监督学习方法。

这项工作的主要贡献总结如下:

  1. 为了解决“自我冲突”的挑战,作者利用现成的VFMs为弱监督像素到点对比蒸馏生成语义标签。

  2. 作者引入了语义引导的一致性正则化来培养有意义且结构化的特征空间。

  3. 作者开发了一种创新的点像素对采样策略,该策略考虑了点的类别频率和空间密度。

2 Related Work

三维表示学习。 近期在3D自监督学习方面的进展与图像领域的创新密切相关,将这些方法扩展到各种3D场景,如目标级点云,室内场景,以及户外环境。这些技术基于对比学习, Mask 建模[61],以及其他预文本任务[3; 64]。PPKT [34]利用InfoNCE损失,促使3D网络从2D图像 Backbone 网络中提炼丰富知识。Sautier等人[43]开创了超像素到超点对比损失,用于自监督的2D到3D表示提炼。在此基础上,Mahmoud等人[36]通过融入语义容忍对比约束和类别平衡损失,增强了这种方法。Liu等人[33]通过语义感知的空间和时间一致性正则化,进一步改进了这些技术,推进了特征学习。此外,Zhang等人[62]探索了不仅在图像平面,也在鸟瞰视图之间进行跨模态对比提炼。

视觉基础模型。 强大的视觉神经网络的兴起,通过大规模数据集训练[39; 24]或通过前沿的自监督学习方法[6; 10; 19],在社区内催化了重大进步。特别值得一提的是,Segment Anything Model (SAM) [24]在通用图像分割方面开启了一个新范式,展示了在多种下游任务中显著的零样本迁移能力。在此基础上,Grounded-SAM [40]通过融入Grounding-DINO [32]的元素,增强了模型,Grounding-DINO是一个开放集目标检测器,能够在训练期间识别和分类未见过的目标[32]。在作者的工作中,作者利用这些VFM固有的语义感知能力生成弱语义标签,这对于作者的监督对比蒸馏框架至关重要。

3D场景理解。 传统的3D场景理解方法主要利用基于原始点, Voxel ,范围视图,以及多视图融合[17; 56]的范式。尽管这些方法在捕捉详细的环境特征方面很有效,但它们严重受限于对大规模标注数据的依赖。获取和标注这些数据既耗时又成本高昂,限制了3D分割模型的扩展性[31]。为了减少对大规模标注数据集的依赖,近期研究也转向半监督[26; 20],弱监督[30; 13],以及主动学习方法[35; 54]。

3 Proposed Method

图2:作者提出的OLIVINE的整体流程。该流程始于通过可训练的3D Backbone 网络和一个预训练的2D Backbone 网络进行特征提取,随后在公共空间中进行特征对齐。学习由弱监督对比蒸馏驱动,使用粗略的语义标签,自监督的点像素对随机采样蒸馏,以及通过冯·米塞斯-费希尔分布的语义一致性正则化。此外,作者的方法还特点在于新颖的点像素对采样策略,解决了空间和类别分布的不平衡。

picture.image

概述。如图2所示,作者的方法,即OLIVINE,将视觉基础模型与配对的点云和图像进行预训练。特征提取使用可训练的3D Backbone 网络处理点云,以及预训练的2D Backbone 网络处理图像,这些特征随后通过解耦的投影头映射到公共特征空间,用于点像素 Level 和类别 Level 的对比蒸馏。OLIVINE中的表示学习由三个目标驱动:使用粗略语义标签的弱监督对比蒸馏,通过类别识别正样本对;应用于随机采样点像素对的自监督对比蒸馏;以及基于冯·米塞斯-费希尔分布一致性的正则化框架。此外,作者通过针对性的采样策略解决空间分布和类别频率的不平衡,确保在学习过程中的表示平衡。

符号表示。令表示由激光雷达传感器收集的包含个点的点云,表示由个同步相机捕获的多视角图像,其中是高度为、宽度为的单张图像。

Baseline Architecture

作者遵循现有工作[34],执行基本的点对像素对比蒸馏,在此基础上构建作者的整个流程。从点云和图像输入开始,作者为特征提取使用了不同的编码器。三维特征是通过编码器提取的,它处理点云以生成每点的维特征。对于图像特征,作者使用编码器,并用预训练图像模型的权重进行初始化。这种设置通过对比学习促进从2D领域到3D领域的知识转移。对于对比损失的计算,作者设计了可训练的投影头,用于2D特征,用于3D特征,两者都将特征对齐到一个统一的维度空间。具体来说,3D投影头是一个带有-规范化的线性层,将3D特征转换为规范化的维空间。类似地,2D投影头,一个带有11核的卷积层,后面跟着一个双线性插值层,将空间维度调整4倍,也应用-规范化的。

利用校准矩阵,作者建立密集的点对像素对应关系,其中和表示第对的点与图像的配对特征,表示此类有效对的总量。以前的方法通过在特征空间内吸引正对和排斥负对来实现跨模态知识转移,采用InfoNCE损失[38]。点像素 Level 的对比损失定义为

其中是温度因子,是采样的对应点像素对的数量,表示标量乘积,用于测量特征之间的相似性。

Weakly-supervised Contrastive Distillation

现有方法常常错误地将共享语义标签但未匹配的点与像素视为负对。这种做法忽视了同一类别内的内在语义联系,导致在学习过程中可能忽略有益的关系,产生潜在冲突。为了解决这个问题,作者利用Segment Anything Model(SAM),它能够熟练地解释和将文本提示中的语义线索转化为图像的精确语义分割。应用SAM使得作者能够在不需要重复训练的情况下生成高质量的语义标签,从而提高学习过程。作者将这些标签表示为 ,其中每个标签对应一个特定的点像素对。

在点像素 Level 的对比损失中,属于同一类别但不对应给定 Anchor 点的像素被视为负样本(见公式(1))。因此,作者认为用于弱监督对比学习的2D和3D特征,在考虑类别信息时,应与表示单个点和像素的特征 和 不同。为了解决这个问题,作者应用另外两个头 和 来提取语义 Level 的特征嵌入 和 。

对于采样的点和像素,作者使用它们的语义标签来识别正负对。正对定义为共享相同语义标签的点像素特征,而负对是那些标签不同的[23]。弱监督对比损失定义为

其中 表示与第 个点像素对具有相同类别的批次中匹配点像素对的索引集合,而 指的是其基数。

Semantic-guided Consistency Regularization

作者主张在特征空间中构建潜在的语义结构可以增强表示学习。

通过利用从SAM推理得到的语义标签,作者将具有相同语义标签的点组织成连贯的组群。这种分组促进了这些语义类别内的特征一致性,从而稳定了跨不同数据实例的特征表示学习,并产生了结构化的特征空间。

分布假设。 直观地说,由投影头从同一类别提取的点特征在特征空间中应该表现出相似性。为了进行对比学习,这些特征被规范化存在于单位超球面上。

因此,作者将每个类别的点特征建模为冯·米塞斯-费希尔(vMF)分布。这个分布是正态分布在超球面上的适应版本,适用于被限制在超球面上的数据[28]。这里,代表平均方向,而是集中参数,表示类别特征围绕的集中程度。vMF分布的概率密度函数,适用于一个随机的维单位向量,如下公式所示:

其中和。归一化常数定义如下:

其中是一阶的修正贝塞尔函数。当增加时,该分布在均值方向周围的集中度更高,当时,在超球面上呈均匀分布。

参数更新。 特别地,作者在一个两阶段框架中进行语义引导的一致性正则化。首先,作者使用从点云分支提取的特征更新的参数。在训练期间,作者通过EMA(指数移动平均)算法获取特征嵌入的统计值,如下所示:

其中 表示在第 个小批量中类别 的样本均值, 是固定的平滑系数。均值方向 的最大似然估计简单地是归一化的算术平均值:

其中 。浓度参数 可以通过求解以下方程获得:

其中 。Sra [45] 提出了一个简单的方法来估计 :

在训练期间,作者将每个观察点的特征建模为一个球形狄拉克δ分布:

正则化损失函数。 在第二步中,作者可以通过使用Kullback-Leibler (KL) 散度损失,通过将点特征及其对应类别 的分布拉向一致,来执行语义引导的一致性正则化:

总结来说,预训练的整体损失函数写成 ,其中 、 和 是用来平衡这三个项的权重。

Density and Category-aware Sampling Strategy

先前的方法[34]忽视了在对比蒸馏中采样点像素对时空间分布和类别频率的不平衡。为了克服这些挑战,作者引入了一种新颖的采样策略,该策略同时利用了每个点距离激光雷达传感器的距离和其类别的出现频率。首先,作者计算点云中每个点距离激光雷达传感器的距离。然后,作者对这些距离应用核密度估计(KDE)以确定点的空间分布的概率密度函数。对于给定的点,可以根据其距离激光雷达传感器的公式计算其密度:

其中,表示点距离激光雷达传感器的距离,是带宽,是核函数。这种密度估计帮助作者了解点相对于传感器距离的分布密度,这对于解决可能导致学习过程偏倚的高点浓度区域至关重要。

同时,作者评估有效点像素对中每个类别的频率。通过计算每个类别的出现次数,作者可以识别数据集中哪些类别被低估或高估。

结合这两个分析维度,作者将每个点的采样概率定义为与其KDE导出的密度和类别出现频率成反比。从数学上讲,点的采样概率由下式给出:

通过实施这种采样策略,作者旨在确保在对比学习设置中对空间和分类维度进行更均匀的表示。这种方法减少了过拟合于密集点簇或频繁出现类别风险,从而促进更稳健和可泛化的表示学习。

4 Experiments

Experimental Setup of 3D Pretraining

网络架构。 对于图像处理分支,作者使用ResNet-50结构作为核心架构。这个2D主干网络使用在ImageNet数据集上通过MoCov2 [9]预训练的权重进行初始化。为了在保持空间分辨率的同时保留感受野,作者按照既定方法 [43] 将第二个及后续的带步长的卷积替换为扩张卷积。上采样投影头包括一个11卷积层,将通道数从2048减少到64,然后是一个双线性插值上采样层,将规模扩大4倍。这个上采样过程有效地将2D特征图的分辨率恢复到与原始输入图像匹配,具体为416224的大小。

在点云处理分支中,作者采用了两种类型的主干网络。对于3D语义分割任务,作者采用了Sparse Residual 3D U-Net 34 (SR-UNet34) [41],遵循SLidR [43]中之前建立的做法。SR-UNet34的输出提供256个通道,而图像分支输出一个64维的特征图。为了对齐这些维度,在投影头中使用了一个3D卷积层,将点特征的通道数减少到64。作者将3D点数据处理成 Voxel ,作为SR-UNet的输入。 Voxel 以笛卡尔坐标系格式排列,X轴和Y轴范围在[-51.2m, 51.2m],Z轴范围在[-5.0m, 3.0m],每个 Voxel 的大小为(0.1m, 0.1m, 0.1m)。为了全面评估作者的方法,作者预训练并转移了另一个VoxelNet [70]用于3D目标检测任务。

预训练细节。 作者使用动量SGD进行优化,为SR-UNet34和VoxelNet分别设置初始学习率为0.5和0.01,动量为0.9,权重衰减为1e-4。为了调整学习率,作者采用了一种余弦退火调度器 [4],它从初始值逐渐降低到0,共50个周期。3D网络在这50个周期内使用四块NVIDIA-3090 GPU进行预训练,处理总批大小为16,除非另有指定。对于数据增强,作者结合了几种技术。对于点云数据,作者围绕z轴应用随机旋转,随机翻转x和y轴,以及根据[68]中描述的方法省略在随机选择的立方体内的点。对于图像数据,增强包括随机水平翻转和随机裁剪-调整大小操作。在生成弱语义标签方面,作者提供给Grounded-SAM [40]的提示涵盖了总共13个目标类别:屏障、自行车、公交车、汽车、摩托车、行人、交通锥、卡车、道路、人行道、地形、植被和建筑物。

Transfer on Semantic Segmentation

图3:展示了在不同点云预训练策略下,仅在nuScenes上进行预训练并在仅用1%标注数据微调后的视觉结果。为了说明区别,作者将正确预测的区域以灰色标记,错误预测的以红色标记。

picture.image

评估协议。 作者在nuScenes-lidarseg和SemanticKITTI数据集上对学习的表示进行语义分割评估。nuScenes-lidarseg和SemanticKITTI数据集分别包含16和19个语义类别用于验证。作者通过在预训练的主干网络上增加一个3D卷积层作为分割头来修改网络。基本上,作者用不同比例的标注数据对整个网络进行微调。遵循先前的工作[43; 36],作者在SemanticKITTI和nuScenes-lidarseg上分别以批量大小为10和16微调网络100个周期。主干网络和分割头的初始学习率分别设置为0.05和2.0。当使用1%的标注数据时,网络微调100个周期;而对于其他百分比,则微调50个周期。在另一种协议中,作者通过_线性检测_评估学习表示的质量。与微调设置不同,作者在nuScenes-lidarseg数据集上只优化增加的分割头,并保持主干的权重冻结。对于这两种协议,训练目标都是交叉熵损失和Lovasz-Softmax损失[2]的线性组合。线性检测的结果。 在线性检测场景下,作者的方法取得了最高的mIoU 47.30%,超过了先前最先进的方法Seal [33],后者记录的mIoU为44.95%(见表1)。这一性能表明,在不需要额外训练3D主干的情况下,直接从预训练模型提取有用特征取得了显著改进。

picture.image

微调的结果。 对于在nuScenes上的微调,作者的方法一致表现出色,特别是在较小的数据比例上。仅使用nuScenes 1%的训练数据,作者的方法实现了46.12%的mIoU,超过了HVDistill [62]的42.70% mIoU。这一趋势在其他数据比例上持续,作者的方法始终领先或与最佳结果紧密竞争,特别是在5%的数据下57.51%的mIoU和10%的数据下63.04%的mIoU。定性结果在图3中展示。

如表2所示,作者的方法在SemanticKITTI数据集上也取得了最先进的性能。仅使用1%的标注数据,作者的方法实现了47.35%的mIoU,比 Baseline 提高了7.85%。作者还对各种模型在SemanticKITTI数据集上进行微调,以评估它们在不同标注数据可用性下的性能,从低至1%到全部数据利用(见表3)。特别是,仅使用1%的标注数据,作者的方法实现了47.35%的mIoU,比 Baseline 提高了7.85%。随着更多数据的可用,这一趋势持续;在5%的数据下,作者的模型进一步将其领先优势提高到56.5%,反映了10.8%的改进。

picture.image

Transfer on 3D Object Detection

评估协议。在评估作者的3D目标检测预训练模型时,作者使用了两种主流架构:SECOND [59] 和 PV-RCNN [44]。这两种架构都基于VoxelNet 3D主干网络[70],通过3D稀疏卷积处理 Voxel ,并在BEV投影后包括一个2D主干网络进行鸟瞰编码。这两种架构的主要区别在于它们的检测Head。

SECOND直接在2D主干网络上使用区域 Proposal 网络(RPN),而PV-RCNN则用细粒度关键点特征改进RPN预测,提高了边界框精度和估计的置信度。

在微调阶段,作者将SECOND或PV-RCNN的检测Head与预训练的主干网络(VoxelNet)集成在一起。然后,这个集成的检测器在KITTI [18]的训练数据上进行微调,其中包括这些检测器的实现,并遵循OpenPCDet [46]指定的标准训练参数。作者进行了三次独立的微调,并在KITTI验证集上报告了最高的平均平均精度(mAP)。

结果。表4中详细列出的实验结果展示了各种初始化策略的性能。

picture.image

使用SECOND架构时,作者的方法超过了其他预训练技术。从随机初始化的 Baseline 开始,随着更专业的预训练权重(如PPKT和SLidR)的使用,性能持续改进,最终作者的方法在68.3%的mAP达到最高。所有类别都观察到显著的增益,特别是在检测行人和骑车人方面有特别值得注意的改进。同样,PV-RCNN架构也得益于更精细的初始化方法。作者的方法再次在72.8%的mAP@40上获得了最高总体mAP,超过了SLidR的性能。

折衷研究

关键组件的影响。在表5中,作者研究了作者方法中每个添加组件的效果。仅集成弱监督对比蒸馏就显著提高了性能,将线性检测的mIoU提高了5.23%。同样,结合语义引导的一致性正则化也增强了模型性能,为线性检测带来了3.71%的mIoU增长。当这些组件结合在一起时,它们协同作用,为线性检测带来进一步的7.89%的mIoU增益。此外,独立应用密度和类别感知采样也提供了实质性的性能提升。将所有提出的组件集成在一起,最终形成了最优模型,实现了线性检测10.43%的mIoU改进。这项全面的分析强调了每个组件在提高模型分割能力方面的有效性及其集体影响。

picture.image

监督对比蒸馏的潜力。如第3节所述,作者使用SAM预测的伪标签进行弱监督对比蒸馏。利用免费可用的模型,作者的方法学习了有效的3D表示。当作者将弱标签替换为nuScenes-lidarseg数据集提供的 GT 标签时,作者可以在下游任务中获得显著的改进(见表5(a))。这些结果进一步证明了跨模态对比蒸馏监督的有效性以及作者 Pipeline 在更强大的VFMs下的潜力。

解耦投射头的影响。表5(b)中概述的实验结果证明了在作者的模型中使用解耦投射头的效果。这些结果强调了当针对不同任务——特别是自监督和弱监督对比蒸馏——专门化投射头时,性能有显著提升。在nuScenes数据集上实施解耦投射头,mIoU提高了3.53%,这表明模型从训练数据泛化的能力得到了显著增强。同样,对于SemanticKITTI数据集,观察到1.89%的mIoU增益,进一步证实了这种架构修改的好处。

vMF分布的影响。表5(c)中的折衷研究比较了使用确定性(狄拉克δ)和冯·米塞斯-费希尔(vMF)分布来模拟每个类的语义特征,证明了vMF在nuScenes和SemanticKITTI数据集上的明显优势。具体来说,具有可调整浓度参数的vMF分布,与确定性方法相比,在nuScenes上提供了1.97%的mIoU改进,在SemanticKITTI上提供了1.37%的改进。表示不确定性的学习浓度参数有助于通过提供对粗略语义标签不精确性的鲁棒性来减轻过拟合。

Visualization and Analysis

图4所示的T-SNE可视化展示了与基准模型PPKT [34]相比,作者的方法在为每个类别实现更具判别性和良好分离的特征分布方面的有效性。在某种程度上,采用作者的方法,每个类别形成了一个独特的簇,不同类别之间有相对清晰的边界。这种增强的聚类效果凸显了作者的方法的好处,即结合语义监督并在预训练过程中应用语义引导的一致性正则化。

picture.image

5 Conclusion

表6:对关键组件的综合消融研究。作者报告了在nuScenes-lidarseg和SemanticKITTI(S.K.)数据集上用1%的标注数据进行微调的结果。

picture.image

图4:通过PPKT和作者OLIVINE(带有头)提取的点云特征的T-SNE可视化。每个特征根据其在nuScenes数据集上的 GT 语义标签进行着色。

作者介绍了OLIVINE,这是一种利用视觉基础模型进行细粒度图像到激光雷达知识迁移的新方法。作者方法的关键成分是利用从VFMs生成的弱语义标签来避免语义相似的负样本,并解决“自冲突”挑战。

作者进一步利用带有语义引导一致性正则化的语义标签,使得同一类别中的点嵌入在不同输入下保持一致,并产生结构化的特征空间。在各类数据集上的大量实验证实,与现有的图像到激光雷达对比蒸馏方法相比,作者的方法在下游任务中取得了优越的性能。### 数据集和评估指标

NuScenes数据集。 NuScenes数据集是从波士顿和新加坡的驾驶记录编制而成的,利用装有32线激光雷达和其他感测技术的车辆[5]。这个全面的数集配备了自动驾驶车辆上典型的传感器阵列,包括32线激光雷达设置、六个摄像头和雷达系统,确保了360度的环境感知。它包括850个驾驶场景片段,其中700个用于训练,150个用于验证,每个场景持续20秒,每0.5秒提供一次标注。该数据集在多个目标类别上提供了广泛的标注,包括车辆、行人、自行车和路障,每个目标包含在一个3D边界框内,并补充了详细描述可见性、活动和姿态的属性。

NuScenes-lidarseg数据集。 NuScenes数据集现在通过其扩展nuScenes-lidarseg包含了语义和全景分割的特征[5]。这个增强的数据集提供了32个不同类别的语义标注,数据集的关键帧中的每个点都经过了精心标注。作者利用700个带有分割标签的训练场景来完善作者的语义分割模型,并使用验证集中的150个场景来评估模型性能。

SemanticKITTI数据集。 SemanticKITTI(SK)数据集包含来自KITTI城市场景的成对RGB图像和点云数据,专为语义分割任务设计[1]。这个数据集是通过安装在车辆上的传感器收集的,包括超过20万个图像及其对应的点云,跨越21个不同的序列。图像和点云都是对齐的,以保持一致的相对变换。原始图像的分辨率为1241x376像素,每个点云由大约40,000个3D点组成。按照标准做法,数据集被划分为训练集和验证集,其中10个序列用于训练,第八个序列保留用于验证。

KITTI数据集。 KITTI是推进自动驾驶中3D目标检测的关键数据集。它包括7481个训练和7518个测试点云,涵盖了多样化的城市和郊区环境[18]。该数据集包括使用Velodyne HDL-64E激光雷达传感器捕获的3D点云和RGB图像。提供了摄像头和激光雷达之间的校准信息,这对于跨模态知识传递或传感器融合任务至关重要。它使用3D边界框标注,包含常见的目标,如汽车、行人和自行车。数据集被划分为训练(3712个样本)和验证(3769个样本)子集。

评估指标。 在语义分割任务中,通过各个类别的交并比(IoU)和所有类别的平均IoU(mIoU)来评估性能。在3D目标检测中,KITTI数据集上3D检测器的有效性是通过在IoU阈值为0.7的汽车、0.5的行人和0.5的自行车上使用平均精度(AP)指标来衡量的。同样,对于Waymo数据集,评估是基于3D平均平均精度(mAP)。

More Quantitative Results

图6:SemanticKITTI数据集在像素 Level 的类别分布。

picture.image

数据集中的类别不平衡问题。图5和图6的视觉化展示了nuScenes和SemanticKITTI数据集在像素 Level 的类别分布。这些图揭示了显著的类别不平衡问题,这是许多现实世界数据集中的常见挑战,其中一些类别的出现频率远高于其他类别。这种不平衡可能会扭曲训练过程,导致模型在频繁类别上表现良好,而在稀有类别上表现不佳。这种差异主要影响了模型在不同场景中有效泛化的能力,尤其是在代表性不足的场景中,导致有偏预测和整体准确性的降低。例如,像行人或自行车这样不常见但关键的目标可能无法可靠地被检测到,这在安全性至关重要的自动驾驶环境中尤其令人担忧。

picture.image

图7:图像和点云特征的相似性可视化。在第一列中,作者展示了原始图像和图像中 Anchor 点投影。在第二列中,作者说明了在点像素 Level 对比蒸馏过程中,通过传统投影头和提取的3D Query 和2D特征之间的相似性。在第三列中,作者说明了在弱监督(类别感知)对比蒸馏过程中,通过额外的投影头和提取的3D Query 和2D特征之间的相似性。

picture.image

为了缓解这些问题,作者的方法采用了一种优化的采样策略。该策略涉及在训练过程中调整从代表性不足类别中选择样本的概率。通过增加在训练集中包含稀有类别的可能性,作者确保模型不会忽视这些重要但出现频率较低的类别。更广泛的相似性模式,即共享相同类别的点和像素显示出显著更高的特征相似性。这表明作者新提出的投影头在捕获和加强3D和2D域之间的类别 Level 特征关联方面是有效的,从而增强了模型识别在语义上相似但在空间上不同的特征的能力。

在下游任务上的视觉结果。在图8、9、10和11中,作者展示了在下游数据集上进行微调任务的附加定性结果。与使用随机初始化的 Baseline 相比,应用预训练策略显著提高了模型的准确性。值得注意的是,作者提出的OLIVINE优于SLiDR [43],突显了其卓越的分割能力。尽管取得了这些进展,作者注意到在边缘情况下会出现假阳性预测,作者希望在未来的研究中解决这个问题。

picture.image

弱语义标签的可视化。 Grounded-SAM [40]使用目标提示生成的弱标签在作者的处理流程中发挥着至关重要的作用。在审查这些标签时,作者注意到了一些不准确的情况(见图12和图13)。如果未来分割任何模型在鲁棒性和准确性上取得进展,作者提出的3D预训练策略的有效性可能会显著提高。这种进展将增强作者的模型解释和学习细腻环境数据的能力,最终导致更优的表示学习。

picture.image

picture.image

Potential Limitations

尽管作者的方法——OLIVINE——有效地增强了细粒度的图像到激光雷达对比蒸馏过程,并在3D场景理解方面取得了显著的改进,但仍有一些技术和潜在的限制值得注意:

语义标签准确性。 由VFMs生成的弱语义标签的准确性对模型的成功至关重要。这些标签的任何缺陷可能会在整个学习过程中传播,可能在学到的表示中加剧错误。

训练数据多样性。 目前,作者的模型是在单个数据集上进行预训练的,这可能限制了其在训练数据中未充分表示的环境或场景中的应用。将训练扩展到包括具有不同特征的多样化数据集可能会增强作者模型的鲁棒性和泛化能力。

依赖于高质量数据校准。 作者的框架依赖于激光雷达传感器与相机之间精确的校准和同步。在实际应用中,保持完美的同步和校准可能具有挑战性,可能会影响生成的语义标签的准确性和可靠性,进而影响蒸馏过程[43; 33; 62]。

这些限制指出了未来开发和研究的领域,为在多样化、动态环境中的3D场景理解提供更健壮、适应性强和高效的系统指明了方向。

Societal and Environmental Impact

作者的方法——OLIVINE,通过使用视觉基础模型增强图像到激光雷达的对比蒸馏,对社会和环境产生了重大影响。在社会层面,它提升了自主系统的安全性和可靠性,增强了公众的信任,并在各个行业中改进了数据分析。在环境层面,部署先进的深度学习模型需要增加计算资源的使用,这可能导致更高的能源消耗和相关的碳排放。

这在需要高性能GPU和长时间训练的密集训练阶段尤其相关,尤其是在模型扩展到更大的数据集或更复杂的场景时。相反,通过分发作者预训练的模型,作者旨在减少在多个下游任务中进行重复训练的需求,这可以减少在各种应用中实现高性能的整体计算负载和能源消耗。这一方面有可能减轻一些环境成本。

参考

[1].Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动大数据容器化构建与落地实践
随着字节跳动旗下业务的快速发展,数据急剧膨胀,原有的大数据架构在面临日趋复杂的业务需求时逐渐显现疲态。而伴随着大数据架构向云原生演进的行业趋势,字节跳动也对大数据体系进行了云原生改造。本次分享将详细介绍字节跳动大数据容器化的演进与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论