POP-3D | 用图像预测开集3D语义占用，2D-3D歧义&误检不再困难 - 文章 - 开发者社区

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

作者描述了一种从输入2D图像预测开放词汇3D语义 Voxel 占用图的方法，旨在实现3D定位，分割和自由形式语言 Query 的检索。这是一个具有挑战性的问题，因为存在2D-3D歧义和目标任务的开放词汇性，获取3D标注训练数据具有困难。

本工作的贡献有三个方面：

首先，作者设计了一种新的模型架构用于开放词汇3D语义 Voxel 预测。架构包括一个2D-3D编码器、 Voxel 预测和3D-语言头。输出是一个密集的 Voxel 映射，其中包含了3D地面语言嵌入，支持各种开放词汇任务。

其次，作者开发了一种名为“三元”的自监督学习算法，利用图像、语言和LiDAR点云三种模式进行训练，使得可以使用强大的视觉语言预训练模型，而无需任何3D手动语言标注来训练所提出的架构。

最后，作者在几个开放词汇任务上定量地展示了所提出模型的优势：使用现有数据集进行零样本3D语义分割；使用作者提出的小型数据集进行自由形式语言 Query 的3D定位和检索，该数据集作为nuScenes的扩展。

代码：https://vocecant.github.io/POP3D

1 Introduction

在许多应用中，从增强现实到自主机器人车辆，对3D环境的详细几何和语义分析都是基本感知砖。这通常通过摄像头和/或激光扫描仪（LiDAR）进行。在语义3D占用预测的最完整版本中，这种分析等同于将感知到的体积中的每个 Voxel 标记为特定物体类别的占用或空闲。这非常具有挑战性，因为摄像头和LiDAR只捕捉可见表面的信息，这些信息可以从3D投影到2D而不会丢失信息，但并不是3D空间中的每个点。这额外的一维使得预测变得困难，极大地复杂化了手动标注任务。

近年来，例如[26]，一些工作提出了利用人工标注的LiDAR数据来产生3D占用空间的局部标注。然而，依靠点云的手动语义标注仍然具有扩展性挑战，即使数据稀疏，也限制了学习表示只能编码封闭词汇，即有限预定义的类集。在这项工作中，作者解决了这些挑战，并提出了一种开放词汇的3D语义占用预测方法，该方法仅依赖于未标注的图像-LiDAR数据进行训练。此外，POP-3D仅在运行时使用摄像头输入，完全绕过了需要昂贵的密集LiDAR传感器的必要性，这与大多数3D语义感知系统（无论是点级还是 Voxel 级）相反。

为此，作者利用最近在监督3D占用预测和语言-图像对齐方面取得的进展，在两头图像唯一的模型中进行训练，该模型可以利用对齐的图像-LiDAR原始数据进行训练。作者首先训练一个无类别占用预测头，以利用LiDAR扫描提供的稀疏3D占用信息。使用相同的LiDAR信息以及图像中相应位置预训练的语言对齐视觉特征，作者共同训练第二个头，该头预测3D Voxel Level 的相同类型特征。在运行时，这些特征可以从文本提示中获取，以获得预测为占用（图1）的 Voxel 的开放词汇语义分割。为了评估POP-3D在语义3D占用预测方面的有效性，作者引入了一种专门针对这项任务的新评估协议。通过在自动驾驶数据上评估这种协议，POP-3D相对于全监督方法取得了强大的性能。

picture.image

总之，作者用尽可能轻的要求来解决复杂的3D语义占用预测问题：不需要对训练数据进行手动标注，不需要预定义语义词汇，也不需要依赖LiDAR读数在运行时。因此，作者提出的仅使用图像的3D语义占用模型POP-3D（用于3D中的开放语义占用预测）在提供了训练数据可扩展性和操作灵活性的同时，通过语言驱动的场景感知为自主系统开启了新的理解能力。

2 Related work

语义3D占用预测。通过高精度的LiDAR传感器和相应的架构，传统上实现对场景的3D几何和语义的自动理解。语义3D分割，即点云 Level 的分类，可以通过对点云的不同变换来解决：基于点的、直接作用于三维点的和投影基于，作用于不同的表示，例如二维图像或三维 Voxel 表示。然而，它们生成的预测与LiDAR点云一样稀疏，无法完整地理解整个场景。

语义场景补全旨在在给定范围内密集推理物体和表面的3D几何和语义，通常利用输入的深度信息、占用网格、点云或多种模态的混合，例如RGBD。在这个方向上，MonoScene是第一个基于相机的单张图像可以产生密集语义占用预测的方法，通过光学射线相交将图像特征投影到3D Voxel 中。最近的多摄像头鸟瞰视角（BEV）投影使得最近TPVFormer可以有效地利用三个视角的视角表示生成周围的3D占用预测，通过两个额外的垂直平面来恢复完整的3D。所有先前的方法都是通过监督方式训练的，需要丰富的 Voxel 级语义信息，这需要花费大量的时间来整理和标注。虽然作者基于[26]，但作者放弃了手动标签监督，而是开发了一种可以从LiDAR和图像语言模型中获得语义3D占用预测监督的模型，使得POP-3D可以在 Voxel 空间中获取开放词汇技能。

多模态表示学习。将一种模态的信号和知识转换为另一种模态是一种有效的策略，可以学习表示或仅使用少量或没有人类标签来解决任务。图像、语言和声音之间的交互经常用于在大规模未标注数据集上进行自监督表示学习。图像可以与不同的模态配对，以解决复杂的2D任务，例如语义分割，道路目标的检测或声音发生目标的检测。

图像-语言对齐模型将图像和文本投影到共享的表示空间。在数百万图像-文本对上的对比图像-语言学习可以导致从一种模态到另一种模态的高质量表示，并具有令人印象深刻的零样本技能。作者使用CLIP是因为其具有吸引人的开放词汇特性，可以利用自然语言 Query 视觉内容，以识别感兴趣的目标而无需手动标签。POP-3D使用LiDAR监督进行精确的占用预测，并学会在3D空间中轻松生成与语言配对的CLIP类似特征。

开放词汇语义分割。零样本语义分割旨在在训练期间未见过的目标类别中进行分割。CLIP的的出现，它是在丰富的网络数据上进行训练，已经激发了被称为“开放词汇”的新一代方法，通过自然语言 Query 来识别随机目标。CLIP特征可以投影到3D网格和NeRFs中，以实现语言 Query 。

最初，CLIP产生的是图像 Level 的嵌入，可以通过从分割数据集中利用不同形式的监督，例如像素级标签或类无关的掩码，与区域词的词义接地扩展到像素级预测，但是可能会忘记最初学习的概念。MaskCLIP+ 调整了CLIP的注意力池层，生成像素级的CLIP特征，这些特征进一步提炼到编码器-解码器语义分割网络中。MaskCLIP+保持了CLIP的开词汇特性，作者在这里将其知识提炼到POP-3D中。作者通过将MaskCLIP+像素级特征映射到图像中的LiDAR点，生成目标3D CLIP特征。通过训练匹配这些提炼目标，POP-3D成功地学习到具有开放词汇感知能力的3D特征，相比之下，以前在3D占用预测方面的研究是有限的，只能识别一个封闭的视觉概念集。

3 Open-vocabulary 3D occupancy prediction

作者的目标是预测给定一组2D输入RGB图像的环境的3D Voxel 表示，这些图像适用于开放词汇任务，例如零样本语义分割或由自然语言 Query 驱动的概念搜索。这是一个具有挑战性的问题，因为作者需要回答以下两个问题。首先，如何处理2D到3D的歧义和任务的开放词汇性质？其次，如何在不要求对大量3D Voxel 数据进行手动标注的情况下，将学习问题形式化，这些数据非常难以产生。

为了回答这些问题，作者提出了两个创新：

首先，设计了一个用于开放词汇3D占用预测的架构（图2（a）和第3.1节），该架构处理2D到3D预测和开放词汇任务，有两个专门的 Head 。
其次，作者将其训练作为一个“三元自监督学习”问题（图2（b）和第3.2节），该问题利用对齐的（i）2D图像，（ii）配备了预训练语言图像特征的（iii）3D点云作为三个输入模式（即摄像头、LiDAR和语言）的自监督学习，而无需任何显式的手动标注。

picture.image

Architecture for open-vocabulary 3D occupancy prediction

作者给定一组从单个相机位置获取的环绕视图图像，作者的目标是输出一个3D占用 Voxel 图并支持语言驱动的任务。为了达到这些目标，作者提出了一种由三个模块（图2（a））组成的架构。首先，一个 2D-3D编码器 从输入图像中预测一个 Voxel 特征网格。其次，_占用头_ 将这个整个 Voxel 网格解码为一个占用图，预测哪些 Voxel 是自由的，哪些是占用的。最后，_3D-语言头_ 应用在每个占用的 Voxel 上，输出一个强大的语言嵌入向量，以支持各种3D开放词汇任务。接下来，作者将描述这三个模块。

2D-to-3D编码器。 2D-to-3D编码器的目标是给定一个或多个在同一位置捕获的图像，预测一个密集的特征 Voxel 网格。输出 Voxel 网格表示编码了由摄像头捕获的3D视觉信息。

具体而言，给定环绕视图摄像头RGB图像和摄像机校准参数，编码器产生一个特征 Voxel 网格，其中包含由摄像头捕获的3D视觉信息。

其中，和分别表示 Voxel 网格的空间维度，是每个 Voxel 的特征维度。然后将这个特征 Voxel 网格传递到两个不同的预测头中，分别用于执行 无类别占用预测 和 文本对齐特征预测 任务。接下来，作者将描述这两个 Head 。

占用头。 对于特征 Voxel 网格，占用预测头的目标是将每个 Voxel 分类为 '空' 或 '占用'。这个头被实现为一个非线性网络，由个隐藏块组成，每个块的配置为线性-软plus-线性，每个块具有个隐藏特征，并输出一个线性分类器的输出张量，每个类别一个 logit。它输出的张量为一个占位符。

包含每个 Voxel 的占用预测。

3D语言头。 同时， Voxel 网格被传递给一个语言特征提取器。这个头处理每个 Voxel 特征，并输出一个与视觉语言表示对齐的嵌入向量，例如CLIP，以继承其开放词汇能力。这使作者能够解决在监督3D占用预测模型中遇到的封闭词汇预测的限制，这些模型受到一组预定义的视觉类别的限制。

相比之下，作者的表示使作者能够执行3D语言驱动的任务，例如零样本3D语义分割。与占用头类似，3D-语言头由个块组成，每个块的配置为线性-软plus-线性，其中每个线性层输出个特征，并输出一个维度的视觉语言嵌入，每个 Voxel 。它输出的张量为一个占位符。

包含每个 Voxel 预测的视觉语言嵌入。

Tri-modal self-supervised training

目标是训练第3.1节描述的网络架构，以预测3D占用图以及每个占用 Voxel 的语义感知特征。这将使得3D开放词汇任务得以实现，例如3D零样本分割或由自然语言驱动的搜索。主要的挑战是获取适当的3D-地面语言标注，这需要手动进行，而且成本高昂。

相反，作者提出了一种三元自监督学习算法，利用图像、语言和激光点云三种模式。具体来说，作者使用一个预训练的图像-语言网络为输入图像生成图像-语言特征。这些特征然后通过注册的激光点云映射到3D空间，结果是3D-地面图像-语言特征。这些地面特征作为网络的训练目标。训练算法如图2（b）所示。训练通过两种用于联合训练提出架构的两个 Head 的损失来实现，同时使用2D-to-3D编码器。详细信息如下。

占用损失。 作者指导占用头通过可用无标签激光点云进行无类别占用预测，作者将这些点云转换为占用预测目标。每个 Voxel 位置包含至少一个激光点，将其标记为 '占用'（即），否则标记为 '空'（即）。有了这些目标，作者在 Voxel 网格的所有位置上对占用预测头进行密集监督。占用损失是交叉熵损失和Lovasz-softmax[6]损失的组合：

其中，是预测的占用张量，是相应的占用目标张量。

图像-语言蒸馏。 与占用预测头在 Voxel Level 上密集监督不同，在点上监督 3D-语言头，其中投影到至少一个摄像机，即，其中是完整的点云。这是为了从语言图像预训练模型中获得特征目标。

为了在 Voxel 特征网格中的3D点处获得特征目标，使用已知的相机投影函数将3D点投影为2D点，其中是相机中点的坐标。

这样，得到一组在相机坐标系中的2D点。为了获得与中相应2D投影的3D点对应的特征目标，在相机的图像上运行语言图像对齐特征提取器，并使用2D投影的坐标来从结果的特征图上采样，即

其中是从提取的特征图中的索引运算符。

为了训练3D语言头，使用目标和从为中中的3D点位置计算的预测特征之间的均方误差损失：

其中是弗罗贝尼乌斯范数。

最终损失。 整个网络的最终损失是占用损失和图像-语言损失的加权和。作者使用一个单一的超参数来平衡两个损失的权重：

3D open-vocabulary test-time inference

一旦训练完成，如第3.2节所述，POP-3D在测试时支持不同的3D开放词汇任务。作者关注以下两个：（i）零样本3D语义分割和（ii）由自然语言驱动的3D定位。

从图像中进行零样本3D语义分割。 给定一个输入测试图像，由POP-3D产生的3D-语言对齐 Voxel 特征支持零样本3D语义分割，该目标集通过输入文本 Query （提示）指定（如图1所示）。与需要重新训练的监督方法不同，POP-3D只需要训练一次模型。作者可以通过提供不同的输入文本 Query 轻松地调整分割类的数量。

具体而言，在测试时，作者按照以下步骤进行：首先，将一组来自同一位置的测试环绕视图图像输入到训练好的POP-3D网络，通过占用头得到无类别占用预测，通过3D-语言头得到语言对齐特征预测。接下来，如[22]所述，作者使用预定义的模板为每个文本 Query 生成一组 Query 句子。这些 Query 输入到预训练的语言图像编码器，得到一组语言特征。作者计算这些特征的平均值，以获得每个 Query 一个单独的文本特征。最后，考虑到个这样的平均文本特征，每个对应一个分割类，作者测量它们与从预测的占用 Voxel 获得的占用 Voxel 的相似度。作者将与预测的语言对齐特征最高的相似度分配给每个占用 Voxel 。

语言驱动的3D定位。 语言驱动的3D定位的任务以类似的方式进行。然而，在这里，只给出一个输入语言 Query 。一旦确定从的占用 Voxel ，作者计算通过语言图像编码器编码的输入文本 Query 与占用 Voxel 上预测的语言对齐特征的相似度。得到的相似度分数可以可视化为一张热力图，如图1所示，或者阈值化以获得目标 Query 的位置。

4 Experiments

本文研究了架构设计选择，并演示了所提出方法的能力。首先，在4.1节中，作者描述了实验设置，特别是数据集、指标、提出的评估协议和实现细节。然后，在4.2节中，作者将POP-3D与最先进的现状进行比较。接下来，在4.3节中，作者研究了训练超参数的敏感性，并最终在4.4节中展示了定性结果。

Experimental setup

作者在自动驾驶数据上测试所提出的方案，这是一个具有挑战性的测试床。

数据集。 作者使用 nuScenes 数据集，该数据集由总共1000个序列组成，分为训练/验证/测试划分，其中训练/验证/测试部分分别为700/150/150个场景。每个序列包括30-40个场景，总共有28,130个训练场景和6,019个验证场景。

数据集提供3D点云，这些点云是通过32-beam LiDAR捕获的，环绕视图图像是从汽车的顶部安装的六个摄像头获得的，3D点云和摄像头之间的投影矩阵。LiDAR点云被标注为16个语义标签。当使用完整的子集进行ablation时，作者按时间戳对场景进行排序，并每隔个场景取一个，例如在50%的子集中，每隔第二个场景取一个。

评估指标。 为了评估POP-3D在3D占用预测任务上的性能，作者需要将LiDAR的点 Level 语义标注转换为 Voxel Level 的标注。作者通过在每个 Voxel 中取最频繁的标签来实现这一点。因为作者目标是语义分割，所以作者的主要指标是平均交并集（mIoU），作者将在下一节中提出的评估协议中使用它。

此外，作者测量了无类别占用的交并集（IoU）。对于检索基准，作者报告每个 Query 的平均精确度（AP），其中所有 Query 的平均精确度（mAP）的整体平均值。

新的开放词汇语言驱动3D检索基准。 为了评估检索能力，作者收集了一个名为“自然语言 Query 的3D定位与检索基准”。为了构建这个基准，作者在nuScenes数据集的不同分割中为一系列自然语言开放词汇 Query 标注了3D场景的 GT 空间定位。该集合总共包含105个样本，分为nuScenes数据集的训练/验证/测试分割的42/28/35个样本。给定 Query ，目标是检索LiDAR点云中的所有相关3D点。结果使用精确度-召回曲线评估；负数据是在给定场景中的所有非相关3D点。为了评估目的，作者在验证和测试分割的合并集（63个样本）上报告数字。

为了标注3D检索的 GT ，作者（1）手动为图像域中的相关目标提供边界框，（2）使用作者手动边界框引导的Segment Anything模型生成这个目标的二进制掩膜，（3）将LiDAR点云投影到图像中，并将每个3D点分配一个对应于其在二进制掩膜中的投影的标签。此外，作者使用HDBSCAN[40]过滤在图像中投影到掩膜但实际上不属于目标的点。这解决了投影引起的精度问题。

新的3D占用预测评估协议。 3D占用预测是一个相对较新的任务，还没有建立好的评估协议。TPVFormer没有引入任何评估协议，并只提供了定性结果。由于LiDAR点云只有语义标签，即不在目标 Voxel 空间中，评估起来具有挑战性。由于 Voxel 语义分割包括 Voxel 网格的占用预测和已占用 Voxel 的分类，仅在LiDAR的 GT 点上评估是不够的，因为这不考虑自由空间预测。

为了应对这个问题，作者受到[7]的启发，并 Proposal 从可用的LiDAR点云中获取评估标签，如图3所示并如下所述。首先，LiDAR射线穿过3D空间，将交点 Voxel 的标签设置为“自由”。其次，包含LiDAR点的 Voxel 被分配为（在类别无关评估中为“占用”）在（或称为“占用”的）最频繁的语义标签。第三，在评估期间，所有其他 Voxel 都被忽略，因为任何LiDAR射线都没有观察到它们，作者不确定它们是否被占用。

picture.image

实现细节。 作者使用最近的TPVFormer作为2D-3D编码器的 Backbone 。它接受输入的环绕视图图像，并产生一个大小为的 Voxel 网格，对应于汽车周围的体积。

对于语言图像特征提取器，使用MaskCLIP +，它提供维度为的特征。如果没有特别提到，作者使用默认的学习率，Adam优化器，以及一个从学习率开始，最终学习率为的余弦学习率调度器。作者在8个A100 GPU上训练POP-3D。作者在编码器的图像 Backbone 中使用ResNet-101，并在输入上使用全尺度图像。

两个预测头都有两层，即，和特征通道。在这种架构设置下，作者在nuScenes训练数据中的100%上训练POP-3D，共12个周期。作者将占用和特征损失赋予相同的权重，即在等式8中设置。作者在第4.3节中验证这些选择。

Comparison to the state of the art

以下作者将POP-3D与四种相关的技术进行比较：

全监督（封闭词汇）TPVFormer，以及以下三种基于图像的开放词汇方法，
MaskCLIP+
ODISE
OpenScene，这些方法在推理时需要输入3D LiDAR点云。

请注意，与2-4相比，POP-3D不需要（1）在图像或点云领域进行强大的手动标注，或者（2）在推理时需要输入点云。接下来的细节将给出。

与全监督TPVFormer的比较。 在图3（b）中，作者将作者的结果与全监督TPVFormer在nuScenes验证集上的无类别IoU和（16+1）类mIoU（16个语义类别加上“空”类别）进行了比较。

有趣的是，POP-3D在无类别IoU方面比其监督对应物提高了11.5个点，这表明在占用空间的预测方面具有优势。这可以归因于两种方法训练方案的不同：在完全监督的情况下，_空_类与其他语义类别竞争，而在作者的情况下，占用头仅执行无类别占用预测。

接下来，对于（16+1）类语义占用分割，作者可以看到作者的零样本方法达到了约78%的监督对应物性能，作者认为这是一个强大的结果，因为后者需要手动标注的点云进行训练。相比之下，POP-3D是零样本的，并且不需要在训练时进行任何手动点云标注。这些结果为语言驱动的只有视觉的3D占用预测和语义分割在汽车应用中奠定了基础。作者在图5和补充材料中展示了POP-3D方法的结果。

picture.image

与MaskCLIP+的比较。 在图3（a）中，作者将POP-3D学习的3D视觉语言特征的质量与强大的MaskCLIP+ Baseline 进行了比较。具体来说，作者将3D LiDAR点投影到2D图像（s）空间，从投影位置的2D图像中提取MaskCLIP+特征，并通过LiDAR射线将这些提取的特征反投影回3D。请注意，MaskCLIP+特征在作者的三元训练中用于表示语言模态。

因此，直接将MaskCLIP+特征转移到3D是很有趣的，作者将在本文中评估POP-3D相对于MaskCLIP+的优劣。为了公平比较，作者只评估投影到相机的LiDAR点，即这个评估只考虑3D点的分类，而不考虑占用预测本身。作者称之为LiDAR mIoU。POP-3D优于MaskCLIP+（ vs. mIoU），即POP-3D在不需要LiDAR数据的情况下，比其教师学习得更好的3D视觉语言特征。最后，图3（a）显示，POP-3D达到了完全监督模型的约84%。

与需要额外监督的开放词汇方法比较。 此外，作者将POP-3D与需要手动监督的ODISE和OpenScene进行比较，这两种方法在训练期间都需要手动监督。ODISE需要提供panoptic分割标注进行训练，而OpenScene使用LSeg或OpenSeg中的特征，这两种图像-语言编码器都是通过手动提供的分割掩码进行监督训练的。作者使用OpenSeg报告结果。如图3（b）所示，这些方法表现最好，这可以归因于训练期间可用的额外手动标注。

开放词汇语言驱动检索。 给定搜索目标的文本 Query ，目标是在给定场景中检索所有属于该目标的3D点。在评估期间，为了获取LiDAR点与 Query 文本描述的相关性，作者采用与零样本语义分割任务相同的策略，即 pass 图像到POP-3D，得到与文本对齐的特征，并计算它们与给定文本 Query 的相关性。这为场景中的每个3D点计算一个分数。

在理想情况下，属于目标目标的点应该具有最高的分数。作者将POP-3D与MaskCLIP+进行比较，并报告结果在图3（c）中。POP-3D在mAP方面优于MaskCLIP+，达到18.4 mAP，而MaskCLIP+得到mAP为14.9。

Sensitivity analysis

在这里作者研究了POP-3D对各种超参数的敏感性。除了特别说明外，作者使用一半分辨率的输入图像，即450x800，ResNet-50 Backbone ，并在使用nuScenes训练数据的50%上训练6个周期。

picture.image

损失权重。 在表1(a)中，作者研究了模型对中的敏感性。作者发现模型的性能对不敏感。默认为。

输入分辨率和图像 Backbone 。 在表1(b)中，作者进行了以下实验：

使用一半的输入图像（450800）或全尺寸的输入图像（9001600）；
使用ResNet-50（RN50）或ResNet-101（RN101）作为图像 Backbone 。

遵循[26]的方法，RN50初始化自MoCov2权重，RN101初始化自FCOS3D权重。作者发现，在输入分辨率较小的情况下，使用RN101 Backbone 更好（全分辨率更好）。

预测头深度。 在表1(c)中研究了控制占用预测头和3D语言头上的隐藏层数和超参数的影响，使用RN101作为 Backbone 。作者发现，两个预测头的深度并没有发挥重要作用，并且保持相同较好，即。因此，在作者的实验中，选择使用，因为它表现良好且计算资源需求较少。

Demonstration of open-vocabulary capabilities

在图6中，作者提供了使用文本 Query （如“建筑门”和“轮胎”）在场景中进行基于语言的3D目标检索的视觉化示例。为了方便场景中的方向定位，绿色方框表示参考物（汽车）的位置。结果表明，POP-3D可以在3D空间中定位细粒度的语言 Query 。

picture.image

局限性。首先，由于 Voxel 网格的低空间分辨率，POP-3D在发现小物体方面表现不佳。这不是方法的问题，而是目前使用的 Backbone 架构和输入数据的问题。其次，作者的架构不支持以图像序列作为输入，这可能对考虑由于场景中物体的相对运动而出现的遮蔽物体和区域具有优势。

5 Conclusion

在本文中，作者提出了一种名为POP-3D的三元自监督学习策略，该策略具有新颖的架构，可实现从2D图像中进行开放词汇 Voxel 分割，同时显著提高占用网格估计。POP-3D还超过了直接将2D视觉语言特征通过LiDAR反投影到3D的强基准，且不需要在测试时使用LiDAR。这项工作开启了由自然语言驱动的大规模开放词汇3D场景理解的可能性。

Appendix A Text queries for zero-shot 3D occupancy prediction

本文探讨了为特定真实类别分配文本 Query 对语义分割的影响。

为了简化对语言提示影响分析的研究，作者研究了MaskCLIP+特征，作者也将这些特征用作作者的训练目标。这种选择使作者能够揭示这些特征的能力。使用nuScenes数据集，作者将MaskCLIP+与LiDAR点对齐的特征投影到相应的LiDAR点。

为了测量mIoU，作者在nuScenes验证集的25%子集上评估POP-3D。需要注意的是，为了进行公平的比较，作者仅计算具有相机投影的点的mIoU（其他LiDAR点无法与MaskCLIP+相关联的特征）。

用于零样本语义分割的语言 Query 。 为了获得语言引导的零样本语义分割任务中的文本 Query ，作者利用nuScenes数据集中每个子类的文本描述（子类的名称在Tab.2的第一列中）。作者将这些描述解析为一个子类的 Query 集合（每个子类）并显示在Tab.2的最后列中。作者对数据集中的所有标注类别（第二列）都进行这种处理。

有限类别实验。首先，作者进行一个受控制的实验，该实验使用nuScenes数据集中描述的五个类别，这些类别的名称为'car','drivable surface','pedestrian','vegetation'和'manmade'。作者称这个特定的设置为原始-5，并忽略其他类别，以便进行本研究。例如，类名'manmade'缺乏描述的准确性。在'manmade'类的文本描述中，作者可以找到..."建筑物，墙壁，围栏，栅栏，杆子，街道标志，交通信号灯..."等。作者对nuScenes数据集中的许多类名也进行了类似的观察。这个观察突显了仅依赖类名来指导基于文本的 Query 的局限性。

为了研究并解决这个问题，作者引入了两个额外的设置，分别是manmade-5和pedestrian-5。在manmade-5中，将'manmade'类的类名替换为'building'，而在pedestrian-5中，使用'person'代替了'pedestrian'。Tab.3上半部分呈现的结果证明了这些更改的有效性。

具体来说，将'manmade'替换为'building'提高了该类别的IoU从17.4到45.1，而使用'person'代替'pedestrian'则提高了该类别的IoU从1.3到14.6。这些发现突显了原始类名作为文本 Query 的次优使用。

训练类实验。 在以上发现的基础上，作者将研究扩展到nuScenes数据集中使用的全部16个类别。作者进行了两个设置的实验：

原始-16，该设置使用nuScenes数据集中的原始训练类名；
描述-16，在这里作者利用nuScenes数据集中为每个类别提供的详细文本描述（作者将在下一段中详细说明这个设置）。

通过利用nuScenes数据集中提供的文本描述，作者可以为每个单独类别生成更具信息性和描述性的 Query ，如Tab.2所示。该表呈现了nuScenes数据集中标注的32个（子）类别，以及它们映射到训练类和相应的派生 Query 。Tab.3的下半部分展示了修改nuScenes数据集中每个类别关联的文本 Query 的影响。作者观察到这个简单的调整显著提高了mIoU，从10.2提高到23.0，突显了 Query 选择的的重要性。基于这些结果，作者在主论文中使用了描述-16设置。

结果表明，通过仔细调整文本 Query ，可以进一步改进性能。然而，作者的论文的重点并不在于探索 Query 调优，因此，作者没有深入研究这个方向。

使用派生的描述进行分割。 为了利用Tab.2中呈现的派生 Query ，作者首先将32个子类别映射到nuScenes数据集中的16个训练类别（请注意，Tab.2中的“训练类别”列中有一些子类别被标记为“忽略”，表示在评估期间实际上被忽略了）。例如，考虑训练类别'pedestrian'，与之相关的子类别是'adult pedestrian'，'child pedestrian'，'construction worker'和'police officer'。

作者使用每个子类别的派生文本描述（Tab.2中的第三列）作为'pedestrian'训练类别的文本 Query ，结果如下：[[成人，孩子，建筑工人，警察]].

picture.image