上海AI Lab&大连理工&山东大学提出Uni3D-LLM | 点云场景中整合3D感知、生成和编辑任务 - 文章 - 开发者社区

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

在本文中，作者介绍了Uni3D-LLM ，一个统一的框架，它利用大型语言模型（LLM)在点云场景中整合了3D感知、生成和编辑任务。这个框架使用户能够轻松地在场景内的指定位置生成和修改目标，并指导用户使用自然语言描述的多样性。Uni3D-LLM 利用自然语言的表达能力，允许对3D目标的生成和编辑进行精确控制，从而显著提高了操作灵活性和可控性。

通过将点云映射到统一表示空间，Uni3D-LLM 实现了跨应用的功能性，能够无缝执行从精确实例化3D目标到满足交互式设计多样化需求等一系列任务。通过一系列严格的实验，验证了Uni3D-LLM在理解、生成和编辑点云方面的有效性。

此外，作者还评估了在生成和编辑过程中集成点云感知模块的影响，证实了作者的方法在实际应用中具有巨大的潜力。

1 Introduction

近年来，多模态大型语言模型（MLLMs）在自然语言处理和计算机视觉领域取得了重大进展。MLLMs强大的语言能力使它们能够处理各种文本和视觉任务。广泛的研究工作已经证明了MLLMs将自然语言与多种模态（包括图像和点云）结合起来的能力。这种融合技术的进步为应用带来了巨大的潜力，例如精确的空间分析、增强现实中的增强互动体验以及自动设计。

picture.image

目前，已经有一些方法尝试使用多语言学习模型（MLLMs）将附加功能集成到3D场景中。这些工作可以分为三大类，即直接嵌入，2D到3D映射和预对齐。对于直接嵌入方法，PointLLM 利用预训练的编码器直接将点云特征嵌入到文本空间中，这有助于详细的物体描述和分类任务。对于第二类方法，3D-LLM 通过生成不同视角的渲染图像来重建3D特征。这些重建的特征与文本数据对齐，并用于室内场景设置中的视觉问答（VQA）、规划和对话等任务。第三类方法，如Point-Bind 的工作所示，通常将点云与其他多模态数据集中的模态（如图像）进行对齐。随后，采用针对特定任务的 Head 进行文本交互和目标生成。这些探索性方法为将附加功能集成到3D场景中提供了有价值的见解和实际方法。

然而，先前的方法仍然存在某些局限性:

首先，虽然直接将点云与文本对齐看起来很简单，但对于LLM来说，准确识别和理解点云的空间信息提出了挑战。这个限制制约了其生成精确的场景级解释和描述的能力。
其次，尽管从2D到3D的转换可以重建3D特征，但在处理从不同视角捕获的图像时，可能会遇到正射遮挡问题。因此，这可能导致3D场景重建不完整，以及原始点云特征的利用不足。
第三，尽管Point-Bind能够将点云与其他模态对齐，但它仅限于实现目标级的对齐。与其他模态在场景 Level 对齐点云提出了一个重大挑战。此外，Point-Bind将LLM和生成模型视为独立的下游任务，忽略了LLM中固有的深度语义理解对生成过程可控性的关键影响。

尽管一些初步尝试利用大型语言模型（LLM）进行点云任务的进展已经取得，但它们都没有考虑将3D感知、生成和编辑整合到一个统一框架中。现有方法在完成这一系列任务时面临重大挑战，包括支离破碎的处理工作流程、低效率，以及没有利用LLM丰富的语义知识来自由生成更多内容。但这些挑战不仅涉及提升3D场景的感知能力，还包括弥合不同模态和任务之间的差距，以及将大型语言模型（LLM）丰富的语言信息有效整合到生成模型中。这些不足凸显了在3D感知、生成和编辑中统一应用LLM的重要性。

一个统一框架不仅解决了传统3D感知和生成任务的局限性，还大大提高了协同工作和整体效率。通过单一训练方案，各种场景的相互增强变得可能。在文本到3D生成中，LLM可以利用丰富的语义信息来指导生成过程。此外，它们在感知方面的进步为更精确的生成和编辑提供了坚实基础。此外，这一统一框架促进了不同任务之间的互动，使得在复杂项目中能更高效地进行迭代和细化。

在本文中，作者介绍了一种名为Uni-3DLLM的新颖统一框架，旨在通过利用大型语言模型（LLMs）来增强对3D环境的理解和处理。Uni-3DLLM不仅专注于使LLMs深入探究3D环境的细节，还利用它们的语言能力来指导3D内容的生成。在这个框架内，作者提出了一个由LLM引导的3D生成和编辑方法。通过整合场景点云和图像信息，并将它们与文本对齐，作者完成了点云的感知任务。

为了促进准确的生成，作者设计了一个信息映射模块，将LLMs的丰富语义特征传递给生成模型。随后，通过从不同角度迭代更新原始3D模型使用修改后的渲染图像，作者获得了新的编辑版本。作者提出的模型在不同的场景中表现出灵活性，并使得在生成和编辑过程中都能有效地相互增强。

在Uni3D-LLM框架内，为了获得更好的场景级点云特征，作者用场景中每个目标的特征组合和整合来替换原始点云。此外，作者利用各种强大的图像编码器来提取点云场景的俯视图特征，并将它们嵌入到文本空间中。在生成任务中，为了使生成模型理解LLM的语义，作者在语言描述的末尾引入了额外的可学习生成标记。这些标记通过作者的映射块进行转换，使生成器能够生成可理解的信号。LLM中包含的世界知识使作者的方法能够生成和编辑目标，即使用户描述粗糙或模糊。

在训练阶段，为了连接感知、生成和编辑，作者采取了两阶段的方法。首先，作者将生成映射模块整合到LLM中，并冻结LLM。然后，作者使用参数高效微调（PEFT）训练LLM来访问点云的信息特征。这种策略有效地防止了灾难性遗忘，确保了整个训练过程中的健壮和连贯学习。

Uni3D-LLM的贡献总结如下：

一个使用LLM处理多个3D任务的统一框架。 作者首次尝试利用LLM来统一各种3D任务，包括3D目标生成、编辑、3D感知、3D视觉定位，以解决用户意图通过语言传达与3D任务执行之间的脱节问题，提供一种更为自然流畅的交互模式。
多模态信号对齐。 作者开创性地使用了点云和额外的图像，在精心设计的、针对特定模态的投影仪辅助下，将异构的文本、图像和点云信号映射到一个共同的标记空间。提取的多模态标记被送入LLM以生成丰富的语义特征，这些特征随后被送至针对特定任务的结构中，以产生所需的输出。
多任务协同作用。 作者进行了广泛的实验来验证统一各种3D任务所产生的协同效应，并为此后构建3D基础模型铺平道路。

2 Related Work

Multi-modal Large Language Model

随着大型语言模型（LLM）的影响力和可获取性持续增长，越来越多的研究致力于将预训练的LLM扩展到处理多模态理解任务。一些研究已经探索了使用大量的图像-文本对从零开始训练模型，并将它们应用于下游任务，如视觉问题解答（VQA）、图像字幕生成和粗/细粒度理解，然后进行微调。其他研究行人将预训练的视觉模型与预训练的LLM连接起来，并融入了像QFormers这样的额外映射模块。这种方法利用了预训练视觉模型的感知能力和LLM的推理和泛化能力。

在作者的工作中，由于许多研究已经证明了LLM在图像中具有强大的感知能力，作者使用两种编码器（图像和点云）与文本对齐，以帮助获取点云信息并增强LLM对点云的空间理解。

3D Object Generation

三维生成是一项旨在从不同的输入（如文本、图像、草图或点云）创建真实且多样的3D模型的任务。这项任务具有挑战性，需要对3D物体的形状、结构、纹理和语义有深入的理解。目前主要的方法包括参数化方法和非参数化方法。参数化方法使用预定义的模板或基元来表示3D形状，例如 Voxel 、网格、点云或隐式函数。

这些方法能够生成高分辨率和高保真的平滑连续3D模型。然而，这些方法也有限制，比如计算成本高、拓扑固定或处理复杂几何形状困难。非参数化方法使用生成模型从数据中学习3D形状的分布，如生成对抗网络（GANs），变分自编码器（VAEs），归一化流。然而，这些方法也面临一些挑战，比如模式崩溃、解耦或评估问题等。近年来，随着扩散模型在2D领域的崛起和快速发展，越来越多的3D生成研究开始采用扩散模型。但目前的主流问题是生成时间不够高或者生成质量不够好。刘等人使用3D高斯[23]快速重建整个3D场景。

在作者的研究中，作者使用dreamgaussian模型，该模型利用3D高斯进行快速3D目标建模，作为解码器来完成生成网络。原始的dreamgaussian模型使用CLIP[40]嵌入文本，而CLIP是在数十亿的文本-图像对上训练的。因此，在进行文本到3D转换时，用户通常只能通过提供相对简短的文本提示生成他们预期的3D目标，而不能实现更加自然和描述性的词汇。

3D Editing

三维形状编辑也是一个具有挑战性的任务，它需要对形状有深入的理解。传统方法使用显式形变，而近年来CLIP的广泛应用加速了构建语言指导的图像和三维形状编辑系统的尝试。由于CLIP是用图像和文本对进行训练的，最近的努力主要集中在2D图像编辑。对于3D，一些研究工作引入了从文本合成3D形状和场景的框架。然而，这些方法主要关注生成3D形状而不是编辑，编辑需要解决给定编辑描述的语言-形状对齐问题。

为了实现更直观和细致的三维形状编辑，一些研究探索了基于语言的3D形状操作。这些工作使用强大的视觉-语言模型生成网格顶点形变和颜色，或者在潜在空间中构建形状自动编码器和一个神经监听器，根据文本指令编辑形状。然而，这些工作仍有一些局限性，例如依赖于预定义的部件或目标定位。相比之下，作者提出了一个基于MLLM的3D编辑框架，该框架使用指令调优来执行更高级自然语言的3D目标形状编辑。

3 Method

在这一部分，作者将介绍Uni3D-LLM的模型设计以及训练策略的细节。

Model Design

Uni3D-LLM的总体框架如图2所示。在本节中，作者将详细介绍多模态输入对齐层、LLM到生成器映射块以及生成编辑模块的细节。

picture.image

3.1.1 Multi-modality alignment.

多模态对齐方法如图3所示。Hong等人[18]已经证实，在重建3D信息时整合2D图像数据，对于提高点云识别任务的精度非常有帮助。因此，在作者的方法中，作者实施了一种将点云与相应的图像数据对齐的方法论。为了促进这种跨模态表示对齐，作者采用了特定于模态的基于投影仪的结构。

picture.image

对于点云模态的配准， 受到Octavius的启发，作者采用两步法将点云与LLM的空间进行配准。首先，作者遵循rukovich等人[42]的检测方法从场景点云中提取物体。然后，作者使用预训练的Point-Bert模型作为编码器来提取点云特征。此外，认知模块LLaMA2也被用于促进配准过程。需要注意的是，对于不同的任务，有不同方法。对于目标级任务，点云数据通常通过一个映射层映射到文本空间，这有助于目标级理解的视觉和文本信息的融合。

然而，对于场景级任务，如定位，则采用不同的策略。在这种情况下，对于每个单独的场景点云，引入额外的位置编码以保留其原始的的空间信息。随后，这些编码后的点云被重新组合，形成整个场景点云输入的连贯表示。这种方法确保模型捕捉到场景的局部细节和全局上下文，从而促进准确的场景级任务。

对于图像的对齐， 作者直接采用了来自sphinx的2D表示提取方法。作者利用多个预训练编码器从图像中提取全局和局部特征。对于给定的场景点云，作者考虑了由于不同渲染姿势引起的潜在遮挡和有限的可见性。

为了解决这个问题，作者采用了一种俯视图表示作为图像模态的表示。同样，作者利用两个可学习的特殊标记来指示插入图像的开始和结束。这使作者能够在有效捕捉场景的基本视觉信息的同时，减轻遮挡和不完整可见性的影响。一旦两种模态的特征被提取出来，作者就将它们连接起来，并置于文本特征序列的开头。图像特征作为全局引导特征，放在前面。相应模态开始和结束的特殊标记)。这种连接方式使得图像和点云模态在整体文本特征表示中能够有效地整合与对齐。

这种对齐便于利用图像和文本提供的互补见解，从而提高点云场景中识别任务的粒度和整体准确性。

3.1.2 L.I.M-to-Generation mapping block.

为了将语言模型输出特征与生成模型连接起来，作者建立了它们之间的映射模块。在训练阶段，当作者输入一个生成的文本时，作者在末尾添加了259个可学习的生成标记，代表作者希望生成的期望图像。在最终的输出特征中，作者提取这些生成标记并通过映射模块将它们转换成相应的生成特征。

语言模型凭借其丰富的语义理解能力，作为生成过程强有力的控制机制。它包括一个可学习的 Query ，Transformer层和MLPs作为映射层，将文本特征映射到生成模型可以理解的信号。DreamGaussian 主要采用Stable Diffusion 和SDS损失来指导高斯溅射的生成过程。作者的目标是将作者的特征作为文本条件映射到Stable Diffusion中。作者旨在以符合作者期望结果的方式引导扩散过程。整个过程可以表示如下：

在这段文本中，代表输入到生成模型中的文本特征，代表各种网络参数，q 代表可学习的参数，L 代表生成模型可接受的向量长度，而 D 代表维度。

3.1.3 Generation-to-editing module.

整个编辑过程如图4所示。一旦作者获得了生成的3D模型，如果作者打算修改相应的模型，可以采用类似于nerf2nerf指导的方法[17]。作者使用生成的高斯溅射数据作为初始数据，并选择3D模型在不同姿态下的几个渲染图像以确保一致性。作者利用instruct-pix2pix[6]生成修改目标的渲染图像。随后，作者逐渐使用这些渲染图像更新整个高斯溅射，最终完成目标编辑过程。

picture.image

Training Strategy

第一阶段： 作者首先训练作者的文本到生成映射块。为了生成准确图像以指导3D生成，映射特征在去噪过程中作为条件起着至关重要的作用。映射特征预期能够捕捉到有效指导潜在扩散模型（LDM）生成期望的 GT 图像的相关文本特征。

为了达到这个目标，作者在训练期间利用LDM训练损失作为指导机制。在训练过程中，首先使用预训练的VAE将 GT 图像编码为潜在特征。随后，作者在潜在特征上添加t步噪声（）以获得带噪声的潜在特征。为了计算条件LDM损失，作者利用预训练的U-Net模型来预测在潜在特征上添加的噪声，该模型以作为输入。

条件LDM损失可以表达为如下：

无分类器引导。 为了增强文本特征与生成器之间的连贯性，作者采用了无分类器引导（Classifier-Free Guidance, CFG）的概念进行生成。作者引入了10%的概率将映射特征替换为零特征，这些零特征将在推理阶段作为负向提示。

第二阶段。 一旦映射层被训练好，作者就接着训练感知模块。参数高效微调（PEFT）在LLM（大型语言模型）和MLLM（多模态大型语言模型）的训练中扮演着关键角色。在本研究中，作者在LLM上应用了Lora，在训练阶段，冻结整个大型语言模型的参数，只训练Lora层。通过这样做，作者可以引入新的多模态知识，而不失去LLM现有的知识。

实施细节。 对于大型语言模型的选择，作者选择了sphinx，它是将图像模态结合到llama2上的MLLM。利用这个模型，作者可以轻松地整合点云模态，从而通过利用点云和图像的联合信息来提高点云任务的性能。在训练期间，所有视觉模态信号都被嵌入到长度为259的文本空间中的标记。学习率设置为，并选择FuseAdam作为优化器。

4 Experients

Experimental Setup

为了探索作者框架在多模态学习中的有效性，作者在两种模态设置下对Uni3D-LLM进行微调：一是仅点云模态；二是图像和点云两种模态。然后，作者使用这两个微调后的模型在各类3D下游任务上评估零样本和微调后的性能。

数据集。 为了训练感知能力，作者使用了一个名为“Scan2Inst” 的指令数据集，该数据集由 ScanNet 生成，包含描述和分类等任务。此外，该数据集还包括了 Scanqa(VQA)和 Scan2Cap(Cap)，用于不同任务训练数据。而且，作者还把额外的接地数据整合到作者的训练数据集中。对于每个场景，作者捕获了1,513张自上而下的视图渲染图像，这些图像被用作所有任务的补充信息。

在训练作者的LLM到生成器映射块时，作者最初使用了来自MS-COCO和LN-COCO数据集的2D图像-文本对进行训练。考虑到生成3D目标的靶标，作者还整合了对Cap3d的预训练，这是从Objavverse中提取的3D目标-标题数据的子集。该数据集包括65万个点云-不同视图渲染图像-相关描述对。

此外，为了让用户能够像平时那样自然地输入描述，作者基于Cap3d创建了一个名为"Cap3descript"的数据集。由于GPT不能处理点云数据，且GPT4-V API不可用，作者使用了开源模型PointBind-LLM[16]基于Cap3D生成了包含10,000个详细描述的数据集。对于每一点云数据，作者为八张视图图像和原始点云生成了一系列描述。随后，作者使用GPT4将这些九个描述整合成一段话，作为物体的完整描述。

实现细节。 作者在训练感知部分时采用了LoRA和特定任务学习。每个LoRA的秩设置为32。作者使用了FusedAdam优化器，这是一种Adam优化器，总批处理大小为16，学习率为，持续2个周期。所有实验都是使用8个NVIDIA A100 GPU进行的。

图像被调整至224×224的大小，并经过四个不同的编码器处理，即CLIP，ConvNeXt，DINOv2，QFormer。对于点云数据，作者使用FCAF3D提取感兴趣区域（RoI），并从每个RoI中采样1024个点。每个编码器都用于预训练权重。

对于每个场景，作者遵循以下设置：选择具有高于阈值0.3的边界框置信度的N个实例。在多模态融合步骤中，作者采用16个 Query 来获取对齐的3D视觉特征。此外，作者将输出的3D视觉特征及其 Mask 填充至256的大小，与图像标记的长度对齐。

定量结果。 所有实验的结论展示在表1和表2中。

picture.image

对于感知任务，作者在ShapeNet上评估分类性能，NR3D上评估字幕生成性能，ScanQA上评估视觉问答（VQA）性能，以及在ScanNet测试集上评估定位性能。

picture.image

对于生成任务，作者进行了两个实验：一个是在Cap3d的测试集上，另一个是在Cap3descript的测试集上，这是一个由原始测试集提取的、精心策划的100个样本集合，旨在评估在自然文本描述下的生成质量。作者评估了不同微调的3D生成模型上的CLIP-Score，以测试生成质量和时间。由于与LLM交互的时间限制，过长的生成时间不合适。因此，作者只对Shape-E进行了微调，并进行了一个比较。

对于编辑工作而言，要拥有客观的评价指标来确定质量是具有挑战性的。评估主要依赖于个人的主观判断和感受。因此，作者不评价作者编辑工作的质量。

根据表1，作者可以确认，通过引入图像辅助信息，作者的模型Uni3D-LLM能够执行接地（grounding）任务。仅依赖点云信息导致任务失败的主要原因可能是对感兴趣区域（ROI）内所有物体的捕获有时不准确且不完整，导致点云特征出现断裂。然而，在完整图像辅助的加入下，作者的模型有效处理了与全局场景和特定物体相关的问题和答案。作者还观察到，在Scannet的分类任务和Scan2Cap的标题任务中，即使加入了图像辅助，模型的性能也没有显著提升。作者分析，这主要是因为这些任务关注个体属性，而图像作为全局辅助信息，对于显著帮助这些个体 Level 的问答任务是不够的。因此，为了进一步探索图像信息在不同任务中的作用，作者在Cap3d上对作者的模型进行了微调，并在ShapeNet上进行了零样本测试。

picture.image

在这些测试中，作者提供了数据集中物体前视图（视图5）的图像信息。结果显示，在物体 Level 的点云分类任务中，提供与物体相关的图像信息显著提高了整体的分类结果。这一发现强调了在特定场景中结合物体 Level 的图像信息以增强模型性能的重要性。在测试生成性能时，作者在表2中对短提示和更自然的长文本都进行了实验。考虑到CLIP分数对于长文本和图像的准确性不是特别高，作者将自然文本生成的物体与它们原始的标题进行了对齐。结果表明，整体的生成仍然达到了预期的效果。

消融研究。 为了探究感知模块的引入是否会对生成模块产生负面影响，作者进行了一项消融研究。

picture.image

如表3所示的实验被分为两组：第一组直接使用LLM到生成器映射块来对齐LLM；而第二组在引入感知模块Lora之后进行对齐。实验结果表明，感知模块的引入并不会干扰生成结果；实际上，它还略微提高了生成模块的性能指标。

picture.image

5 Conclusion and Limitations

在本文中，作者介绍了Uni3D-LLM，这是首次尝试将感知、生成和编辑整合到点云中。通过结合强大的图像特征作为空间辅助，作者克服了仅输入点云模态时原始点云特征中出现的扰动问题。将多模态作为点云任务的辅助信息已被证明对点云有益。然而，进一步提高点云的定位能力仍然是未来研究的挑战。

作者的生成编辑方法也继承了DreamGaussian和Instruct-Pix2Pix的许多局限性，例如无法生成大规模空间场景以及执行更自由的指令性编辑操作。作者的生成编辑方法同样面临着与DreamGauss和InstructPix2Pix相同的限制，例如无法生成大规模空间场景和进行自由形式的编辑。这同样需要在将来解决。

6 Details of Cap3descript

在本节中，作者主要介绍构建Cap3descript的细节。整体流程在5中展示。作者对10种不同的MLLM在Cap3d渲染图像和点云输出上进行了一项调查。作者发现来自Point-Bind的输出相对准确且详细。然而，由于渲染图像从不同角度的遮挡问题，作者从8个不同视角以及点云获取了每个目标的标题。随后，作者将所有八个角度的标题输入到GPT中，使其能够将它们合并成一个连贯的段落。

picture.image

在作者的实验中，作者观察到仅使用3D渲染图像来训练LLM到生成器映射块会导致性能不佳。这一现象可以归因于3D渲染图像周围的大量空白空间，因为Stable Diffusion在其训练数据集中没有包含大量此类样本。因此，在训练期间，作者不仅引入了3D标题-图像和描述-图像数据，还整合了2D文本-图像数据进行联合训练。如表4所示，明显可以看出，包含3D相关数据显著提高了整体的生成效果。

参考

[1].Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with Large Language Models.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

picture.image