北大提出多模态 Situated 问题回答，三维场景中的多模态坐标推理！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

在具身的AI代理中理解和推理3D场景是至关重要的。然而，现有的针对定位理解的的数据集和基准在数据模态、多样性、规模和任务范围内存在局限性。

为了应对这些局限性，作者提出了一种称为多模态情境问答（MSQA）的大规模多模态情境推理数据集，它通过使用3D场景图和视觉语言模型（VLMs）在多样化的真实世界3D场景中大规模收集获取。

MSQA包括9种不同的问询类别中覆盖251K个情境问答配对，涵盖3D场景内的复杂场景。作者在作者的基准中引入了一种新颖的交错多模态输入设置，以提供文本、图像和点云来描述情境和问题。这有助于解决以往单模态约定中的歧义（例如，文本）。

此外，作者还设计了一个多模态情境下一步导航（MSNN）基准，以评估模型在导航情境推理方面的性能。在MSQA和MSNN上的全面评估突显了现有视觉语言模型的局限性，并强调了处理多模态交错输入和情境建模的重要性。

在数据扩展和跨域迁移实验上的尝试进一步证明了利用MSQA作为开发更强大情境推理模型的预训练数据集的有效性。

1 Introduction

理解并与现实世界的3D物理世界进行交互是实现具有身体智能的AI的基本需求。为代理集成情境意识到模型中是一个中心挑战。特别是在增强代理的理解和推理、在3D场景中进行规划方面，情境意识具有关键作用。例如，情境意识可以连接代理的多模态局部上下文（比如，文本描述，图像，点云等）和全局环境状态。

然而，与近年在3D视觉语言学习方面的进展相比，3D场景中的情境建模研究仍然鲜为人知。这主要是因为缺乏一种可扩展的方法来收集多样化的多模态情境数据。以前的研究主要依赖模拟环境来生成虚拟代理的以自我为中心的情境观察。这些方法由于可用的合成场景的多样性、复杂性受到限制，严重限制了情境数据的质量。然而，最近的尝试，例如SQA3D [41]，试图通过收集在3D场景中的想象位置和方向的情境问题的答案对，将情境理解扩展到真实世界场景如ScanNet [17]等，这些场景数据被用来设计 prompts 从而生成高质量的情境问题答案对。

为了解决上述的数据限制，本研究提出了 M ulti-modal S ituated Q uestion A nswering (MSQA)，这是一个高质量的，大规模的多模态情境数据集，用于3D情境推理。具体来说，作者开发了一个自动化的数据收集 Pipeline 。首先，作者从ScanNet [17]，3RScan [60]和ArKitScenes [7]等复杂真实世界场景中源生出多样化的情境（即，空间位置和视角）。通过调整每个场景的提供的3D场景图以匹配采样视角，作者创建了情境场景图，并使用它们通过精心设计 prompts 生成高质量的情境问题答案对。利用此 Pipeline ，作者收集了251K的情境问答对，超越了现有的数据集在规模、问题和质量上的表现。此外，作者还丰富了该数据集，添加了针对在不同的情境之间移动所需的关键导航操作的问题答案对，为嵌入式导航提供了全面的学习和评估数据。

通过这样的方法，作者扩展了 MSQA，使其能够直接评估从推理到行动的转移，从而扩展 MSQA 涵盖了3D场景中所有身感任务的全谱。

作者提出了一个名为 Interleaved（交错）多模态输入设置的方法，以准确评估模型的情境意识，并解决现有基准的局限性。当前的基准主要依赖于单一模态对情况（例如文本）的描述，这可能导致在情况识别方面出现歧义，从而限制了模型的情境理解能力（如图2所示）。为了克服这个问题，作者提出了一种交错输入设置，该设置将文本描述、图像和场景点云相结合，以描述情境和问题。这种方法解决了情况描述的歧义，并为更广泛的下游应用提供了通用的格式。利用这种多模态交错设置，作者建立了两个具有挑战性的基准任务，即多模态情境问答（MSQA）和多模态下一步导航（MSNN），以评估模型的在身临其境推理和导航方面的能力。

MSQA扩展了现有情境问答任务的功能，包括物体存在、计数、属性、空间关系等。MSNN简化了传统的多步身临其境导航，到单一步骤，专注于根据当前情境和导航目标的行动的即时下一步。这种设计将长时间规划与情境理解分离，针对模型的地面动作和动作之间进行转换。

picture.image

作者在图1中概述了这些任务。

picture.image

作者对这些任务现有各种视觉语言模型的实验分析进行全面，并暴露了它们在有效地模拟复杂情况和充分利用交错多模态输入上的局限性。为了应对识别到的局限性，作者提出了一款强大的基准模型MSR3D，专门用于处理交错多模态输入，并实现对MSQA和MSNN的优越结果。作者在数据扩展和跨域转移的额外实验表明，作者对作者的MSQA进行预训练的成果，并展示了MSR3D的潜力。总之，作者的关键贡献如下：

作者提出了一个名为M(o)SQA的大规模3D设位推理数据集，包括251,000个设位问答对，通过在各种真实世界场景上使用可扩展的自动化数据生成 Pipeline 进行筛选。

作者提出了一种交错多模态输入设置用于模型学习和评估，建立了两个全面的基准测试任务，即MSQA和MSNN，用以评估模型在3D场景中的设位推理和导航能力。

作者在MSQA和MSNN上使用作者提出的基准MSR3D与现有模型进行比较实验分析。作者强调处理多模态交错输入和设位情况建模的重要性。

通过数据缩放和跨域迁移实验，作者证明了在MSQA数据上的预训练的有效性，以及MSR3D在3D场景中的多模态设位推理的潜力。

2 Related Work

在3D场景中的情境理解。目前3D VL研究主要关注在3D场景内进行理解和推理，包括物体定位，描述生成，以及问答。近年来，一些倡议提出为各种3D VL任务统一的框架，取得了有前途的结果。然而，这些任务存在一个主要的限制，即缺乏情境理解，这也导致了3D VL与具身AI之间明显的一个差距。虽然早期关于情境推理的工作通常通过探索模拟环境来回答简单问题，但SQA3D [41]在特定于空间推理和场景理解的真实世界场景中引入了真正的问题和场景理解。SIG3D [43]提出了情境意识和一种有效的解决方法。在本文中，作者将3D情境推理任务扩展到更加多样化、复杂的场景中。此外，作者设计了一种创新的、多模态的情境下一步导航方法，以巩固情境推理的评估。

由大型语言模型辅助的数据生成。大型语言模型(LLM)在文本生成方面表现出色，为收集多样化的文本指令跟随数据[61; 57; 16]和多模态指令跟随数据[38; 34; 37]提供了有益的资源。这种方法在数据稀少的情况下也具有很大的展示潜力，尤其是考虑到3D场景固有的复杂性。为解决这个问题，现有的努力[24; 50; 28; 35]已经改进了LLM提示技术和后处理程序，以增强LLM生成数据的可靠性和多样性。

此外，一些先前的研究工作[10; 19]试图评估LLM生成数据的质量，但尚未解决LLM生成数据的质量问题以及它与人工标注数据的比较问题。在本文中，除了高级提示技术和后处理程序外，作者还就LLM生成数据的质量进行了人类研究，以示作者LLM辅助数据生成方法的效率。

交错的多模态理解。精确定位复杂3D场景内的精细情况是一个关键挑战。采用自然语言描述[56; 41]是很自然的，但在杂乱无序的环境中可能会遇到目标指代歧义的问题。另一方面，自身体系的视觉观察在身临其境的任务中得到了广泛应用，但跨越模式之间的鸿沟需要额外的训练。

最近，交错的多模态数据在视觉语言模型（VL）和体的人工智能中越来越普遍。在3D情境推理的背景下，交错的多模态格式可以解决歧义，因此可以作为一种惯例方法来明确情况。这种交错的多模态方案增强了作者的情境推理任务的挑战性，需要全面的多模态定位和多模态情境推理能力。

3 多模态情境推理数据集

作者提出了一种新颖且可扩展的收集高质量3D定位推理数据的方法，该方法遵循三个核心原则：

（1）确保全面的和多样的情况；

（2）制定高度依赖情况的问题并获得准确答案；

（3）适应多模输入格式以避免歧义。作者通过在[17]处获取的复杂真实世界场景，如[ScanNet] [60]和[ArkitScenes] [7]上的数据，来构建MSQA数据集。MSQA包含251K个多模定位推理数据的实例。

Data Collection

如图3所示，作者精心设计了一个基于LLM的自动数据收集流水线，该流水线包括三个阶段：情境采样、QA对生成和数据优化。作者收集数据的目的是确保生成的数据质量。以下是流水线的详细说明。

picture.image

Data Quality Control

尽管基于LLM的数据显示收集 Pipeline 具有可伸缩性，但生成数据的质量引起了重大关注，尤其是在3D视觉语言任务中，将语言定位为具有挑战性的情况。为了应对这些问题，作者对生成的数据进行了与SQA3D中人工标注的数据的比较，并进行了人机研究。具体来说，作者从MSQA和SQA3D中各采样100个数据实例，并将它们混合进行人工评估。人工评估者被指示从三个方面对数据进行评分：

（1）情境描述的自然性和清晰度，（2）问题的情境依赖性和清晰度，以及（3）答案的准确性和完整性。每个方面都使用从1到5的评分标度。有关评估工作流程的详细信息请参见附录B。图4（b）显示MSQA的质量与SQA3D的各方面质量相当。另外，图4（c）显示MSQA的高质量数据（即分数≥4的质量）的比例与SQA3D相匹配或超过了SQA3D。这突显了MSQA的质量以及作者数据改进程序的有效性。

4 评估基准

在本节中，作者将给出考虑多模态 situated 推理的评估任务详细描述。具体而言，作者考虑以下两个评估任务：

多模态 Situated 问答（MSQA）正如第3节所述，作者评估模型在情境意识和处理交织多模态输入方面的能力。具体而言，对于给定的多模态情境描述，模型回答一个在3D场景中基于的文本图像交织问题。由于响应是开放式的，以前的标准，如分类准确率和精确匹配率不能正确评估。为了解决这个问题，作者使用了基于 GPT 的开放式回答评估指标，遵循OpenEQA [42]，并扩展其提示集为3D占用推理（请参见附录B.1.1中的详细提示）。

多模态 Situated Next-step Navigation（MSNN）除了MSQA外，作者还旨在通过集成AI任务评估模型在情境意识方面的能力，例如导航。为了将长期规划与占用理解分开，作者提出MSNN任务，它专注于根据当前情况和导航目标在3D场景中预测最佳即时下一步动作。具体而言，对于代理的当前交织多模态情境描述（即位置、方向和文本描述），文本目标描述和整个场景，作者指导模型以文本形式回答关于导航到目标的即时下一步动作。

对于评估，作者遵循与 situated QA 对生成的数据集类似的 Pipeline ：（1）开始情境采样，（2）目标采样，（3）最优轨迹预测和（4）计算地面真理立即下一步动作。最优轨迹是通过使用A算法在布局地板计划上从开始位置到目标规划最短路径并使用起点情境相对于开始场景的轨迹方向确定。

总共，作者生成了涵盖ScanNet 378个3D场景的34000个MSNN数据样本的MSNN数据集。该数据集进一步用于有监督的微调和支持MSNN评估。作者提供了MSNN数据生成和数据统计的更详细信息，请在附录中找到。

5 Experiment

Model Settings

图5：多模态情境下一步导航(MSNN)任务的生成流水线。作者遵循类似于QA配对的情境导航动作生成流水线。 零样本模型作者研究了现有LLMs（即GPT-3.5[44]和GPT-4o[45]）在多模态情境推理方面的能力。这些模型在处理3D点云方面的能力有限，因此作者为这些模型提供了3D场景的文本描述作为输入。具体来说，场景被描述为一个物体的集合，每个物体根据其类别、位置、大小和属性进行描述。然后将场景的文本描述与交互式的多模态情境描述、指令和问题进一步结合，并由LLM或VLM处理。对于仅处理文本的模型（即LLMs），作者用相应物体的类别代替图像作为模型输入。同时，作者还引入了Claude-3.5-Sonnet[5]，以消除GPT家族内的潜在偏见。

picture.image

受到最近3D通才模型、LLMs和VLMs的进步的启发，作者提出了多种潜在的MSQA和MSNN方法，包括可以直接应用于这些任务且在零样本设置下的模型，以及需要在指令调优的模型。指令调优

根据最近3D通才模型的进步[24; 28]，作者针对MSQA和MSNN任务在现有LLMs和VLMs（即，LEO[28]、 GPT-3.5[44]和GPT-4o[45]）上进行微调。特别地，作者选择LEO作为代表模型，因为它在3D VL理解和推理方面具有优越的性能。由于LEO本身不自然支持交互式多模态输入，作者通过将输入图像替换为相应的物体类别来修改输入，就像零样本模型一样。此外，作者还将LEO扩展以适应交互式多模态输入设置，因此得到了为情境推理和导航而设计的强基准模型，即MSR3D。

作者选择MSR3D作为作者的主要模型进行后续的拆分和分析。关于MSR3D设计的更多细节，请参阅附录C。

Evaluation Results

在这部分，作者提供了在MSQA和MSNN上的模型评估结果。作者分别报告了这两个任务测试集上的平均正确率（见第4节说明了）。此外，作者还考虑了情况的模态（_Input_）、3D场景的表示(Scene)和模型设置(Setting)的不同设置。对于MSNN，作者将预训练数据的选择(PT data)作为另一个轴，以证明MSQA对于具身任务的有效性。

5.2.1 Multi-modal Situated Question Answering (MSQA)

在表格2中，作者列出了MSQA的实验结果，并报告了以下观察结果：

零样本模型在情境推理方面遇到挑战 零样本模型在回答日常问题（如与用途和房间类型相关的问题，被归类为“其他”）方面表现出色，这很可能是因为LLMs在自然语言任务方面的专长。鉴于在列表中提供了目标属性，这些模型在属性和描述方面的表现优于微调模型。然而，在处理空间关系和导航问题方面，它们的表现仍然不足，这突显了它们在多模态情境推理方面的局限性。

情境建模对情境推理至关重要 像LEO这样的3D视觉语言模型在没有在MSQA上进行微调的情况下表现较差，这反映了它作为通用基础模型的局限性。作者的在非交错输入下进行训练的模型在空间关系和导航方面超过了LEO，强调了作者的情境建模方法的重要性。同时，MSR3D在没有3D场景输入（盲目）的微调中表现急剧下降。这强调了在解决MSQA时情境意识和3D场景理解的重要性。

3D点云是相对于文本描述的场景表示更好的选择 作者进行了一个额外的实验，其中只有文本描述，这些描述是基于置于情境图上的GPT-3.5的提示生成的。用于生成文本描述的情境与MSQA中的QA配对相同。在附录A.3.3中可以看到文本描述的示例。表2（行“DES”）的结果表明，在提供文本描述时，“DES”的性能明显下降，尤其是在物体属性、空间关系和导航方面。为了继续进行，作者研究了“DES”为何在计数方面表现更好。如表3所示，“DES”对GT<3的表现更好，但对GT≥3的表现更差。这很合理，因为“DES”明确描绘了输入的目标。然而，当目标目标的数量超过一定阈值时，可能会由于上下文长度有限而截断一些目标目标。总之，结果表明，3D点云相比文本描述更有效地支持情境推理。

picture.image

情境组件对情境推理至关重要 为了揭示FT模型中情境的有效性，作者添加了一个在情境组件完全被删除、仅保留3D场景和问题作为输入的FT Baseline 。表2（带情境）的结果显示，在删除情境组件后，性能显著下降。特别是，与 navigable 相关的问题的下降更为明显，这与MSNN的评估结果一致，并强调了情境组件的重要性。更多的分析可以参见附录D.3.

交错多模态输入为情境推理引入新的挑战 尽管交错多模态输入具有优势，但作者观察到MSR3D（T+I）在与文本相同的输入（T）方面表现稍逊。为了调查这种细微差别，作者在测试集中提取两个子集，这些子集中的图像只出现在情境或问题中。图4中的评估结果表明，“T+I”在只有图像出现在问题中的子集上 suffering a significant drop。作者猜想，将图像纳入问题可能加强了情境推理的挑战，因为从图像中识别所询问的目标需要额外的定位能力。

5.2.2 Multi-modal Situated Next-step Navigation (MSNN)

图6：MSQA的定性可视化 左上角：空间关系。右上角：导航。左下角：物体存在。右下角：物体指代。

picture.image

作者在表5中报告了MSNN的实验结果如下：MSNN具有挑战性。 表5中的结果表明，最新的LLM（即，GPT-3.5和GPT-4o）以及3D VL模型在解决MSNN时遇到了相当大的挑战。这暗示了提出的MSNN任务在3D定位和嵌入式AI中的价值。

picture.image

MSQA作为嵌入式AI的预训练 source 是有益的。 作者发现，使用MSQA进行预训练（无论是LEO还是MSR3D）显著提高了在MSNN上的性能，这表明MSQA作为解决嵌入式导航问题的预训练源的有效性。

MSR3D的情景建模有效。 作者发现，装备了情景建模的MSR3D（T）在导航行为预测（+8.56%）上显著优于LEO（T）。这证明了作者情景建模方法的有效性。此外，作者在表5中测试了没有情景的MSR3D，通过掩盖代理的位置和姿态，导致性能大幅下降，如图表5（无情景）所示。这种下降表明了情景信息的重要性，并且MSR3D能够很好地利用情景信息。

Additional Analysis

扩展效果

作者通过使用不同规模的数据训练MSR3D来探究MSQA的扩展效果。作者研究了三个扩展因素：QA（随机下采样QA对），情况（同时下采样QA对和情况）以及场景（同时下采样QA对和场景）。如图7所示，作者在这三个因素上观察到一致的改进趋势，表现出显著的扩展效果，并展示了进一步扩展的潜力。作者还提供了有关在附录D.1中MSNN任务扩展效果的额外分析。

picture.image

跨领域迁移

作者将MSQA数据按照场景域分为三个子集：ScanNet[17]，3RScan[60] 和 ArkItScenes[7]。然后作者通过在每个子集上训练MSR3D并进行所有子集上的评价来研究跨领域迁移。表6中的结果表明，每个子集上的最佳性能由领域内训练（粗体）而不是跨领域迁移获得，这展示了领域间隙。而训练在ArKitScenes上的结果产生了较差的跨领域迁移性能。考虑到ArKitScenes中的较简单场景，这暗示在复杂场景上进行训练将有利于跨领域泛化。

picture.image

6 Conclusion

在这篇论文中，作者提出了多模态 Situated 问题回答（MSQA），这是一个通过可扩展的数据生成流水线收集的大型跨模态 situ推理数据集。MSQA 包括跨多种真实世界场景的251K个 situ 问答配对，并以统一的格式呈现，其中包含交错的多文本、图像和点云。作者还提出了一个以 MSQA 为基础的3D场景 sit推理的挑战性基准。此外，作者提出了多模态 Situated Next-step Navigation（MSNN），这是一个评估 situated推理和具身导航能力的任务。

作者的全面实验凸显了数据集和基准的值。作者希望这项工作将促进 situated 场景理解的发展和具身 AI。

首先， LLM 生成的数据需要与人类偏好进一步对齐以达到更高的数据质量。尽管作者在微调程序和数据平衡方面进行了仔细设计，但由于基于规则的场景图和 LLM 的偏见，仍然存在一些不自然的数据。例如， LLM 可能会选择远距离目标进行情境描述，这在人类的行为中可能是不合理的。作者鼓励在数据生成过程中进一步探索人类反馈整合以更好地与人类偏好对齐。

其次，作者尚未充分利用现有 3D 资产。扩展作者的数据生成流水线以覆盖更多的真实世界和合成 3D 场景将进一步增强 situated 推理数据的规模和多样性，可能导致更强大的模型。

考虑到创建大规模问答配对的开销，作者预计针对生成 situ 场景图的问答配对训练特定 LLM 将显著降低数据生成成本。作者将留待未来研究这一途径。

最后，评估情境意识和 situated 推理的指标不应仅限于问答和动作预测。例如，也可以考虑一些聚焦于场景理解的任务，如目标定位。作者将在未来的工作中探索更多的评估方法。

参考

[1].Multi-modal Situated Reasoning in 3D Scenes.

北大提出多模态 Situated 问题回答，三维场景中的多模态坐标推理 ！

1 Introduction

2 Related Work

3 多模态情境推理数据集

Data Collection

Data Quality Control

5 Experiment

Model Settings

Evaluation Results

5.2.1 Multi-modal Situated Question Answering (MSQA)

5.2.2 Multi-modal Situated Next-step Navigation (MSNN)

Additional Analysis

6 Conclusion

参考