告别AI“幻觉”驾驶 | 迈驰发布OmniDrive-R1，让端到端模型学会“主动盯梢”，根治驾驶安全危机 - 文章 - 开发者社区

picture.image

📋 本文概要

在自动驾驶等安全关键领域部署视觉语言模型（VLM）时，一个致命缺陷是目标幻觉 ——模型会编造不存在的物体或关系。其根源在于当前方法依赖解耦的感知与推理流程，或昂贵的外部工具。本文提出 OmniDrive-R1 ，一个端到端的VLM框架，通过交错式多模态思维链（iMCoT） 统一感知与推理。其核心是强化驱动的视觉接地能力 ，让模型能自主“放大”关键区域进行细粒度分析。在DriveLMM-o1基准上，OmniDrive-R1将整体推理得分从51.77%提升至80.35% ，最终答案准确率从37.81%提升至73.62% 。

❓ 主要解决哪些问题？

自动驾驶的“幻觉”危机

自动驾驶系统正从简单的感知任务，迈向意图预测、因果解释等需要高级推理 的复杂任务。视觉语言模型（VLM）因其强大的多模态理解与思维链（CoT）推理能力，被视为实现这一目标的理想基石。

然而，当前VLM在自动驾驶中面临一个根本性的可靠性障碍：目标幻觉 。简单来说，模型在推理时，其“思考过程”过度依赖文本Token，容易与真实的视觉场景脱节，从而“脑补”出不存在的人、车或危险关系。在高速行驶的自动驾驶场景中，这种幻觉可能导致灾难性后果。

现有方法的根本缺陷

为了缓解幻觉，研究者们提出了两类主流方法，但它们都存在根本性缺陷：

基于预定义工作流的方法 ：采用硬编码的推理路径（如“先检测，再分类，最后推理”）。这种结构僵化，无法适应开放世界中千变万化的新场景。

工具增强方法 ：将关键感知任务（如目标检测）委托给一系列外部模型。这种 解耦架构 破坏了感知-推理过程的完整性，无法进行端到端联合优化，且依赖外部工具的不稳定性。

核心难点 在于：如何在不依赖昂贵密集的定位标注和外部工具的前提下，让VLM自身具备动态、精准的视觉注意力引导能力 ，确保其推理的每一步都有扎实的视觉证据支撑？

🚀 本文的原理与方法

💡 OmniDrive-R1 整体框架

OmniDrive-R1 是一个多模态驾驶Agent，其核心思想是让模型像人类驾驶员一样，在推理过程中动态地与视觉场景交互，主动“放大”并审视关键区域。它通过交错式多模态思维链（iMCoT） 实现这一过程。

图：[OmniDrive-R1 框架概览]

picture.image

输入/输出 ：模型以一个问题

和来自六个车载摄像头的原始图像

作为输入。在推理的每一步

，模型的状态

由交错的图像和文本历史构成：

其中

是截至步骤

的所有裁剪图像Token（包括原始图和后续放大的区域），

是相应的文本推理Token。

在每一步，模型自主决定是输出最终答案，还是调用一个“放大工具”

。调用工具时，模型需要生成一个边界框

和对应的类别标签

。工具执行后，会返回一个裁剪出的关键区域图像

，供下一步推理使用。这个过程可以迭代进行，直到得出结论或达到最大调用次数。

💡 两阶段强化学习训练流程

如何教会模型在合适的时机、以正确的方式调用工具？作者设计了一个纯两阶段强化学习（RL）训练流程 ，其核心是创新的 Clip-GRPO 算法。

图：[两阶段训练流程示意图]

picture.image

阶段1：工具学习

目标：让模型学会“如何使用工具”来解决问题。
数据：使用 DeepEyes 数据集中精心筛选的子集

，这些数据的特点是通过工具调用能明确提升答案准确性。
挑战：训练初期，模型倾向于纯文本推理，不愿调用工具。如果仅用最终答案正确性作为 Reward，模型可能永远探索不到工具调用的好处。而人工标注关键区域边界框成本又太高。

解决方案：Clip-GRPO 与基于过程的接地 Reward
为了引导模型，作者引入了基于过程的接地 Reward

。其核心思想是：在模型调用工具并返回区域

和预测标签

后，利用预训练的 CLIP 模型计算它们之间的语义相似度

：

：模型裁剪出的区域图像的特征向量。

：模型生成的类别标签文本的特征向量。

• 设计直觉 ：这个 Reward 无需任何人工标注！它强制要求模型裁剪出的视觉内容必须与其生成的文本描述在语义上高度一致。这直接优化了模型 原生接地能力 的质量——即“看”和“说”要对得上。

为了防止模型为了刷分而频繁无效调用工具，作者引入了一个衰减系数

。对于一条包含

次工具调用的推理轨迹

，基于过程的 Reward 计算如下：

使得越晚调用的工具，其相似度得分对总 Reward 的贡献越小，从而鼓励模型尽早做出有效决策。

此外，还有基于结果的 Reward

，用于奖励最终答案正确、格式规范，并且在答案正确的前提下使用了工具 的轨迹：

：准确性 Reward。

：格式 Reward。

：这是一个关键设计。仅当答案正确时，工具使用 Reward

才会被激活。这避免了模型学习到“无论对错，用了工具就有奖”的错误策略。

阶段1的总 Reward 为：

阶段2：领域学习

目标：让已经学会使用工具的模型，在真实的自动驾驶场景中，学会何时使用工具 。
数据：在 DriveLMM-o1 自动驾驶推理数据集上进行微调。
Reward 设计 ：此时，模型的接地能力已初步形成，训练重点转向高级决策。因此，Reward 简化为：

模型需要自主判断场景复杂度：简单问题可能直接推理得出答案；复杂问题则需要调用工具获取细粒度信息来辅助决策。

💡 可验证的数据生成流程（RLVR）

强化学习需要稳定、可量化的 Reward 信号。但现有的自动驾驶问答数据集多为开放式问题，难以自动、准确地评估。

图：[RLVR 数据生成流程]

picture.image

为此，作者提出了 RLVR（Reinforcement Learning with Verifiable Reward） 流程：

多样化采样 ：使用强大的 MLLM（如 Qwen2.5VL-72B）为原始开放式问题生成多个候选答案（如选择题选项或判断题）。

规则评分 ：根据预定义规则（如逻辑一致性、无幻觉）给每个候选打分。

拒绝采样 ：过滤掉低分样本。

构建高质量数据集 ：选择最高分的样本，形成可用于强化学习训练的高质量、 答案可验证 的数据集

。

这个流程将难以评估的开放性问题，转化为了便于进行准确 Reward 计算的格式，为稳定训练奠定了基础。

📊 实验结果与分析

🏆 SOTA对比

作者在 DriveLMM-o1 基准上进行了全面测试，对比对象包括开源模型（Qwen2.5VL系列、LLaVA-CoT等）、在该数据集上监督微调（SFT）的模型（DriveLMM-o1、AgentThink），以及闭源模型（GPT-4o）。

图：[主要结果对比表]

picture.image

核心结论 ：

• 显著超越 Baseline ：相较于基础模型 Qwen2.5VL-7B，OmniDrive-R1 将 整体推理得分 从 51.77% 提升至 80.35% （相对提升 55.2% ），将 最终答案准确率（MCQ） 从 37.81% 提升至 73.62% （相对提升 94.7% ）。这证明了 iMCoT 机制的巨大威力。
• 优于监督微调方法 ：相比同样在 DriveLMM-o1 上训练的 SFT 模型 DriveLMM-o1，OmniDrive-R1 在推理得分上高出 5.11% ，在 MCQ 上高出 11.26% 。这说明 强化学习对策略的优化 比单纯的模仿学习更有效。
• 超越工具增强方法 ：OmniDrive-R1 在两项指标上均超过了依赖大量外部工具的 AgentThink 模型。这表明 增强VLM自身的原生能力 ，比依赖不稳定、解耦的外部工具链更具优势，实现了更好的感知-推理一致性。

🔬 消融实验

消融实验深入剖析了各个组件的贡献。

图：[消融实验结果表]

picture.image

1. 训练策略消融（两阶段 vs 单阶段）

• 单阶段训练（+Clip-GRPO） ：直接在驾驶数据上用完整 Reward 训练，推理得分为 74.83%，MCQ 为 65.48%。
• 两阶段训练（OmniDrive-R1） ：先学工具使用，再学领域决策，推理得分达 80.35% ，MCQ 达 73.62% 。
• 分析：两阶段方法在 MCQ 上带来了 8.14% 的显著提升。这说明 渐进式学习 是必要的：先打好“如何看”的基础，再学习“何时看”的高级策略，能更充分地释放模型潜力。

2. Clip-GRPO 组件消融

• Baseline (+SFT) ：仅在驾驶数据上进行监督微调，推理得分 72.36%，MCQ 62.95%。
• +SFT, +Clip-GRPO ：在SFT基础上增加Clip-GRPO微调，推理得分提升至 76.58%，MCQ 提升至 64.38%。
• 分析：这证明了 强化学习优化 能在SFT的基础上进一步改进模型策略。

3. 接地 Reward 消融（核心发现）

• 两阶段GRPO（无接地 Reward） ：使用相同的两阶段流程，但去掉基于过程的

，推理得分骤降至 70.18%，MCQ 暴跌至 57.19%。

• 完整模型（OmniDrive-R1） ：包含

，得分如前所述。

• 分析： 高达 16.43% 的 MCQ 差距 ！这以最有力的证据表明， 基于CLIP的、无标注的接地 Reward 是成功的关键 。它直接优化了视觉焦点与文本推理的跨模态一致性，是解决目标幻觉、实现高质量多模态推理的基石。

🔬 泛化能力评估

为了测试模型的鲁棒性，作者在 SURDS 基准上进行了零样本评估。该基准专注于极具挑战性的细粒度空间推理任务（如目标定位、深度估计、物体间相对关系判断）。

图：[SURDS零样本评估结果]

picture.image

核心结论 ：

• 强大竞争力 ：OmniDrive-R1 总体得分 31.95 ，与参数量大得多的 Gemini-1.5 Pro (32.77) 和 Qwen2.5-VL-72B (33.47) 表现相当，显著超越了同尺寸的 Baseline 模型 (12.61)。
• 定位能力突出 ：在 Pixel（像素级定位） 任务上，OmniDrive-R1 取得了 39.46 的最高分，相比 Baseline 的 3.46 是数量级的提升。这直接归功于训练中

对视觉接地能力的持续优化。

• 空间认知全面提升 ：在 Depth（深度）、Dis（距离）、L/R（左右）等多项目标关系任务上，OmniDrive-R1 也表现出实质性提升。这表明优化接地-推理一致性，不仅提升了定位精度，更 从根本上增强了模型对复杂三维空间的整体认知和理解能力 。

⚖️ 局限性与未来展望

局限性 ：

计算开销 ：交错式推理和强化学习训练需要大量的计算资源（文中使用16张A800 GPU）。虽然推理时模型参数量未变，但动态调用工具可能会增加单次查询的延迟。

长时序推理 ：当前工作主要针对单帧或短时序的视觉推理。如何将 iMCoT 机制有效地扩展到长视频序列，处理动态变化和时序因果关系，是一个待解决的挑战。

多模态对齐的极限 ：依赖 CLIP 作为接地 Reward 的监督信号，其质量受限于 CLIP 模型本身的理解能力。在极端或对抗性样本上，这种对齐可能失效。

未来展望 ：

扩展至视频与规划 ：未来的工作可以将 OmniDrive-R1 扩展到视频输入，使其能进行时序推理和预测，并最终与低层的运动规划模块结合，形成完整的端到端驾驶系统。

探索更高效的训练 ：研究参数高效的微调方法、离线强化学习或更高效的 Reward 设计，以降低训练成本。

多Agent协同场景 ：在车路协同或密集交通流中，研究多个具备 iMCoT 能力的 Agent 如何通过通信进行协同推理与决策，将是一个充满前景的方向。

OmniDrive-R1 通过强化学习驱动的交错式多模态思维链，为构建可信、可解释、高保真 的视觉语言自动驾驶系统开辟了一条切实可行的路径。它证明，让模型学会“主动地看”与“连贯地想”，是攻克安全关键领域AI部署可靠性障碍的关键。

参考

OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving