华科&小米提出 DriveLaW | 世界模型与E2E双向奔赴,视频预测与端到端规划终于实现统一

picture.image

你以为的世界模型还在“并行”生成视频和轨迹?真正的统一,是把视频生成器的“大脑”直接注入规划器。


对本文内容有疑问或想深入交流?欢迎添加小助手微信,加入读者讨论群。

picture.image

你有没有想过,为什么自动驾驶系统在训练场表现完美,一到真实世界的复杂路口就“大脑宕机”?

根本原因在于“想象”与“行动”的割裂 。当前的世界模型,表面上是一个整体,实际上视频生成器和轨迹规划器是“各干各的”。视频生成器能合成高保真未来画面,但它对物理规律的理解,却无法直接传递给决定方向盘怎么转的规划器。这就像一个赛车手,眼睛看着完美的行车线,手脚却不受控制。

今天要解读的这项研究,彻底颠覆了这一范式 。它提出了 DriveLaW ,一个真正意义上将视频生成与运动规划串联 起来的潜在世界模型。它不再让两个模块并行工作,而是让视频生成器的“大脑”——其内部的潜在表征——直接指导规划器生成轨迹。

结果如何?在权威的nuScenes数据集上,其视频预测质量(FID指标)比之前最好的方法高出33.3% 。更关键的是,在NAVSIM规划基准测试中,它无需任何后处理或强化学习微调 ,就刷新了纪录。这证明,当“想象”与“行动”真正统一时,自动驾驶的决策会变得前所未有的可靠与一致

❓ 为什么99%的世界模型都在“假装统一”?

自动驾驶的终极挑战,是应对现实世界中无穷无尽的长尾场景。世界模型被寄予厚望,它通过学习海量驾驶视频,理应能“想象”出未来几秒的场景演变,从而为规划提供前瞻性指导。

然而,现状却令人尴尬。当前主流的世界模型,看似统一,实则“貌合神离”。它们大致可以分为三类:

模拟器型 :单纯合成数据给下游规划器训练, 理解不传递

监督型 :预测未来视觉信号来监督规划, 规划仍独立

伪统一型 :在一个模型里同时生成视频和轨迹,但 内部表征是割裂的

最关键的问题出在第三类。像Epona、DriveVLA-W0等方法,虽然用一个架构输出视频和轨迹,但视频生成器的内部潜在变量,并没有被用作规划器的“状态” 。规划器看到的,可能还是传统的鸟瞰图(BEV)或经过其他编码的特征。这就好比两个人共用一台电脑,但显示器(视频生成)和主机(规划决策)之间,隔着一层不透明的毛玻璃——视觉想象再丰富,也无法精准指导动作选择

这种割裂导致了一个根本矛盾:追求高保真视频合成需要复杂的模型和计算,而实时可靠的规划则要求轻量和稳定。两者在优化目标上相互拉扯,难以兼顾。

但为什么99%的优化尝试都失败了?关键就在于架构设计上没能实现真正的“脑机互联” 。DriveLaW的突破,正是从改变这个最根本的链接方式开始的。

为了帮你快速把握全局脉络,我们先看这张核心架构思维导图——它清晰地展示了如何通过“串联”而非“并联”,让视频生成的大脑直接驱动规划的手脚。

picture.image

图:DriveLaW统一架构思维导图,清晰展示了从视频潜在空间到扩散规划器的级联式信息流 接下来,我们逐层拆解这张图中的每个关键模块,看看它是如何实现“想象即决策”的。

🚀 从“并行”到“串联”的范式革命

DriveLaW的核心思想极其简洁有力:将视频生成器的潜在表征,直接作为扩散规划器的条件输入 。这不再是两个模块共享一个黑箱,而是让前者的“思考结果”成为后者“决策依据”的明线。

整个系统由两大核心组件构成:DriveLaW-Video (世界模型)和 DriveLaW-Act (扩散规划器),并通过一套精妙的三阶段训练策略进行协调。

💡 世界模型:DriveLaW-Video

目标 :从海量驾驶视频中,学习一个高压缩、高保真且富含物理规律的时空潜在空间。

1. 时空VAE:激进的压缩艺术
传统视频生成模型的压缩率通常在1:48到1:96之间。DriveLaW-Video采用了一个时空变分自编码器(Spatiotemporal VAE) ,实现了惊人的 1:192整体压缩率 (像素与Token之比达1:8192)。

这意味着什么?在相同的计算预算下,它能建模更长的时序依赖 (如等待红灯、复杂变道),这对于理解驾驶场景的演变至关重要。其编码器使用因果3D卷积 ,确保每个时间步只依赖过去和当前帧,防止信息泄露,完美契合自回归预测任务。

2. 混合解码:像素空间的最后精修
与传统方法在潜在空间完成所有去噪步骤不同,DriveLaW采用了一种混合策略。它在整流流调度的后期(例如

时),就将部分去噪后的潜在变量

解码回像素空间:

其中

。这里

是一个带时间条件训练的去噪解码器。

这个设计太巧妙了! 它相当于把最后的“画龙点睛”步骤放在像素空间执行,无需额外的超分辨率模块,就能以极小的计算开销,恢复出道路纹理、车辆高光、动态阴影等高频细节。

3. 噪声再注入:对抗模糊的“主动疗法”
高速驾驶场景中,大位移运动容易导致生成视频模糊、出现重影。DriveLaW没有选择全局加噪这种“粗放式”处理,而是发明了 “噪声再注入”机制 ,堪称“靶向治疗”。

  • 定位病灶 :在每个去噪步骤

,先用模型预测一个“干净版”潜在变量

,并将其解码到像素空间得到临时图像

  • 生成Mask :计算图像的灰度拉普拉斯响应,找出高频细节区域(如边缘、纹理),生成一个二值Mask

  • 精准施治 :只在这个Mask标识的高频区域,注入少量可控噪声:

  • 强迫修复 :然后将这个被“局部破坏”的

输入去噪模型,迫使模型利用其强大的生成先验,主动地、有依据地重新生成清晰的细节。

这就好比一位修复名画的专家,不是整体重刷,而是精准地在模糊处点入特殊溶剂,逼着颜料自己重新排列组合,恢复清晰 。实验证明,这一机制能显著提升时间连贯性和空间清晰度。

picture.image

图:现有世界模型与规划的关系分类。(a)模拟器型,(b)监督型,(c)伪统一型,(d) DriveLaW提出的真正串联统一型

💡 规划器:DriveLaW-Act

目标 :基于DriveLaW-Video提供的、富含世界理解的潜在特征,生成平滑、可靠且符合物理规律的轨迹。

DriveLaW-Act是一个轻量级的扩散Transformer(DiT)规划器 ,仅有1.33亿参数。它的输入包括:

  • 噪声动作

:加噪后的未来轨迹点。

  • 自车状态与指令 :当前速度、位置及高层导航命令(如“左转”)。
  • 关键条件——视频潜在特征 :从DriveLaW-Video的 第一个去噪步骤 中,缓存所有Transformer块的中间特征

规划器的核心公式如下:

这里,

是规划器的预测输出,目标是逼近干净轨迹与噪声的差值

。**视频潜在特征

通过交叉注意力机制注入,成为规划决策最直接的感知依据。**

💡 实战思考 :为什么选择第一个去噪步骤的特征?因为早期去噪步骤的特征,包含了更多关于原始场景结构和语义的信息,而后期步骤的特征更偏向于细节渲染,可能包含对规划冗余的视觉信息。这体现了作者对信息价值的深刻洞察。

picture.image

图:DriveLaW整体框架。视频生成器(上)的潜在特征被缓存,并作为条件输入到扩散规划器(下),实现从生成到规划的直接串联

💡 三阶段训练:化解矛盾的渐进课程

高保真视频合成和实时可靠规划,本质上是两个存在优化矛盾的任务。DriveLaW用一套三阶段渐进式训练策略 ,巧妙地化解了矛盾:

  • 第一阶段:学“动势” 。在**低分辨率(740×352)、长序列(121帧)**上训练。优先学习长时间、平滑的驾驶行为模式(如车道保持、转弯动力学), 建立宏观时间连贯性
  • 第二阶段:修“细节” 。切换到 高分辨率(1280×704)、短序列(25帧) 。在已习得运动规律的基础上,专注于提升空间细节保真度,如车道线、车辆纹理、环境标志。
  • 第三阶段:练“协同” 。冻结前两阶段训练好的强大视频生成器,以其潜在特征为条件, 单独训练DriveLaW-Act规划器 。至此,生成与规划在共享的潜在空间表征上实现最终统一。

这个“先宏观后微观,先独立后协同”的训练课程,确保了模型既能生成高质量视频,又能基于视频的“理解”做出稳定规划。

📊 数据与视觉的双重碾压

🏆 SOTA对比:全面领先

视频生成质量(nuScenes数据集)
在单视图视频生成任务上,DriveLaW取得了压倒性优势。

picture.image

表:在nuScenes验证集上的视频生成定量结果。DriveLaW在FID和FVD指标上均达到最优 如表所示,DriveLaW的FID低至 4.6 ,FVD低至 81.3 ,全面超越了包括GAIA-1、DriveDreamer在内的所有纯视频生成器和Epona等统一模型。FID指标相比之前最佳方法提升了33.3% ,这不仅是数字的胜利,更是其“噪声再注入”等机制带来视觉质量飞跃的证明。

运动规划性能(NAVSIM数据集)
规划器的核心评价指标是预测驾驶员模型得分(PDMS) ,它综合了安全性、合规性和驾驶效率。

picture.image

表:在NAVSIM基准测试上的闭环规划结果。DriveLaW创下PDMS新纪录 DriveLaW的PDMS高达 89.1 ,刷新了纪录。关键亮点在于:

  • 超越传统规划器 :比融合多模态传感器的DiffusionDrive高,也比利用视觉语言模型(VLM)的ReCogDrive高。
  • 超越世界模型 :比采用并行设计的Epona高 2.9 ,比采用世界模型监督的DriveVLA-W0高 1.9
  • 无需“外挂” :不依赖强化学习后训练,也不依赖额外的轨迹评分器进行后处理。 其规划能力完全内生于统一的表征学习

🔬 消融实验:关键设计的价值归因

1. 表征有效性:视频潜在特征完胜
作者对比了用不同特征作为规划器条件的性能。

picture.image

图:不同潜在表征的可视化对比。(a)BEV特征,(b)VLM特征,(c)视频生成模型(VGM)特征。VGM特征展现出最佳的语义连贯性和空间结构 可视化一目了然:BEV和VLM特征分散、不稳定;而VGM(视频生成模型)特征清晰、结构性强、噪声少 。这直接转化为了规划性能的提升。

picture.image

表:不同驾驶表征在相同扩散规划器下的PDMS对比 如表所示,使用VGM特征比使用BEV特征PDMS提升 5.0 ,比VLM特征提升 2.6 。这强有力地证明了:从大规模视频生成中学习到的表征,是用于动作决策的“更富营养”的感知源。

2. 训练策略:缺一不可
三阶段训练策略的每个环节都至关重要。

picture.image

表:不同训练阶段的消融实验结果 去掉第一阶段(长时序低分辨率),FVD(衡量时间连贯性)会暴涨,说明长时运动建模是基础 。去掉第二阶段(高分辨率精修),FID和FVD都会变差,说明空间细节提升不可或缺 。只有完整的三阶段策略,才能达到最佳平衡。

3. 效率优势:又快又好
在相同的硬件设置下,DriveLaW的推理速度显著优于作为Baseline的统一模型Epona。

picture.image

表:视频生成阶段的每帧推理时间(秒)对比 尤其在更高的输出分辨率(1280×704)下,DriveLaW的每帧生成速度(0.39秒)比Epona(0.88秒)快了两倍多 。这得益于其高压缩VAE和高效的架构设计,实现了性能与效率的兼得。

picture.image

图:与Epona的定性对比。DriveLaW生成的车辆细节更清晰,行人轮廓更完整,对远处货车的识别和保持也更准确 ⚖️ 客观评价

优势与贡献

范式创新 :首次实现视频生成与运动规划在潜在表征层面的真正串联,弥合了“感知”与“控制”的语义鸿沟。

技术精妙 :噪声再注入、混合解码、三阶段训练等设计,针对性地解决了高保真生成与稳定规划之间的矛盾。

性能卓越 :在视频生成和轨迹规划两大核心任务上均达到新的SOTA,且推理效率高。

启发性强 :为“以生成模型作为通用世界理解器来驱动决策”的研究方向提供了强有力的实证。

局限性与挑战

计算需求 :尽管推理高效,但训练这样一个20亿参数的视频DiT模型,仍需庞大的计算资源和海量驾驶视频数据。

实时性边界 :当前30步的视频采样和5步的轨迹采样,在极端复杂的城市场景中,可能仍需进一步优化以满足更高帧率的实时决策需求。

长尾泛化 :虽然性能卓越,但其在极端罕见、未见过的“角案例”(Corner Case)上的表现,仍需在更复杂的仿真和真实路测中验证。

🌟 价值升华

DriveLaW不仅仅是一个性能更强的模型,它更指向了自动驾驶AI系统演进的一个重要方向:构建一个拥有“内省”能力的统一世界模型 。这个模型不仅能“看”和“预测”,更能将其对物理世界的深刻理解,直接转化为连贯、安全的“行动”。

这项研究告诉我们:

  • 统一不是简单的模块堆叠 ,而是 信息流的深度串联与融合
  • 生成模型不仅是渲染工具 ,更是 学习世界可泛化表征的超级大脑
  • 化解优化矛盾 需要精巧的 架构设计与训练策略协同

对于每一位AI研发者而言,理解这种“从并行到串联”的范式转变,思考如何将大模型强大的感知与生成先验,更直接、更有效地注入到决策闭环中,将是解锁下一代智能体能力的关键。


🤔 深度思考 :你认为DriveLaW这种“视频大脑驱动规划”的范式,最可能率先在哪个具体场景(如高速巡航、城市拥堵、无保护左转)中展现出颠覆性优势?欢迎在评论区留下你的观点!

💝 支持原创 :如果这篇近5000字的深度解读帮你洞悉了世界模型的前沿进展,点赞+在看 就是最好的支持!分享 给你的技术伙伴,一起探讨自动驾驶的未来!

🔔 关注提醒 :设为星标,第一时间获取更多硬核AI论文解读与技术洞见!

#AI技术 #自动驾驶 #世界模型 #深度学习 #论文解读 #扩散模型 #规划控制

参考

DriveLaW: Unifying Planning and Video Generation in a Latent Driving World

0
0
0
0
评论
未登录
暂无评论