长安&中科院提出TakeAD | 让端到端告别“马路杀手”,利用接管数据让AI司机从“学步”到“狂奔”

picture.image

你的端到端自动驾驶模型在开环测试中表现完美,一旦闭环上路却频频“翻车”?99%的研究者都忽略了这关键一步——利用人类接管数据。

你的自动驾驶模型是否陷入了这样的困境:在开环测试中规划轨迹精准无比,可一旦投入闭环仿真,车辆却像“新手司机”一样,在复杂路口犹豫不决,甚至与障碍物“亲密接触”?这背后的罪魁祸首,正是开环训练与闭环部署之间的致命错位

模仿学习教会了模型“照猫画虎”,却无法应对误差累积带来的连锁反应。当车辆偏离理想轨迹,模型便陷入“脱离状态”——这正是现实世界需要人类驾驶员紧急接管的时刻。这些宝贵的接管数据,恰恰是提升AI驾驶能力的黄金样本

今天,一项名为TakeAD 的突破性研究,为我们打开了利用这些“失败案例”提升模型能力的大门。它不仅将驾驶得分提升了12.50% ,更关键的是,它提出了一套完整的数据收集-优化框架 ,让AI司机学会从“错误”中成长。

读完本文,你将彻底掌握:

如何像真实系统一样,自动化收集高质量的专家接管数据 2. 2. DAgger与DPO双剑合璧,如何分阶段“治愈”模型的开环顽疾

轨迹规划+反应控制“两条腿走路”,如何让驾驶既稳健又敏捷


❓ 核心痛点:为什么你的“完美模型”一上路就“翻车”?

想象一下:你训练了一个端到端自动驾驶模型,它在开环评估(用历史数据验证预测轨迹)中表现优异,规划出的未来轨迹与人类演示几乎重合。你满怀信心地将它部署到CARLA等仿真环境中进行闭环测试(模型输出直接控制车辆,影响下一帧输入)。

结果却令人沮丧。车辆在直道上行驶尚可,但一到无保护左转行人突然横穿前车急刹 等交互场景,模型便开始“不知所措”。微小的转向误差会不断累积,车辆逐渐偏离安全走廊,最终要么撞上障碍物,要么彻底“卡死”在路口——这就是所谓的“脱离状态”。

问题的根源在于模仿学习(IL)的先天缺陷

  • 开环训练 :模型学习的是“给定完美历史状态,预测未来动作”。这就像看着后视镜开车,永远假设过去是完美的。
  • 闭环部署 :模型的动作会改变车辆状态,进而影响下一时刻的感知输入。一旦某个动作出错,模型便进入了一个它从未在训练中见过的“新状态”,后续预测很可能一错再错。

这种“状态分布偏移”是模仿学习阿喀琉斯之踵。更棘手的是,当仿真或真实车辆进入危险状态时,安全机制会触发人类接管 。这些接管时刻的数据——车辆处于何种危险状态、专家如何操作使其化险为夷——蕴含着极高的价值,但传统上却被当作“失败日志”丢弃,或因为缺乏开源数据而难以利用。

但为什么绝大多数后优化尝试都收效甚微? 关键在于两点:数据不对目标模糊 。直接用常规演示数据微调,治标不治本;而要为复杂的驾驶行为设计一个完美的奖励函数(Reward),更是难如登天。

TakeAD的突破,正是从直面这两个核心挑战开始的。

🧠 整体架构:一张图看懂TakeAD如何“治病救人”

TakeAD的核心思想非常直观:既然模型会在某些场景下“犯错”并导致接管,那就专门收集这些“犯错”场景的数据,然后教模型在类似场景下做出和专家一样的“正确”选择。

该方法通过 “自动化接管数据收集”“DAgger+DPO两阶段优化” 的协同,从根本上将“失败案例”转化为模型能力提升的“训练样本”。为了帮你快速把握全局脉络,我们先看这张核心架构思维导图——

picture.image

图:TakeAD整体框架思维导图,清晰展示了从数据收集、基础模型到两阶段后优化的完整流程 从上图可以看到,TakeAD始于一个强大的基础驾驶策略 ,它具备感知、预测、规划和控制的全栈能力。当这个策略在闭环中“犯错”时,影子专家 会介入接管,并记录下宝贵的干预数据。随后,这些数据被送入两阶段优化引擎 :先通过DAgger让模型“学会”专家的纠正动作,再通过DPO让模型“理解”并“偏爱”专家的决策偏好。如此迭代,模型的能力边界被不断拓展。

接下来,我们逐层拆解这张图中的每个关键模块。

🚀 原理拆解:硬核但易懂

💡 双分支基础模型:规划与控制“两手抓”

在深入优化之前,需要一个强大的“底子”。TakeAD的基础模型是一个混合架构 ,同时输出长期轨迹瞬时控制信号 。为什么要设计两个分支?

长期轨迹分支 负责大局观。它将未来几秒的车辆路径离散化为一个包含4096种可能轨迹的“词汇表”。模型的任务是计算每种轨迹的概率。这就像为车辆规划多条可能的“车道”,选出最安全、最合规的一条。轨迹规划的优势在于平滑、稳定,适合常规巡航。

瞬时控制分支 负责快速反应。它将油门、刹车、转向分别离散化(如油门5档、刹车2档、转向9档),直接预测下一秒的控制指令。这相当于给车辆安装了“条件反射”神经,能在突发情况下(如前车突然并线)做出毫秒级响应,弥补了轨迹规划反应慢的缺点。

两个分支如何协作?
在推理时,模型会从轨迹分支采样一条最优轨迹,并通过PID控制器将其转换为一组控制信号 (throttle_traj, brake_traj, steer_traj)。同时,从控制分支采样另一组控制信号 (throttle_ctrl, brake_ctrl, steer_ctrl)。最终输出采用一种巧妙的融合策略:

油门和转向取平均 ,兼顾了长期规划的平稳性与即时控制的灵活性。刹车取最大值 ,则体现了安全第一的原则——只要任何一个分支认为需要刹车,车辆就会制动。这种设计让模型在常规场景下稳健,在危急场景下敏捷。

💡 自动化接管数据收集:让“影子专家”当教练

有了基础模型,下一步是收集它的“犯错”数据。TakeAD模拟了真实自动驾驶系统的接管逻辑。

谁是“专家”? 研究采用PDM-Lite,这是一个基于规则的策略,能够直接访问仿真器的“上帝视角”(完美感知信息)。它在已知的排行榜上表现顶尖,足以胜任“教练”角色。

何时触发接管? 专家策略以后台“影子模式”运行,并行监控模型驾驶。一旦满足以下任一条件,立即接管2秒钟:

碰撞预警 :专家预测未来会发生碰撞。

航向偏差 :模型预测的转向角与专家转向角的差值超过阈值(例如0.2弧度)。

这个过程是全自动的。研究者首先筛选出平均驾驶评分低于60的高风险场景类型(如复杂路口),让基础模型在这些路线上闭环行驶。专家在旁默默观察,一旦模型“即将出事”,便出手干预并记录下干预前后几秒的所有传感器数据、模型输出和专家动作。

💡 实战思考 :这个流程的精妙之处在于高效筛选 。与其在茫茫数据中寻找罕见脱离事件,不如主动去最危险的地方“测试”模型,从而针对性收集高价值数据。

💡 第一阶段:DAgger——先“模仿”救命动作

拿到接管数据后,如何用它训练模型?直接微调?没那么简单。

DAgger(数据集聚合) 是一种经典的在线模仿学习算法。它的核心思想是:不断用当前策略去交互,收集它“不会开”的场景数据(即接管数据),并把专家的正确动作作为标签,加入到训练集中,然后更新策略。

在TakeAD中,DAgger阶段的目标很明确:让模型先“学会”在脱离状态下,专家具体做了什么纠正动作。 损失函数是预测分布与专家动作分布之间的KL散度:

这就好比教一个溺水的人游泳 :先把他救上岸(专家接管),然后告诉他:“看,刚才那种情况,你应该这样划水(专家动作)。” DAgger让模型对脱离状态有了基本的“肌肉记忆”,为后续更精细的优化打下了基础。

💡 第二阶段:DPO——再“对齐”决策偏好

DAgger让模型“会做”了,但还不够。我们更希望模型在面临类似危险时,能主动选择 专家所偏好的那种行为,而不仅仅是模仿单一动作。这就是偏好对齐

直接偏好优化(DPO) 是大语言模型对齐中的明星技术,它无需设计复杂的奖励函数,直接利用“人类更喜欢A输出而不是B输出”这样的偏好数据来训练模型。

TakeAD创造性地将DPO应用于驾驶。在每次迭代中,对于每条接管数据:

  • • **偏好动作(

)** :专家实际执行的控制动作。

  • • **非偏好动作(

)** :当前模型在该状态下 最可能预测 的动作(通常是导致接管的原因)。

模型优化的目标是,增大它生成偏好动作的概率,同时减小它生成非偏好动作的概率 。研究者采用了DPO的一个高效变体——SimPO,其损失函数核心是:

简单理解 :公式中的

可以看作模型对某个动作的“喜好分”。DPO通过优化,拉大专家动作(高分)与模型原有错误动作(低分)之间的差距。

是控制差距幅度的超参数。

两阶段为何缺一不可?
如果跳过DAgger直接上DPO,模型在脱离状态下可能连生成“接近正确”动作的能力都没有,DPO缺乏优化的基础。如果只用DAgger,模型只是机械模仿,可能无法深刻理解“为什么这个动作更好”。DAgger打基础,DPO塑灵魂 ,二者迭代进行,模型的能力便在一次次“犯错-纠正-理解”的循环中螺旋上升。

picture.image

图:TakeAD多轮后优化算法流程。每一轮都包含用最新策略收集数据、DAgger模仿学习、DPO偏好优化三个步骤,迭代提升性能。 📊 实验验证:数据说话

🏆 SOTA对比:全面碾压纯模仿学习

所有的设计,最终都要在残酷的闭环测试中见真章。研究在权威的Bench2Drive(B2D)基准上进行评估,包含220条高难度路线,覆盖44种交互场景。

picture.image

表1:TakeAD与SOTA方法在Bench2Drive上的闭环性能对比。驾驶分数(DS)和成功率(SR)是关键指标。 结果令人震撼

  • 对比基线VAD :经过后优化,TakeAD将 驾驶分数提升了68.57% ,将 成功率提升了25.83% 。这几乎是质的飞跃。
  • 对比之前最优方法DriveAdapter :TakeAD在 驾驶分数上反超7.17分 ,在 成功率上高出7.75% 。要知道,DriveAdapter使用了更强的“专家特征蒸馏”,而TakeAD仅使用简单的导航指令。

picture.image

表2:多能力评估。TakeAD在交互、合规、泛化等多项能力上平均得分达到43.00%,全面领先。 表格清晰显示,TakeAD不仅在总分上领先,在效率 (积极驾驶)和综合能力 上也表现最佳。其舒适度 略有牺牲,但这恰恰反映了它在安全与舒适间的取舍——面对危险,优先执行避障制动。

🔬 消融实验:每个组件都不可或缺

1. 双分支架构的价值

picture.image

表4:控制分支与安全缓行策略的消融研究。 仅使用轨迹分支(ID1)的模型,驾驶分数为55.27。增加多模态控制分支(ID2)后,分数立即提升5.79% 。这强有力地证明了,在端到端驾驶中,“反应式控制”这条腿至关重要。

2. DAgger与DPO的协同效应

picture.image

表5:不同后优化策略的消融研究。联合使用DAgger和DPO效果最佳。

  • 只做DAgger(ID4)或只做DPO(ID5) :虽有提升,但效果有限。DAgger只教动作,DPO在基础不好时无从优化。
  • 联合优化两个分支(ID6 vs ID3) :比只优化一个分支效果更好,说明保持规划与控制的一致性很重要。
  • DAgger+DPO两阶段(ID6) :这才是“完全体”! 驾驶分数提升12.50%,成功率提升9.53% ,效果远超任何单阶段或单组件优化。

一个有趣发现 :微调控制分支带来的增益高于轨迹分支。论文解释,这是因为接管操作通常是短期、紧急的,这种特性更容易被反应式控制分支捕捉和学习。

3. 迭代的力量与极限

picture.image

图4:多轮迭代后优化带来的性能增长。经过4轮迭代,性能趋于饱和。 随着迭代进行,模型性能持续提升,到第4轮时,驾驶分数和成功率相比未优化模型均提升了约15.5% 。然而,第5轮提升微乎其微,性能达到饱和 。这揭示了当前基础模型(VAD)的能力上限 ——它缺乏对交通灯状态等高级语义的理解,限制了在极端复杂场景下的进一步提升。这也为未来研究指明了方向。

4. 定性可视化:从“撞上去”到“绕过去”

picture.image

图5:后优化前后策略在挑战性场景中的行为对比。左列(优化前)车辆轨迹导致碰撞,右列(优化后)车辆成功规避。 上图直观展示了优化带来的改变。在无保护左转等场景中,优化前的模型(红色轨迹)规划路径直接导致碰撞;而经过TakeAD优化后的模型(绿色轨迹)则学会了更谨慎、更安全的转弯路径,成功避免事故。

⚖️ 客观评价

TakeAD的优势显而易见

方法论创新 :首次系统性地将人类接管数据收集与DPO偏好学习引入端到端自动驾驶后优化,思路清晰且有效。

性能强劲 :在极具挑战性的基准测试中达到SOTA,验证了框架的威力。

框架通用 :其数据收集和两阶段优化思路,理论上可以适配不同的基础驾驶模型。

仍需正视的局限性

基础模型瓶颈 :如实验所示,性能提升受限于基础模型的能力。如果基础模型无法感知交通灯,再优秀的后优化也难以教会它“红灯停、绿灯行”。

依赖规则后处理 :为了缓解模型“停车后卡死”的惯性问题,论文仍需引入一个基于规则的安全缓行策略。理想的端到端模型应完全内化这种能力。

计算开销 :多轮迭代收集数据和训练需要可观的计算资源(文中使用多块A800 GPU),每轮约18小时。这对于快速迭代是个挑战。

🌟 价值升华与行动号召

TakeAD为我们上了一堂生动的“失败学”课程:在AI驾驶领域,每一次接管都不是终点,而是模型能力跃升的起点。

核心收获三点

数据策略的转变 :从“堆砌普通数据”转向“挖掘关键数据”。接管数据是模型能力的“探针”和“补丁”。

优化目标的进化 :从“模仿动作”升级到“对齐偏好”。DPO让模型理解了“好”与“更好”的区别。

系统设计的融合“规划”与“控制”双分支架构 ,配合 DAgger与DPO两阶段优化 ,构成了一个兼顾长期稳健与短期敏捷的完整技术体系。

这项研究不仅提升了自动驾驶模型的性能,更提供了一种利用交互数据偏好学习 来攻克AI系统“开环-闭环”鸿沟的范式。其思想很可能辐射到机器人控制、游戏AI等需要连续决策的领域。

🤔 深度思考 :你认为TakeAD这套“从接管中学习”的范式,最可能率先在哪个AI应用场景落地?是物流仓库的AMR机器人,还是家庭服务机器人?欢迎在评论区留下你的观点!

💝 支持原创 :如果这篇近4000字的深度解读帮你理清了端到端自动驾驶优化的新思路,点赞+在看 就是最好的支持!分享 给你的技术伙伴,一起探讨AI驾驶的未来!

🔔 关注提醒 :设为星标,第一时间获取最前沿、最深度的AI技术解读!

#AI技术 #自动驾驶 #模仿学习 #强化学习 #论文解读

参考

TakeAD: Preference-based Post-optimization for End-to-end Autonomous Driving with Expert Takeover Data

0
0
0
0
评论
未登录
暂无评论