长安&中科院提出TakeAD | 让端到端告别“马路杀手”，利用接管数据让AI司机从“学步”到“狂奔” - 文章 - 开发者社区

picture.image

你的端到端自动驾驶模型在开环测试中表现完美，一旦闭环上路却频频“翻车”？99%的研究者都忽略了这关键一步——利用人类接管数据。

你的自动驾驶模型是否陷入了这样的困境：在开环测试中规划轨迹精准无比，可一旦投入闭环仿真，车辆却像“新手司机”一样，在复杂路口犹豫不决，甚至与障碍物“亲密接触”？这背后的罪魁祸首，正是开环训练与闭环部署之间的致命错位 。

模仿学习教会了模型“照猫画虎”，却无法应对误差累积带来的连锁反应。当车辆偏离理想轨迹，模型便陷入“脱离状态”——这正是现实世界需要人类驾驶员紧急接管的时刻。这些宝贵的接管数据，恰恰是提升AI驾驶能力的黄金样本 。

今天，一项名为TakeAD 的突破性研究，为我们打开了利用这些“失败案例”提升模型能力的大门。它不仅将驾驶得分提升了12.50% ，更关键的是，它提出了一套完整的数据收集-优化框架 ，让AI司机学会从“错误”中成长。

读完本文，你将彻底掌握：

如何像真实系统一样，自动化收集高质量的专家接管数据 2. 2. DAgger与DPO双剑合璧，如何分阶段“治愈”模型的开环顽疾

轨迹规划+反应控制“两条腿走路”，如何让驾驶既稳健又敏捷

❓ 核心痛点：为什么你的“完美模型”一上路就“翻车”？

想象一下：你训练了一个端到端自动驾驶模型，它在开环评估（用历史数据验证预测轨迹）中表现优异，规划出的未来轨迹与人类演示几乎重合。你满怀信心地将它部署到CARLA等仿真环境中进行闭环测试（模型输出直接控制车辆，影响下一帧输入）。

结果却令人沮丧。车辆在直道上行驶尚可，但一到无保护左转 、行人突然横穿 或前车急刹 等交互场景，模型便开始“不知所措”。微小的转向误差会不断累积，车辆逐渐偏离安全走廊，最终要么撞上障碍物，要么彻底“卡死”在路口——这就是所谓的“脱离状态”。

问题的根源在于模仿学习（IL）的先天缺陷 ：

• 开环训练 ：模型学习的是“给定完美历史状态，预测未来动作”。这就像看着后视镜开车，永远假设过去是完美的。
• 闭环部署 ：模型的动作会改变车辆状态，进而影响下一时刻的感知输入。一旦某个动作出错，模型便进入了一个它从未在训练中见过的“新状态”，后续预测很可能一错再错。

这种“状态分布偏移”是模仿学习阿喀琉斯之踵。更棘手的是，当仿真或真实车辆进入危险状态时，安全机制会触发人类接管 。这些接管时刻的数据——车辆处于何种危险状态、专家如何操作使其化险为夷——蕴含着极高的价值，但传统上却被当作“失败日志”丢弃，或因为缺乏开源数据而难以利用。

但为什么绝大多数后优化尝试都收效甚微？ 关键在于两点：数据不对 与目标模糊 。直接用常规演示数据微调，治标不治本；而要为复杂的驾驶行为设计一个完美的奖励函数（Reward），更是难如登天。

TakeAD的突破，正是从直面这两个核心挑战开始的。

🧠 整体架构：一张图看懂TakeAD如何“治病救人”

TakeAD的核心思想非常直观：既然模型会在某些场景下“犯错”并导致接管，那就专门收集这些“犯错”场景的数据，然后教模型在类似场景下做出和专家一样的“正确”选择。

该方法通过 “自动化接管数据收集” 与 “DAgger+DPO两阶段优化” 的协同，从根本上将“失败案例”转化为模型能力提升的“训练样本”。为了帮你快速把握全局脉络，我们先看这张核心架构思维导图——

picture.image

图：TakeAD整体框架思维导图，清晰展示了从数据收集、基础模型到两阶段后优化的完整流程 从上图可以看到，TakeAD始于一个强大的基础驾驶策略 ，它具备感知、预测、规划和控制的全栈能力。当这个策略在闭环中“犯错”时，影子专家 会介入接管，并记录下宝贵的干预数据。随后，这些数据被送入两阶段优化引擎 ：先通过DAgger让模型“学会”专家的纠正动作，再通过DPO让模型“理解”并“偏爱”专家的决策偏好。如此迭代，模型的能力边界被不断拓展。

接下来，我们逐层拆解这张图中的每个关键模块。

🚀 原理拆解：硬核但易懂

💡 双分支基础模型：规划与控制“两手抓”

在深入优化之前，需要一个强大的“底子”。TakeAD的基础模型是一个混合架构 ，同时输出长期轨迹 和瞬时控制信号 。为什么要设计两个分支？

长期轨迹分支 负责大局观。它将未来几秒的车辆路径离散化为一个包含4096种可能轨迹的“词汇表”。模型的任务是计算每种轨迹的概率。这就像为车辆规划多条可能的“车道”，选出最安全、最合规的一条。轨迹规划的优势在于平滑、稳定，适合常规巡航。

瞬时控制分支 负责快速反应。它将油门、刹车、转向分别离散化（如油门5档、刹车2档、转向9档），直接预测下一秒的控制指令。这相当于给车辆安装了“条件反射”神经，能在突发情况下（如前车突然并线）做出毫秒级响应，弥补了轨迹规划反应慢的缺点。

两个分支如何协作？
在推理时，模型会从轨迹分支采样一条最优轨迹，并通过PID控制器将其转换为一组控制信号 (throttle_traj, brake_traj, steer_traj)。同时，从控制分支采样另一组控制信号 (throttle_ctrl, brake_ctrl, steer_ctrl)。最终输出采用一种巧妙的融合策略：

油门和转向取平均 ，兼顾了长期规划的平稳性与即时控制的灵活性。刹车取最大值 ，则体现了安全第一的原则——只要任何一个分支认为需要刹车，车辆就会制动。这种设计让模型在常规场景下稳健，在危急场景下敏捷。

💡 自动化接管数据收集：让“影子专家”当教练

有了基础模型，下一步是收集它的“犯错”数据。TakeAD模拟了真实自动驾驶系统的接管逻辑。

谁是“专家”？ 研究采用PDM-Lite，这是一个基于规则的策略，能够直接访问仿真器的“上帝视角”（完美感知信息）。它在已知的排行榜上表现顶尖，足以胜任“教练”角色。

何时触发接管？ 专家策略以后台“影子模式”运行，并行监控模型驾驶。一旦满足以下任一条件，立即接管2秒钟：

碰撞预警 ：专家预测未来会发生碰撞。

航向偏差 ：模型预测的转向角与专家转向角的差值超过阈值（例如0.2弧度）。

这个过程是全自动的。研究者首先筛选出平均驾驶评分低于60的高风险场景类型（如复杂路口），让基础模型在这些路线上闭环行驶。专家在旁默默观察，一旦模型“即将出事”，便出手干预并记录下干预前后几秒的所有传感器数据、模型输出和专家动作。

💡 实战思考 ：这个流程的精妙之处在于高效筛选 。与其在茫茫数据中寻找罕见脱离事件，不如主动去最危险的地方“测试”模型，从而针对性收集高价值数据。

💡 第一阶段：DAgger——先“模仿”救命动作

拿到接管数据后，如何用它训练模型？直接微调？没那么简单。

DAgger（数据集聚合） 是一种经典的在线模仿学习算法。它的核心思想是：不断用当前策略去交互，收集它“不会开”的场景数据（即接管数据），并把专家的正确动作作为标签，加入到训练集中，然后更新策略。

在TakeAD中，DAgger阶段的目标很明确：让模型先“学会”在脱离状态下，专家具体做了什么纠正动作。 损失函数是预测分布与专家动作分布之间的KL散度：

这就好比教一个溺水的人游泳 ：先把他救上岸（专家接管），然后告诉他：“看，刚才那种情况，你应该这样划水（专家动作）。” DAgger让模型对脱离状态有了基本的“肌肉记忆”，为后续更精细的优化打下了基础。

💡 第二阶段：DPO——再“对齐”决策偏好

DAgger让模型“会做”了，但还不够。我们更希望模型在面临类似危险时，能主动选择 专家所偏好的那种行为，而不仅仅是模仿单一动作。这就是偏好对齐 。

直接偏好优化（DPO） 是大语言模型对齐中的明星技术，它无需设计复杂的奖励函数，直接利用“人类更喜欢A输出而不是B输出”这样的偏好数据来训练模型。

TakeAD创造性地将DPO应用于驾驶。在每次迭代中，对于每条接管数据：

• **偏好动作（

）** ：专家实际执行的控制动作。

• **非偏好动作（

）** ：当前模型在该状态下 最可能预测 的动作（通常是导致接管的原因）。

模型优化的目标是，增大它生成偏好动作的概率，同时减小它生成非偏好动作的概率 。研究者采用了DPO的一个高效变体——SimPO，其损失函数核心是：

简单理解 ：公式中的

可以看作模型对某个动作的“喜好分”。DPO通过优化，拉大专家动作（高分）与模型原有错误动作（低分）之间的差距。

和

是控制差距幅度的超参数。

两阶段为何缺一不可？
如果跳过DAgger直接上DPO，模型在脱离状态下可能连生成“接近正确”动作的能力都没有，DPO缺乏优化的基础。如果只用DAgger，模型只是机械模仿，可能无法深刻理解“为什么这个动作更好”。DAgger打基础，DPO塑灵魂 ，二者迭代进行，模型的能力便在一次次“犯错-纠正-理解”的循环中螺旋上升。

picture.image

图：TakeAD多轮后优化算法流程。每一轮都包含用最新策略收集数据、DAgger模仿学习、DPO偏好优化三个步骤，迭代提升性能。 📊 实验验证：数据说话

🏆 SOTA对比：全面碾压纯模仿学习

所有的设计，最终都要在残酷的闭环测试中见真章。研究在权威的Bench2Drive（B2D）基准上进行评估，包含220条高难度路线，覆盖44种交互场景。

picture.image

表1：TakeAD与SOTA方法在Bench2Drive上的闭环性能对比。驾驶分数（DS）和成功率（SR）是关键指标。 结果令人震撼 ：

• 对比基线VAD ：经过后优化，TakeAD将 驾驶分数提升了68.57% ，将 成功率提升了25.83% 。这几乎是质的飞跃。
• 对比之前最优方法DriveAdapter ：TakeAD在 驾驶分数上反超7.17分 ，在 成功率上高出7.75% 。要知道，DriveAdapter使用了更强的“专家特征蒸馏”，而TakeAD仅使用简单的导航指令。

picture.image

表2：多能力评估。TakeAD在交互、合规、泛化等多项能力上平均得分达到43.00%，全面领先。 表格清晰显示，TakeAD不仅在总分上领先，在效率（积极驾驶）和综合能力 上也表现最佳。其舒适度 略有牺牲，但这恰恰反映了它在安全与舒适间的取舍——面对危险，优先执行避障制动。

🔬 消融实验：每个组件都不可或缺

1. 双分支架构的价值

picture.image

表4：控制分支与安全缓行策略的消融研究。 仅使用轨迹分支（ID1）的模型，驾驶分数为55.27。增加多模态控制分支（ID2）后，分数立即提升5.79% 。这强有力地证明了，在端到端驾驶中，“反应式控制”这条腿至关重要。

2. DAgger与DPO的协同效应

picture.image

表5：不同后优化策略的消融研究。联合使用DAgger和DPO效果最佳。

• 只做DAgger（ID4）或只做DPO（ID5） ：虽有提升，但效果有限。DAgger只教动作，DPO在基础不好时无从优化。
• 联合优化两个分支（ID6 vs ID3） ：比只优化一个分支效果更好，说明保持规划与控制的一致性很重要。
• DAgger+DPO两阶段（ID6） ：这才是“完全体”！ 驾驶分数提升12.50%，成功率提升9.53% ，效果远超任何单阶段或单组件优化。

一个有趣发现 ：微调控制分支带来的增益高于轨迹分支。论文解释，这是因为接管操作通常是短期、紧急的，这种特性更容易被反应式控制分支捕捉和学习。

3. 迭代的力量与极限

picture.image

图4：多轮迭代后优化带来的性能增长。经过4轮迭代，性能趋于饱和。 随着迭代进行，模型性能持续提升，到第4轮时，驾驶分数和成功率相比未优化模型均提升了约15.5% 。然而，第5轮提升微乎其微，性能达到饱和 。这揭示了当前基础模型（VAD）的能力上限 ——它缺乏对交通灯状态等高级语义的理解，限制了在极端复杂场景下的进一步提升。这也为未来研究指明了方向。

4. 定性可视化：从“撞上去”到“绕过去”

picture.image

图5：后优化前后策略在挑战性场景中的行为对比。左列（优化前）车辆轨迹导致碰撞，右列（优化后）车辆成功规避。 上图直观展示了优化带来的改变。在无保护左转等场景中，优化前的模型（红色轨迹）规划路径直接导致碰撞；而经过TakeAD优化后的模型（绿色轨迹）则学会了更谨慎、更安全的转弯路径，成功避免事故。

⚖️ 客观评价

TakeAD的优势显而易见 ：

方法论创新 ：首次系统性地将人类接管数据收集与DPO偏好学习引入端到端自动驾驶后优化，思路清晰且有效。

性能强劲 ：在极具挑战性的基准测试中达到SOTA，验证了框架的威力。

框架通用 ：其数据收集和两阶段优化思路，理论上可以适配不同的基础驾驶模型。

仍需正视的局限性 ：

基础模型瓶颈 ：如实验所示，性能提升受限于基础模型的能力。如果基础模型无法感知交通灯，再优秀的后优化也难以教会它“红灯停、绿灯行”。

依赖规则后处理 ：为了缓解模型“停车后卡死”的惯性问题，论文仍需引入一个基于规则的安全缓行策略。理想的端到端模型应完全内化这种能力。

计算开销 ：多轮迭代收集数据和训练需要可观的计算资源（文中使用多块A800 GPU），每轮约18小时。这对于快速迭代是个挑战。

🌟 价值升华与行动号召

TakeAD为我们上了一堂生动的“失败学”课程：在AI驾驶领域，每一次接管都不是终点，而是模型能力跃升的起点。

核心收获三点 ：

数据策略的转变 ：从“堆砌普通数据”转向“挖掘关键数据”。接管数据是模型能力的“探针”和“补丁”。

优化目标的进化 ：从“模仿动作”升级到“对齐偏好”。DPO让模型理解了“好”与“更好”的区别。

系统设计的融合 ： “规划”与“控制”双分支架构 ，配合 DAgger与DPO两阶段优化 ，构成了一个兼顾长期稳健与短期敏捷的完整技术体系。

这项研究不仅提升了自动驾驶模型的性能，更提供了一种利用交互数据 和偏好学习 来攻克AI系统“开环-闭环”鸿沟的范式。其思想很可能辐射到机器人控制、游戏AI等需要连续决策的领域。

🤔 深度思考 ：你认为TakeAD这套“从接管中学习”的范式，最可能率先在哪个AI应用场景落地？是物流仓库的AMR机器人，还是家庭服务机器人？欢迎在评论区留下你的观点！

💝 支持原创 ：如果这篇近4000字的深度解读帮你理清了端到端自动驾驶优化的新思路，点赞+在看 就是最好的支持！分享给你的技术伙伴，一起探讨AI驾驶的未来！

🔔 关注提醒 ：设为星标，第一时间获取最前沿、最深度的AI技术解读！

#AI技术 #自动驾驶 #模仿学习 #强化学习 #论文解读

参考

TakeAD: Preference-based Post-optimization for End-to-end Autonomous Driving with Expert Takeover Data