点击上方👆蓝字关注我们!
自动驾驶模型训练三大困境
随着自动驾驶向 L4 + 进阶,在智驾模型训练领域面临着 「三难困境」:
问题一:模型多样性与工程难题并存
传统智驾模型架构多元(BEV、YOLO 等),并行方式以数据并行(DDP)为主,大模型框架的功能无法复用;且智能驾驶模型中的特殊算子占据了大部分训练时间,对这些特殊算子进行优化的需求极为迫切,部分模型的热点集中在中央处理器(CPU)优化难度陡增。
问题二:数据处理与资源利用难题
自动驾驶训练涉及 PB 级多模态数据,数据格式丰富多样,为提高数据使用速度,通常利用在线数据预处理方式,训练加载数据的同时利用本地 CPU 算力做数据预处理,但预处理很容易跟训练作业竞争 CPU 资源,导致 GPU 算力不能正常发挥,降低了模型训练效率,反而延长了模型迭代周期。
问题三:VLM 和 VLA 等技术的应用
VLA 的模型在自动驾驶领域已经开始应用,结合强化学习能够得到显著的性能提升。这类新的模型跟传统自动驾驶模型规模差异明显,对底层资源的需求也更高。端到端的智能驾驶模型正朝着 VLM 和 VLA 方向发展,模型规模庞大,参数数量达到上亿级别。模型规模的增大给模型训练的稳定性和效率带来了挑战。
veFusionX:专为自动驾驶训练设计的“效率引擎”
为了应对这些挑战,火山引擎推出 veFusionX 自动驾驶全场景训练加速框架—— 定位为「即插即用的效率套件」,覆盖传统智驾模型 + 端到端 VLM/VLA 大模型。
veFusionX 的核心目标是:用最少的代码改动,换最大的效率提升—— 只需两行代码,就能让数据吞吐提升 100%;同时兼容多硬件平台,降低开发者迁移成本。
场景化方案:主流模型性能直接翻倍
针对 BEVFusion、BEVFormer 、Sparse4D,MapTR v2 和 YOLO 等常用开源模型,veFusionX 做了 “手术刀式” 优化,性能相比开源版本提高 1 倍以上:
- 算子优化:通过重写/融合算子,降低算法复杂度,显著提升 GPU 利用率,并减少 Kernel Launch 开销;
- IO 加速:优化数据加载逻辑,减少数据加载时间,提 IO 带宽利用率;
- CPU 增效:重新实现部分计算逻辑,提高 CPU 计算效率。
veOmni 框架:千卡集群也能轻装上阵
面对 VLM/VLA 大模型的 “规模压力”,veFusionX 集成了 veOmni 训练框架:
- 支持在千卡级 GPU 集群上自动完成权重张量的切分、通信拓扑的优化、动态显存回收和异步 checkpoint,在开源的 Wan 2.1 等模型上实测显示,相较于同类开源方案,VeOmni 能够将训练吞吐提高超过 40%;
- 对 Qwen2.5-VL 模型,基于原厂开源框架做性能优化,大幅提升训练性能,并结合 verl 框架实现后训练,利用强化学习进一步提高模型能力。
强化学习:让模型更会决策
下一代智驾模型的核心,是 “端到端决策能力”—— 而强化学习(RL)是提升这一能力的关键。veFusionX 集成火山开源强化学习库 veRL,为 VLA 模型注入 “决策智慧”:
- veRL 的定位:火山引擎推出的 LLM 强化学习库,具备 “灵活配置 + 高效训练” 的特性,已通过 GitHub 开源(https://github.com/volcengine/verl),广受开发者关注;
- 对 VLA 的价值:通过强化学习优化 VLA 的 “动作输出”—— 比如在复杂路口的轨迹规划、突发行人的紧急避让、高速领航的变道决策等场景,让模型从 “机械执行规则” 升级为 “智能适应场景”。
平台兜底:大规模训练不掉链
基于火山引擎 veMLP 机器学习平台,veFusionX 天生具备大规模训练稳定性:
-
平台千卡 / 万卡集群持续稳定运行,避免训练中途 “崩掉”;
-
搭配火山大数据 EMR 平台,不仅供 Hadoop、Spark、Hive、Flink 等生态组件集成和管理,支持智驾模型数据处理,还提供了远程 data loader 能力,能够实现在线数据预处理,端到端效率直接拉满。
用效果说话:全链路效率“质的飞跃”
优化方案
veFusionX 训练框架从多方面对智驾模型训练性能进行优化:
- 在 GPU 算子的算法上优化,比如降低算子的时间复杂度,并结合融合算子、Cuda Graph 等技术提升了计算性能;
- 在模型层面,适配多样化的智驾模型,解决因模型参数量小、并行方式特殊以及特殊算子占用时间长等带来的训练难题;
- 在 IO 上,对数据加载和传输环节进行优化,例如消灭 munmap 和 htod 耗时,消除了 DataLoader 在性能上的开销;
- 在 PyTorch 方面,结合各种训练框架特点进行专项调优;
- 在通讯上也通过 NCCL 异步通信等优化举措,保障数据传输的高效性。
优化效果
通过这些多维度的优化,veFusionX 显著提升智驾模型的训练性能:
- veFusionX 已将大部分主流智驾模型性能提升至开源基线的 2 倍,后续还将持续优化以实现更高性能;
- 该技术也针对 VLM(Qwen2.5-VL)和 VLA(Lerobot pi0)模型进行了优化,有效支持下一代智驾模型迭代。
veFusionX 为自动驾驶领域的模型训练提供了强大的支持,它既满足了智驾模型的特殊需求,又提高了训练效率和资源利用率,减少了训练时间和成本,助力自动驾驶技术的发展。
如何用 veFusionX?两行代码敲定!
火山引擎机器学习平台 veMLP 提供镜像,可快速使用 veFusionX 训练智驾模型,点击「阅读原文」即可快速使用。具体使用方法:
- 从快速入门选择需要训练的智驾模型,并且配置实例规格及模型输出路径。
- 创建任务后可在「任务详情-日志」中查看训练详情,也可在「任务详情-监控」中查看资源利用率。
点击【阅读原文】快速使用!