ICLR 2025 大会即将在新加坡圆满落幕,作为机器学习领域的顶尖学术会议,ICLR 聚集了来自全球的学者与产业界代表。4 月 26 日,字节跳动开源强化学习框架 veRL 的核心参与者童雨轩、禹棋赢以《verl: Flexible and Efficient Infrastructures for Post-training LLMs》为主题,分享了这一框架的技术研发与落地经验,并在问答环节与现场观众展开热烈的互动讨论。
veRL:灵活高效的强化学习框架
veRL 是字节跳动开源的强化学习框架,兼具灵活性、高效性和稳定性,且十分适用于生产环境,为大型语言模型的训练提供了强大的支持。目前 veRL 已在 GitHub 开源,广泛应用于众多优秀项目,赢得了全球开发者的关注:
- 灵活易用:通过混合编程模型,能轻松扩展多种强化学习算法。即使对 RL 不了解的用户,也能通过几行代码构建复杂的后训练数据流。
- 速度更快:集成先进的 LLM 训练和推理框架,实现高生成和训练吞吐量,训练吞吐量相比其他框架最高提升20 倍。
- 开源生态:模块化 API 可实现与现有 LLM 框架的无缝集成;支持在不同 GPU 组合上灵活部署模型;能与 HuggingFace 模型集成。
veMLP深度 集成 veRL,提供一站式模型定制方案
火山引擎机器学习平台(veMLP)是面向机器学习应用开发者,提供丰富的建模调试工具以及多框架、高性能推理服务的企业级云原生机器学习平台。具备丰富开源模型支持、高效稳定、成本优化、开发友好四大特点,向企业提供一站式 AI 基础设施解决方案。
为了帮助企业及开发者更高效地进行强化学习训练,提升模型效果,veMLP 深度集成 veRL 框架,推出完整的模型训练解决方案,从集群部署、任务监控到实验管理,为用户提供一站式模型训练体验。
- Ray 集群一键拉起
传统 Ray 集群的搭建往往需要专业运维人员花费大量时间进行配置和调试。机器学习平台打破了传统的复杂流程,支持一键拉起 Ray 集群,大幅降低使用门槛。
- 训练状态一目了然
veMLP 提供了可视化监控工具,让用户随时掌握训练动态。发起训练任务后,用户可通过原生 Ray Dashboard / HistoryServer 查看详细任务运行状态和日志,更好管理任务进程。
- 全维度实验管理
支持监测不同模型的实验对比,包括训练过程中的各项指标、不同数据集上的评测效果、训练耗时等,实验数据直观呈现。
强强联合,共创丝滑训练体验
veRL 和 veMLP 可以说是真正的"亲兄弟",都由字节跳动团队开发维护,这样的组合意味着您能获得更顺畅的模型训练体验。
通过 veMLP,可以最快获知 veRL 的重要更新,为技术升级做好充分准备。veRL 的新版本也会第一时间同步上线 veMLP,确保用户始终使用最稳定、最优化的生产级方案。
即刻解锁高效训练新姿势
veMLP 已发布使用 veRL 进行 GRPO 强化学习训练最佳实践!欢迎大家点击 链接 立即体验,轻松部署 veRL,开启高效强化学习训练之旅,训练您的专属模型!