veMLP x veRL ：玩转强化学习训练

ICLR 2025 大会即将在新加坡圆满落幕，作为机器学习领域的顶尖学术会议，ICLR 聚集了来自全球的学者与产业界代表。4 月 26 日，字节跳动开源强化学习框架 veRL 的核心参与者童雨轩、禹棋赢以《verl: Flexible and Efficient Infrastructures for Post-training LLMs》为主题，分享了这一框架的技术研发与落地经验，并在问答环节与现场观众展开热烈的互动讨论。

veRL：灵活高效的强化学习框架

veRL 是字节跳动开源的强化学习框架，兼具灵活性、高效性和稳定性，且十分适用于生产环境，为大型语言模型的训练提供了强大的支持。目前 veRL 已在 GitHub 开源，广泛应用于众多优秀项目，赢得了全球开发者的关注：

灵活易用：通过混合编程模型，能轻松扩展多种强化学习算法。即使对 RL 不了解的用户，也能通过几行代码构建复杂的后训练数据流。
速度更快：集成先进的 LLM 训练和推理框架，实现高生成和训练吞吐量，训练吞吐量相比其他框架最高提升20 倍。
开源生态：模块化 API 可实现与现有 LLM 框架的无缝集成；支持在不同 GPU 组合上灵活部署模型；能与 HuggingFace 模型集成。

veMLP深度集成 veRL，提供一站式模型定制方案

火山引擎机器学习平台（veMLP）是面向机器学习应用开发者，提供丰富的建模调试工具以及多框架、高性能推理服务的企业级云原生机器学习平台。具备丰富开源模型支持、高效稳定、成本优化、开发友好四大特点，向企业提供一站式 AI 基础设施解决方案。

为了帮助企业及开发者更高效地进行强化学习训练，提升模型效果，veMLP 深度集成 veRL 框架，推出完整的模型训练解决方案，从集群部署、任务监控到实验管理，为用户提供一站式模型训练体验。

Ray 集群一键拉起

传统 Ray 集群的搭建往往需要专业运维人员花费大量时间进行配置和调试。机器学习平台打破了传统的复杂流程，支持一键拉起 Ray 集群，大幅降低使用门槛。

picture.image

训练状态一目了然

veMLP 提供了可视化监控工具，让用户随时掌握训练动态。发起训练任务后，用户可通过原生 Ray Dashboard / HistoryServer 查看详细任务运行状态和日志，更好管理任务进程。

picture.image

全维度实验管理

支持监测不同模型的实验对比，包括训练过程中的各项指标、不同数据集上的评测效果、训练耗时等，实验数据直观呈现。

picture.image

强强联合，共创丝滑训练体验

veRL 和 veMLP 可以说是真正的"亲兄弟"，都由字节跳动团队开发维护，这样的组合意味着您能获得更顺畅的模型训练体验。

通过 veMLP，可以最快获知 veRL 的重要更新，为技术升级做好充分准备。veRL 的新版本也会第一时间同步上线 veMLP，确保用户始终使用最稳定、最优化的生产级方案。

即刻解锁高效训练新姿势

veMLP 已发布使用 veRL 进行 GRPO 强化学习训练最佳实践！欢迎大家点击链接立即体验，轻松部署 veRL，开启高效强化学习训练之旅，训练您的专属模型！

veRL：灵活高效的强化学习框架

veMLP深度 集成 veRL，提供一站式模型定制方案

强强联合，共创丝滑训练体验

即刻解锁高效训练新姿势

veMLP深度集成 veRL，提供一站式模型定制方案