veRL for Training Coding Agent
79
14
更新时间:

资源介绍

随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。

资源详情

演讲介绍: 随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。

主要内容:

  1. DeepSeek r1 RL的训练范式
  2. verl简介
  3. 使用verl训练coding agent

听众受益:

  • 了解大模型是如何使用强化学习训练的
  • 了解类似ClaudeCode背后的模型是如何训练的