演讲介绍: 随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
主要内容:
听众受益: