ToolRL,训练llm更好的使用工具。

大模型向量数据库机器学习

论文笔记:标题:ToolRL: Reward is All Tool Learning Needs

项目开源,https://github.com/qiancheng0/ToolRL

内容主要研究如何利用强化学习(RL)让大模型更擅长使用工具。

Agent今天爆火。这个工作可能对小伙伴们有些帮助。

以前,大伙喜欢用sft。模型虽然能学会怎么用工具,可一旦遇到没见过的新情况或者需要多步骤调用工具的复杂场景,就容易“蒙圈”,泛化能力不太行。

所以,这个研究的出发点觉着。 RL可能是更好的路子。通过奖励信号引导模型自己探索学习,有可能找到更优的工具使用策略,更灵活、更通用。

要怎么设计这个“奖励”才能有效指导模型在复杂的工具使用场景下学习呢?

这套开源框架。在小参数模型上获得了不错的效果提升。对比sft。

picture.image

任务定义 :简单来说,就是给模型一堆工具 T 和一个用户问题 Q。模型需要一步步思考,决定调用哪个工具、怎么调用。每一步 k,模型要根据当前掌握的信息 sk(之前的思考、工具调用结果等)来决定下一步怎么做 rk+1,选哪些工具 Tk+1,以及具体参数。目标是让每一步的“即时奖励”尽可能高。论文有写,也会让整体的奖励最高。后半截好像实际没太能体现出来。

picture.image

在实际运行时,模型会根据prompt(包含可用工具列表和输出格式要求)来生成思考过程和工具调用。输出通常需要遵循特定格式,比如:

picture.image

系统解析模型输出的 <tool_call> 部分,执行相应的工具,然后把结果告诉模型,作为它下一步思考的依据。

奖励:

  • 格式奖励

picture.image

  • 正确性奖励。 工具名匹配。参数名匹配。参数值匹配。三部分分数经过归一化处理,最后得到一个范围在 [-3, 3] 之间的 Rcorrect 分数。

GRPO每一个group,里边都是当前round的resposne,算出来的reward。所以感觉上应该是一个多步骤推理轨迹会被分解成多个单步的实例。

picture.image

picture.image

大概就这些内容。 不过代码开源。

最后就是还额外做了一个实验,鼓励模型进行更长的推理。 L_target设定的512。但是作用不明显,设置有副作用。能观察到推理边长。但是任务效果不会提升。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论