“ 这个文章好像有点水,可以随便瞅瞅
https://arxiv.org/pdf/2401.07324.pdf
这篇文章介绍了一个名为α-UMi的多语言模型(LLM)代理框架,用于提高工具学习任务中的性能。这个框架的核心思想是将一个单一的大型语言模型(LLM)的能力分解为三个不同的组件:规划器(planner)、调用者(caller)和总结者(summarizer)。每个组件由一个单独的LLM实现,并专注于特定的能力,它们协作完成复杂任务。以下是这个框架的主要原理:
- 规划器(Planner) :负责规划和决策制定,作为代理框架的“大脑”。它接收系统提示、用户指令和之前的执行轨迹作为输入,并生成下一步的行动理由(rationale)和行动(action)。
- 调用者(Caller) :根据规划器的理由(rationale)执行行动,负责调用特定的工具进行交互。它接收用户指令和之前的执行轨迹作为输入,并生成调用工具的行动。
- 总结者(Summarizer) :在任务执行完成后,由规划器指导,负责根据执行轨迹生成最终的用户答案。
为了有效地训练这个框架,文章提出了一个两阶段的全局到局部的渐进式微调(Global-to-Local Progressive Fine-Tuning,GLPFT)策略:
- 第一阶段(Global Fine-Tuning) :对一个基础的LLM进行全局微调,使用整个数据集,不区分子任务,以增强模型对工具学习任务的全面理解。
- 第二阶段(Local Fine-Tuning) :将训练数据重新组织成针对每个LLM角色的工具使用数据集,并对规划器、调用者和总结者进行持续的微调,以进一步增强它们在各自子任务上的能力。
文章通过在多个工具使用基准测试上评估α-UMi框架,证明了其在工具学习和程序辅助数学推理方面优于传统的单LLM方法。此外,还展示了两阶段微调策略对于框架成功的重要性,并深入分析了框架性能提升背后的原因。最后,结果确认了在α-UMi多LLM框架中可以使用较小的LLM来培养个体工具学习能力,并达到有竞争力的整体性能。
这个工作的关键贡献包括:展示了小型LLM在工具学习方面的局限性,并引入了α-UMi框架;提出了两阶段微调策略,这对于框架的成功至关重要;并进行了深入的分析,探讨了数据规模定律和框架性能优越性的潜在原因。
