多个小模型构成的Agent系统 - 文章 - 开发者社区

“ 这个文章好像有点水，可以随便瞅瞅


        
          
https://arxiv.org/pdf/2401.07324.pdf

picture.image

这篇文章介绍了一个名为α-UMi的多语言模型（LLM）代理框架，用于提高工具学习任务中的性能。这个框架的核心思想是将一个单一的大型语言模型（LLM）的能力分解为三个不同的组件：规划器（planner）、调用者（caller）和总结者（summarizer）。每个组件由一个单独的LLM实现，并专注于特定的能力，它们协作完成复杂任务。以下是这个框架的主要原理：

规划器（Planner） ：负责规划和决策制定，作为代理框架的“大脑”。它接收系统提示、用户指令和之前的执行轨迹作为输入，并生成下一步的行动理由（rationale）和行动（action）。
调用者（Caller） ：根据规划器的理由（rationale）执行行动，负责调用特定的工具进行交互。它接收用户指令和之前的执行轨迹作为输入，并生成调用工具的行动。
总结者（Summarizer） ：在任务执行完成后，由规划器指导，负责根据执行轨迹生成最终的用户答案。

为了有效地训练这个框架，文章提出了一个两阶段的全局到局部的渐进式微调（Global-to-Local Progressive Fine-Tuning，GLPFT）策略：

第一阶段（Global Fine-Tuning） ：对一个基础的LLM进行全局微调，使用整个数据集，不区分子任务，以增强模型对工具学习任务的全面理解。
第二阶段（Local Fine-Tuning） ：将训练数据重新组织成针对每个LLM角色的工具使用数据集，并对规划器、调用者和总结者进行持续的微调，以进一步增强它们在各自子任务上的能力。

文章通过在多个工具使用基准测试上评估α-UMi框架，证明了其在工具学习和程序辅助数学推理方面优于传统的单LLM方法。此外，还展示了两阶段微调策略对于框架成功的重要性，并深入分析了框架性能提升背后的原因。最后，结果确认了在α-UMi多LLM框架中可以使用较小的LLM来培养个体工具学习能力，并达到有竞争力的整体性能。

这个工作的关键贡献包括：展示了小型LLM在工具学习方面的局限性，并引入了α-UMi框架；提出了两阶段微调策略，这对于框架的成功至关重要；并进行了深入的分析，探讨了数据规模定律和框架性能优越性的潜在原因。