AnyTool: 一个能调用16000个API的分层、自我反思Agents - 文章 - 开发者社区


          
论文题目：AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls
          
论文链接：https://arxiv.org/abs/2402.04253
          
GitHub：https://github.com/dyabel/AnyTool

AnyTool是一个大型语言模型（LLM）Agents，旨在通过利用超过16,000个API来革新解决用户查询的方法。AnyTool包含三个主要元素： 具有层次结构的API检索器 、 用于解决用户查询的求解器 ，以及 一个自我反思机制 。

AnyTool总体概览

picture.image

API Retriever（API检索器）：这是一个具有层次结构的组件，负责从 Rapid API 中的 16,000+ API 中识别出与用户查询最相关的 API 候选。这个层次结构分为三个层次：元智能体（Meta-Agent）、类别智能体（Category Agent）和工具智能体（Tool Agent）。元智能体负责动态生成类别智能体，类别智能体负责识别特定类别下的相关工具，而工具智能体则搜索可能解决查询的 API 并将其添加到 API 候选池中。
Solver（求解器）：一旦 API 候选池创建完成，求解器就会尝试使用这些 API 解决用户查询。求解器可以采用深度优先搜索决策树（DFSDT）或链式思考（Chain of Thought, CoT）方法来生成解决方案。
Self-Reflection Mechanism（自反思机制）：如果初始解决方案未能解决用户查询，自反思机制会重新激活 AnyTool，首先激活 API 检索器，然后是求解器。这个过程可以重复进行，直到达到终止条件。自反思机制允许系统回顾失败的原因，并考虑历史上下文，从而更有效地解决复杂查询。

研究者还提出了一个新的评估协议，该协议通过手动审查ToolBench中的所有查询，仅保留那些可以使用API池中的特定API解决的查询。

之前的评估协议 VS 论文提出的协议

picture.image

研究者还引入了AnyToolBench基准，以促进新评估协议的应用。实验结果表明，在各种数据集上的实验表明， AnyTool 在平均通过率方面优于强大的基线（如 ToolLLM 和专为工具利用定制的 GPT-4 变体）、例如，AnyTool 在 ToolBench 上的通过率比 ToolLLM 高出 +35.4%。

代码将公布在：

https://github.com/dyabel/AnyTool