论文题目:AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls
论文链接:https://arxiv.org/abs/2402.04253
GitHub:https://github.com/dyabel/AnyTool
AnyTool是一个大型语言模型(LLM)Agents,旨在通过利用超过16,000个API来革新解决用户查询的方法。AnyTool包含三个主要元素: 具有层次结构的API检索器 、 用于解决用户查询的求解器 ,以及 一个自我反思机制 。
AnyTool总体概览
- API Retriever(API检索器):这是一个具有层次结构的组件,负责从 Rapid API 中的 16,000+ API 中识别出与用户查询最相关的 API 候选。这个层次结构分为三个层次:元智能体(Meta-Agent)、类别智能体(Category Agent)和工具智能体(Tool Agent)。元智能体负责动态生成类别智能体,类别智能体负责识别特定类别下的相关工具,而工具智能体则搜索可能解决查询的 API 并将其添加到 API 候选池中。
- Solver(求解器):一旦 API 候选池创建完成,求解器就会尝试使用这些 API 解决用户查询。求解器可以采用深度优先搜索决策树(DFSDT)或链式思考(Chain of Thought, CoT)方法来生成解决方案。
- Self-Reflection Mechanism(自反思机制):如果初始解决方案未能解决用户查询,自反思机制会重新激活 AnyTool,首先激活 API 检索器,然后是求解器。这个过程可以重复进行,直到达到终止条件。自反思机制允许系统回顾失败的原因,并考虑历史上下文,从而更有效地解决复杂查询。
研究者还提出了一个新的评估协议,该协议通过手动审查ToolBench中的所有查询,仅保留那些可以使用API池中的特定API解决的查询。
之前的评估协议 VS 论文提出的协议
研究者还引入了AnyToolBench基准,以促进新评估协议的应用。实验结果表明,在各种数据集上的实验表明, AnyTool 在平均通过率方面优于强大的基线(如 ToolLLM 和专为工具利用定制的 GPT-4 变体)、例如,AnyTool 在 ToolBench 上的通过率比 ToolLLM 高出 +35.4%。
代码将公布在:
https://github.com/dyabel/AnyTool
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
