Tool-Eval:逐步评估大语言模型工具利用(Agent)能力

火山方舟大模型向量数据库
一、论文信息
  • 论文题目

T-Eval: Evaluating the Tool Utilization Capability Step by Step

  • 论文链接

https://arxiv.org/abs/2312.14033

  • github

https://github.com/open-compass/T-Eval

二、概要

论文介绍了T-Eval,这是一个逐步评估基准,用于评估大型语言模型(llm)的工具利用能力。与之前的整体评估模型的工作不同,T-Eval将工具利用分解为多个子过程,包括指令遵循、计划、推理、检索、理解和审查。T-Eval提供了对llm能力的更细粒度的分析,允许更好地理解整体和孤立的能力。该基准旨在减少外部因素的影响,为法学硕士提供一个稳定、公平的评估。该文档还概述了工具利用的每个维度的评估协议,并描述了T-Eval的数据集构建过程。T-Eval的主要贡献包括它的逐步评估方法,人在循环数据生成管道的使用,以及它对当前llm在工具学习中的瓶颈提供的见解。

要点:

  • T-Eval是评估llm工具利用能力的分步评估基准。将工具使用分解为多个子过程,包括指令遵循、计划、推理、检索、理解和审查。
  • T-Eval提供了对llm能力的更细粒度的分析,允许更好地理解整体和孤立的能力。该基准旨在减少外部因素的影响,为法学硕士提供一个稳定和公平的评估。
  • T-Eval包括工具利用的每个维度的评估协议和数据集构建过程。
  • T-Eval的主要贡献包括其逐步评估方法,人在循环数据生成管道的使用,以及它对当前llm在工具学习中的瓶颈提供的见解。

picture.image

三、讨论
  1. 各大语言模型底座的工具调用效果如何?
  • GPT-4得分最高,总分为86.4分,设置了指导良好和熟练工具利用的llm的试点。除了GPT-4,基于api的商业llm,包括GPT-3.5和Claude2,在字符串和JSON格式上都有有竞争力的分数,表明它们作为工具代理的强大能力。
  • 对于开源模型,我们用三种不同的尺度来评估模型:大约7B、13B和70B。从图中可以看出,随着模型规模的增大,模型的性能单调增加。其中,Qwen-7在模型规模和评价分数方面获得了两个世界中最好的一个。
  • Qwen-7B拥有70亿参数,表现出抵御复杂的指令和回复的竞争力,以及严格的JSON格式。当扩展到72B时,Qwen的总分上升到71.4%,显著地减少了开源模型和基于api的模型之间的差距。我们将此归因于在人循环自我指令数据集上的训练,该数据集包含由Qwen团队生成的高质量格式特定指令。

picture.image

  1. T-Eval的评估过程是怎样的?
  • 将大型语言模型(LLM)与工具进行结合,使LLM能够利用外部工具解决更复杂的问题。

  • 将工具利用能力分解为多个子过程,包括指令跟随、规划、推理、检索、理解和审查。

  • 基于分解后的子过程,设计相应的评估协议和指令提示,以评估LLM的工具利用能力。

  • 对LLM进行评估,包括对每个子过程的评估和整体评估。

  • 对评估结果进行分析,以了解LLM的工具利用能力,并找出其中的瓶颈。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论