一、论文信息
- 论文题目
T-Eval: Evaluating the Tool Utilization Capability Step by Step
- 论文链接
https://arxiv.org/abs/2312.14033
- github
https://github.com/open-compass/T-Eval
二、概要
论文介绍了T-Eval,这是一个逐步评估基准,用于评估大型语言模型(llm)的工具利用能力。与之前的整体评估模型的工作不同,T-Eval将工具利用分解为多个子过程,包括指令遵循、计划、推理、检索、理解和审查。T-Eval提供了对llm能力的更细粒度的分析,允许更好地理解整体和孤立的能力。该基准旨在减少外部因素的影响,为法学硕士提供一个稳定、公平的评估。该文档还概述了工具利用的每个维度的评估协议,并描述了T-Eval的数据集构建过程。T-Eval的主要贡献包括它的逐步评估方法,人在循环数据生成管道的使用,以及它对当前llm在工具学习中的瓶颈提供的见解。
要点:
- T-Eval是评估llm工具利用能力的分步评估基准。将工具使用分解为多个子过程,包括指令遵循、计划、推理、检索、理解和审查。
- T-Eval提供了对llm能力的更细粒度的分析,允许更好地理解整体和孤立的能力。该基准旨在减少外部因素的影响,为法学硕士提供一个稳定和公平的评估。
- T-Eval包括工具利用的每个维度的评估协议和数据集构建过程。
- T-Eval的主要贡献包括其逐步评估方法,人在循环数据生成管道的使用,以及它对当前llm在工具学习中的瓶颈提供的见解。
三、讨论
- 各大语言模型底座的工具调用效果如何?
- GPT-4得分最高,总分为86.4分,设置了指导良好和熟练工具利用的llm的试点。除了GPT-4,基于api的商业llm,包括GPT-3.5和Claude2,在字符串和JSON格式上都有有竞争力的分数,表明它们作为工具代理的强大能力。
- 对于开源模型,我们用三种不同的尺度来评估模型:大约7B、13B和70B。从图中可以看出,随着模型规模的增大,模型的性能单调增加。其中,Qwen-7在模型规模和评价分数方面获得了两个世界中最好的一个。
- Qwen-7B拥有70亿参数,表现出抵御复杂的指令和回复的竞争力,以及严格的JSON格式。当扩展到72B时,Qwen的总分上升到71.4%,显著地减少了开源模型和基于api的模型之间的差距。我们将此归因于在人循环自我指令数据集上的训练,该数据集包含由Qwen团队生成的高质量格式特定指令。
- T-Eval的评估过程是怎样的?
-
将大型语言模型(LLM)与工具进行结合,使LLM能够利用外部工具解决更复杂的问题。
-
将工具利用能力分解为多个子过程,包括指令跟随、规划、推理、检索、理解和审查。
-
基于分解后的子过程,设计相应的评估协议和指令提示,以评估LLM的工具利用能力。
-
对LLM进行评估,包括对每个子过程的评估和整体评估。
-
对评估结果进行分析,以了解LLM的工具利用能力,并找出其中的瓶颈。