Tool-Eval：逐步评估大语言模型工具利用（Agent）能力 - 文章 - 开发者社区

一、论文信息

论文题目

T-Eval: Evaluating the Tool Utilization Capability Step by Step

论文链接

github

二、概要

论文介绍了T-Eval，这是一个逐步评估基准，用于评估大型语言模型(llm)的工具利用能力。与之前的整体评估模型的工作不同，T-Eval将工具利用分解为多个子过程，包括指令遵循、计划、推理、检索、理解和审查。T-Eval提供了对llm能力的更细粒度的分析，允许更好地理解整体和孤立的能力。该基准旨在减少外部因素的影响，为法学硕士提供一个稳定、公平的评估。该文档还概述了工具利用的每个维度的评估协议，并描述了T-Eval的数据集构建过程。T-Eval的主要贡献包括它的逐步评估方法，人在循环数据生成管道的使用，以及它对当前llm在工具学习中的瓶颈提供的见解。

要点:

T-Eval是评估llm工具利用能力的分步评估基准。将工具使用分解为多个子过程，包括指令遵循、计划、推理、检索、理解和审查。
T-Eval提供了对llm能力的更细粒度的分析，允许更好地理解整体和孤立的能力。该基准旨在减少外部因素的影响，为法学硕士提供一个稳定和公平的评估。
T-Eval包括工具利用的每个维度的评估协议和数据集构建过程。
T-Eval的主要贡献包括其逐步评估方法，人在循环数据生成管道的使用，以及它对当前llm在工具学习中的瓶颈提供的见解。

picture.image

三、讨论

各大语言模型底座的工具调用效果如何？

GPT-4得分最高，总分为86.4分，设置了指导良好和熟练工具利用的llm的试点。除了GPT-4，基于api的商业llm，包括GPT-3.5和Claude2，在字符串和JSON格式上都有有竞争力的分数，表明它们作为工具代理的强大能力。
对于开源模型，我们用三种不同的尺度来评估模型：大约7B、13B和70B。从图中可以看出，随着模型规模的增大，模型的性能单调增加。其中，Qwen-7在模型规模和评价分数方面获得了两个世界中最好的一个。
Qwen-7B拥有70亿参数，表现出抵御复杂的指令和回复的竞争力，以及严格的JSON格式。当扩展到72B时，Qwen的总分上升到71.4%，显著地减少了开源模型和基于api的模型之间的差距。我们将此归因于在人循环自我指令数据集上的训练，该数据集包含由Qwen团队生成的高质量格式特定指令。

picture.image

T-Eval的评估过程是怎样的？

将大型语言模型（LLM）与工具进行结合，使LLM能够利用外部工具解决更复杂的问题。
将工具利用能力分解为多个子过程，包括指令跟随、规划、推理、检索、理解和审查。
基于分解后的子过程，设计相应的评估协议和指令提示，以评估LLM的工具利用能力。
对LLM进行评估，包括对每个子过程的评估和整体评估。
对评估结果进行分析，以了解LLM的工具利用能力，并找出其中的瓶颈。