https://arxiv.org/pdf/2312.14033v1.pdf
https://github.com/open-compass/T-Eval
随着大型语言模型(LLMs)在自然语言处理任务中取得显著成果,研究人员越来越关注如何评估和分析这些模型在工具利用方面的能力。本文介绍了一种名为T-Eval的评估方法,它将工具利用能力分解为多个子过程,包括指令遵循、计划、推理、检索、理解和审查。通过对各种LLMs进行广泛实验和深入分析,T-Eval不仅展示了与结果导向评估的一致性,还提供了对LLMs能力的更细粒度分析,为工具利用能力的LLM评估提供了新视角。
核心观点:传统的工具利用评估方法通常关注最终输出或单步工具调用,忽略了复杂问题涉及的多步工具调用过程。为了克服这一问题,作者提出了T-Eval,一个逐步评估工具利用能力的基准测试。T-Eval将评估分解为多个子任务,沿着模型能力对其进行评估,有助于深入了解LLMs在整体和独立能力方面的表现。此外,T-Eval采用人工智能辅助的数据生成流程,显著降低了外部因素对评估过程的影响,使模型评估更加稳定和公平。
算法原理: T-Eval将工具利用过程分解为六个关键方面:计划、推理、检索、理解、指令遵循和审查。针对每个方面,作者设计了相应的评估协议和指令提示。这种范式使得可以单独评估LLMs的每项能力,并在评估过程中减轻外部因素的影响。通过在T-Eval上进行大量实验,作者揭示了当前LLMs在工具学习方面的主要瓶颈,并证明了该基准测试与综合性能之间的一致性。
结论:本文提出了T-Eval,一种逐步评估工具利用能力的基准测试,它将评估分解为多个子任务,衡量LLMs作为工具代理的细粒度能力。T-Eval采用人工智能辅助的数据生成流程,确保了评估的稳定性和公平性。广泛的实验结果表明,T-Eval在工具利用能力方面为LLM评估提供了新视角,揭示了当前LLMs的瓶颈,并为改进工具利用能力提供了宝贵见解。