【发布】AgentBench:基础模型 Agent 评测,我们暂时有点差

技术

picture.image

将 LLMs 视作 agent,可以产生许多创新性的工作。 近期受到广泛关注的 AutoGPT、BabyAGI 和 AgentGPT 便是这方面的尝试。

然而,哪些模型更适合作为 agent,其表现又如何?据我们观察, 至今还没有一个合适的评测能够去衡量 。

因此,我们提出了 AgentBench 。这是一个多维演进基准测试,包括 8 个不同环境,可以用来评估 LLMs 在多回合开放式生成环境中的推理和决策能力。

经过对 25 个语言模型的测试,我们发现: 顶级商业语言模型在复杂环境中表现出色,与开源模型存在显著差距 。

而另一方面,v0.2 版本的 ChatGLM2 在几个闭源模型的对比中,评测分数并不是很好,这需要我们在未来的工作中着重改进。

数据集、环境和集成评估包已在这里发布:https://github.com/THUDM/AgentBench

# AgentBench

AgentBench 包括 8 个环境,其中 5 个是首创,另外 3 个是根据已发布的数据集进行重新编译得到。

picture.image

具体如下:

- 操作系统(OS): 考察 L LM 在 bash 环境进行文件操作、用户管理等能力。

- 数据库(DB): 考察 LLM 利用 S QL 对给定数据库进行操作的能力。

- 知识图谱(KG): 考察 LLM 利用工具从知识图谱中获取复杂知识的能力。

- 卡牌对战(DCG): 考察 LL M 作为玩家,根据规则和状态进行卡牌对战的策略决策能力。

- 情景猜谜(LTP): 这个游戏需要 LLM 针对谜题进行提问,从而猜出答案,能够考察 LLM 的横向思维能力。

- 家居(HH): 在模拟的家庭环境下,LLM 需要完成一些日常任务,主要考察 LLM 将复杂的高级目标拆解为一系列简单行动的能力。

- 网络购物(WS): 在模拟的在线购物环境中,LLM 需要按照需求完成购物,主要考察 LLM 的自主推理和决策能力。

- 网页浏览(WB): 在模拟网页环境中,LLM需要根据指令完成跨网站的复杂任务,考察 LLM 作为 Web agent的能力。

# 评测

我们初步选择了25个闭源/开源的模型,通过API或Docker的方式进行测试。整体分数对比如下:

picture.image

具体分数如下:

picture.image

为了更加易读,我们选择几个模型制作了雷达图:

picture.image

# 结论及分析

在我们的研究中,我们可以得出两个主要结论:

结论一:顶级 LLM 已经具备了处理真实世界环境交互的强大能力。

举例来说,GPT-4 在 AgentBench 的 8 个数据集中有 7 个表现最佳; 在「家居(HH)」上,也实现了 78% 的成功率,这表明它在这种情况下具有实际可用性。 而其他基于 API 的 LLM,虽然表现相对较差,但或多或少能够解决一些问题,这表明这些模型有具备这种能力的潜力。

结论二:大多数开源 LLM 在 AgentBench 中的表现远不如基于 API 的 LLM(平均分为 0.42 对比 2.24)。

即使是能力最强的开源模型 openchat-13b-v3.2 也与 gpt-3.5-turbo 存在明显的性能差距。 这个结果与网上存在的一些开源 LLM 许多声称可以与 gpt-3.5-turbo 和 gpt-4 相媲美,有很大的不符。 对于开源的 LLM,它们在诸如知识图谱(KG)、卡牌对战(DCG)和家居(HH)等具有挑战性的任务中通常无法解决任何问题。

通过深入分析评测结果,我们认为 LLM-as-agent 需要应对以下几个问题:

动作有效性。 在我们的评估过程中,我们发现模型并不总是在遵循指令。换句话说,模型的预期输出并不总是处于环境可以接受的输入空间中。几种常见的错误包括:1)模型没有理解指令,所以也就没有输出动作;2)模型输出了动作,但却是错误的或不完整的。所以如何确保动作有效,是一个需要改进的方向。

长上下文。 我们注意到一些开源模型的上下文长度只有 2k tokens,这会极大地影响它们在交互任务中的表现,有些任务需要较长的指令和反馈,这有可能会超过上下文长度,导致模型忽略了可能的有用信息。 因此,扩展上下文长度可能会提高多轮对话的性能。

多轮一致性。 有些任务(例如家居)需要很多轮对话,但每轮对话都比较简短。 这导致一些模型在多轮对话中会丢失掉自己的角色。 最常见的错误就是输出道歉并表示无法回答。 所以,如何在多轮对话中保持一致性,是一个具有挑战性的工作。

代码训练的平衡。 相比 ChatGLM-6B,codegeex2-6b-chat 是用更多的代码数据训练出来的,我们通过对比发现,前者在 OS、DB、KG、WS 等方面明显优于后者,然而在需要逻辑推理的 情景猜谜(LTP)上性能却下降不少。而另一方面,进行了代码训练的 wizardcoder 的表现却并不是很好。我们的推测是,代码训练的单轮格式减弱了其多轮能力。因此,用代码数据训练,可以提高部分能力,但同时也会导致其他能力的减弱。

# One More Thing


在本次测评中,我们注意到V0.2 版本的 ChatGLM2 在 8 个闭源模型中的表现较差,这需要我们在未来的工作中着重改进。


欢迎国内外做大模型的企业和高校 使用 Agent Bench 进行测评,共同推进

LLM -as-agent 的 发展。


尽管 开源生态在近期势头较 盛,然而 开源模型在

LLM-as-agent 的表现依然有待提升。这可能需要开源社区着重发力。

评测,让我们 看到差距,并努力改进;在互卷的同时,也不断自卷。


173
0
0
0
关于作者
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论