AlignBench：专为「中文 LLM」而生的对齐评测

picture.image

对齐（Alignment），即大语言模型（LLM）与人类意图的对齐。换句话说，即让 LLM 生成结果更符合人类预期，这可能包括遵循人类的指令，理解人类的意图，进而能够产生有帮助的回答等。

对齐是 LLM 能否在实际场景中得到真正应用的关键因素。而如何评估模型的对齐水平同样至关重要 —— 没有评测，就不知道优劣。

但目前为止，在中文评测领域关于对齐的评测，依然是一片空白。

首先，广泛使用的一些评测数据集，如 MMLU，C-Eval 等，和真实使用场景的差别较大，并不能有效评估模型的指令遵循能力。

其次，针对对齐水平的英文评测数据集，如 MT-Bench，AlpacaEval等，受限于其语言、数量、评测方式，也并不能有效评估中文大模型的对齐水平。

基于以上考虑，以及实际中的需要，我们推出了 AlignBench 。

picture.image

这是一个多维度、综合性的评测基准。据我们所知，这是第一个针对中文大模型，能够在多维度上细致评测模型和人类意图对齐水平的评测基准。

我们将 AlignBench 在评测数据和评测方法上和其他基准的对比情况总结如下：

picture.image

论文： https://arxiv.org/abs/2311.18743

数据、代码：

https://github.com/THUDM/AlignBench

项目网站：

https://llmbench.ai/align

为了让开发人员能够更加高效地完成评估，我们也同样开发了自动评估模型 CritiqueLLM ，它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。

数据集

为了更贴近大模型的真实用途，AlignBench 从 ChatGLM 真实的使用场景中构建，并经过初步构造，敏感性筛查，参考答案生成，难度筛选等步骤，构建了具有真实性、挑战性的评测数据集。

AlignBench 构建了综合全面的分类体系，分为 8 个大类。

picture.image

评测方法

为了自动化和可复现性，AlignBench 使用评分模型（GPT-4，CritiqueLLM）为每个模型的回答打 1-10 的综合分数，代表其回答质量。

AlignBench 构建了多维度、规则校准的模型评测方法，有效提升了模型评分和人类评分的一致性，以及模型评价的质量。

1、多维度

AlignBench 针对每个种类定制了多个细分的评测维度（如创造性、逻辑性等等）

picture.image

2、规则校准

AlignBench 引入了细致的打分规则，提升和人类的一致程度。

picture.image

评测表明，我们的模型评测方法提高了和人类评分的一致性。

picture.image

在生成的分析上，我们的方法能够显著提高分析的质量。在对分析质量的成对评估中，我们的方法分别以 12.4% 和 20.40% 的胜负差显著胜出。

picture.image

评测结果

我们使用 gpt-4-0613 和 CritiqueLLM 分别作为评分模型对 17 个中文大模型进行了评测，结果分别如下。

picture.image

结果表明：

1、中文大模型相比于 gpt-4，在逻辑推理能力上差距较大。

2、顶尖中文大模型相比于 gpt-4，在中文相关能力（尤其是中文理解类）能取得相近甚至更好的表现。

3、中文大模型的开源活力充沛，顶尖开源模型对齐表现接近闭源模型，已处于同一梯队。

AlignBench 还为每个模型提供了维度分。

picture.image

问：AlignBench 和其他的评测基准相比有什么区别？

答： AlignBench 和其他的评测基准的区别来源于两方面。一方面是数据来源，AlignBench 的数据主要来源于真实场景，更能代表模型在真实场景下的表现；同时，数据覆盖了 8 个大类，既兼顾了知识问答这种客观性较强的问题，也包括了写作生成，角色扮演等开放式、对指令遵循要求更高的指令。另一方面是评测方式，AlignBench 采用自由生成、多维度、规则校准的模型评分方法，能提供更一致、更高质量、更细粒度的评测分析和评测分数。

问：AlignBench 为什么采用单点式打分，为每个回答打一个分数，而不是像 AlpacaEval 那样，用两两比较的方式打分？

答：之前的研究表明，单点打分（point-wise）和成对打分（pair-wise）一样，和人类评分都有较好的一致性。从评分效率而言，在模型较多的情况下，单点打分比两两成对比较更加高效。另外，两两成对比较已被证明会受到两个回答前后顺序的影响从而产生偏差（position bias）。综合以上原因，我们采用单点打分的分数。

问：这些榜单内的模型的生成方式是什么样的？

答：我们观察到对于部分模型，采用 greedy 方式生成回答会导致回答质量的下降，特别是生成长度较长的问题。因此，我们对于生成长度较长的类别（综合问答、文本写作、角色扮演），采用 temperature=0.7 参数进行采样生成回答；对于生成长度较短的类别（基本任务、中文理解、逻辑推理、数学计算、专业能力），采用 temperature=0.1 参数进行采样生成回答。注意在评价模型打分的阶段，使用 temperature=0 参数进行打分。

问：对于开发者，如何有效利用 AlignBench 进行评测？

答： AlignBench 需要利用具有较强评价能力的打分模型进行评分。开发者可以使用 gpt-4 作为评价模型进行评测，评测数据和代码已经开源在代码仓库中。另外，考虑到国内开发者对 gpt-4 的使用限制以及 gpt-4 的成本问题，我们开发了一款评测模型 CritiqueLLM，具有 gpt-4 95% 的评测能力，可以作为 AlignBench 的评分模型。为了高效地在 AlignBench 上进行评测，可以登录 AlignBench 网站（链接： https://llmbench.ai/align ）提交结果，我们会以 CritiqueLLM 作为评分模型为您评测，大概 5 分钟左右即可出结果。

为了让开发人员能够更加高效地完成评估，我们也同样开发了自动评估模型 CritiqueLLM ，它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型 。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。

数据集

评测方法

评测结果

为了让开发人员能够更加高效地完成评估，我们也同样开发了自动评估模型 CritiqueLLM ，它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。