Github项目地址 : https://github.com/CLUEbenchmark/SuperCLUE
SuperCLUE的构成
着眼于综合评价大模型的能力,使其能全面的测试大模型的效果,又能考察模型在中文上特有任务的理解和积累,我们对能力进行了划分。SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
- 基础能力 :
包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力。 2. 专业能力 :
包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。 3. 中文特性能力 :
针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
SuperCLUE的不足与局限
- 基础能力、中文特性能力:虽然每一部分都包含了10类子能力,但这两个能力的总数据量比较少,可能存在需要扩充数据集的问题。
- 选取模型的不完全:我们测试了9个模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
- 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
- 客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。
SuperCLUE总榜单
SuperCLUE基础能力榜单
SuperCLUE中文特性榜单
SuperCLUE开源榜单
参考文献: