SuperCLUE中文大模型排行榜(2023年7月) - 文章 - 开发者社区

picture.image

Github项目地址 ： https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE的构成

   着眼于综合评价大模型的能力，使其能全面的测试大模型的效果，又能考察模型在中文上特有任务的理解和积累，我们对能力进行了划分。SuperCLUE从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力。 2. 专业能力 :

包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。 3. 中文特性能力 :

针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

SuperCLUE的不足与局限

基础能力、中文特性能力：虽然每一部分都包含了10类子能力，但这两个能力的总数据量比较少，可能存在需要扩充数据集的问题。
选取模型的不完全：我们测试了9个模型，但还存在着更多的可用中文大模型。需要后续进一步添加并测试；有的模型由于没有广泛对外提供服务，我们没能获取到可用的测试版本。
选取的能力范围：我们尽可能的全面、综合衡量模型的多维度能力，但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
客观考察的不足：我们以相对客观形式考察模型能力，但一些主观、开放性问题的模型能力的考察可能存在不足。

SuperCLUE总榜单

picture.image

SuperCLUE基础能力榜单

picture.image

SuperCLUE中文特性榜单

picture.image

SuperCLUE开源榜单

picture.image

参考文献：

[1] https://www.cluebenchmarks.com/superclue.html