SuperCLUE中文大模型排行榜(2023年7月)

容器

picture.image

picture.image

picture.image

Github项目地址https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE的构成

   着眼于综合评价大模型的能力,使其能全面的测试大模型的效果,又能考察模型在中文上特有任务的理解和积累,我们对能力进行了划分。SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
  1. 基础能力 :

包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力。 2. 专业能力 :

包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。 3. 中文特性能力 :

针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

SuperCLUE的不足与局限

  1. 基础能力、中文特性能力:虽然每一部分都包含了10类子能力,但这两个能力的总数据量比较少,可能存在需要扩充数据集的问题。
  2. 选取模型的不完全:我们测试了9个模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
  3. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
  4. 客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。

SuperCLUE总榜单

picture.image

SuperCLUE基础能力榜单

picture.image

SuperCLUE中文特性榜单

picture.image

SuperCLUE开源榜单

picture.image

参考文献:

[1] https://www.cluebenchmarks.com/superclue.html

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论