我现在不太信那些闭源评测、开放一个评测报告的,里面的水分太多,不一定掺杂了多少人民币在里面。
我们平时会用到一些开源或者闭源模型,做既定的任务,但总归得有个对比效果,才好确定用什么。
而现在的一些大模型评测任务,都会在一些既定的数据集上面看推理的效果,计算得分高低,但是这个其实感觉不管哪家的大模型,在评测的时候或多或少的都已经有了评测集的部分数据(纯臆测)
要不然,怎么每次出来一个大模型,都是第一、sota、超越、最强等等的字眼
但是在实际的业务使用中,却让人口吐芬芳,是吧,相信很多人也有这种感觉。
大众的眼睛是雪亮的,这一点不会错,最直观的评测是用户真实使用的感受,所以那些通过投票对比的排名,相对靠谱一点。
这里有几个 LLM Leaderboard 榜单,可以作为参考。
如果文章对你有一点点 🤏🏻 帮助,关注公众号并【星标】 ,可以及时收到最新 AI 信息,点赞、在看、转发给更多的朋友,后面我继续分享更多的 AI 内容。
🤗 HuggingFace LLM Leaderboard
这个榜单应该是用的人数最多的一个网站,从我读研的时候开始,huggingface 就在打造 torch,现在越来越壮大,真棒 👍。
这个榜单只对开源模型,你在上面是搜不到 closeai的。另外这个榜单的 v1 已经是过去时,现在是 v2 版本
包含几个基准测试。
- 📚 MMLU-Pro(大规模多任务语言理解 - 专业版)。MMLU-Pro 是 MMLU 数据集的改进版本。MMLU 一直是多选知识数据集的参考。然而,最近的研究表明它既包含噪音(一些问题无法回答),又太容易(通过模型能力的进化和污染的增加)。MMLU-Pro 向模型提供十个选择而不是四个,要求在更多问题上进行推理,并经过专家审查以减少噪音量。它比原版质量更高且更难。
- 📚 GPQA(研究生级别的谷歌问答基准)。GPQA 是一个极其困难的知识数据集,其中问题由领域专家(生物学、物理学、化学等领域的博士水平)设计,使得外行人难以回答但专家相对容易。问题经过多轮验证,以确保难度和准确性。数据集也只能通过网关机制访问,这减少了污染风险。(这也是为什么我们不提供来自此数据集的纯文本示例的原因,正如论文作者要求的那样)。
- 💭 MuSR(多步软推理)。MuSR 是一个非常有趣的新数据集,由算法生成的复杂问题组成,长度约为1000字。问题包括谋杀之谜、物体放置问题或团队分配优化。为了解决这些问题,模型必须结合推理和非常长的上下文解析。很少有模型得分高于随机水平。
- 🧮 MATH(数学启发式测试,5级子集)。MATH 是一个由多个来源收集的高中级别竞赛问题的汇编,使用 Latex 一致地格式化方程和 Asymptote 格式化图形。生成的答案必须严格遵循特定的输出格式。我们只保留最难的问题。
- 🤝 IFEval(指令遵循评估)。IFEval 是一个相当有趣的数据集,测试模型清晰遵循明确指令的能力,例如“包括关键词 x”或“使用格式 y”。模型被测试是否能够严格遵循格式指令,而不是实际生成的内容,从而可以使用严格的指标。
- 🧮 🤝 BBH(大基准测试难题)。BBH 是 BigBench 数据集中 23 个具有挑战性的任务的子集,其中 1)使用客观指标,2)难度高,测量为语言模型未能超越人类基线,3)包含足够多的样本以具有统计显著性。它们包含多步算术和算法推理(理解布尔表达式、几何图形的 SVG 等)、语言理解(讽刺检测、名称消歧等)和一些世界知识。BBH 的表现平均与人类偏好高度相关。我们期望这个数据集能够提供对特定能力的有趣见解,吸引人们的兴趣。
地址 :https://huggingface.co/spaces/open-llm-leaderboard/open\_llm\_leaderboard
🤗 LMSYS Leaderboard
这个榜单是相当不错的,必用。
上面的HF榜单只能看开源模型在几个基准数据集上面的评测效果,距离我们最开始说的“群众的眼光是雪亮的”这一点,还差点。
而LMSYS Leaderboard 主要通过 Chatbot Arena 进行基准测试,这是一个众包平台,采用匿名、随机化的战斗方式来评估大型语言模型的性能。这些模型在问答、摘要生成等任务上的表现都会被记录和评估。排行榜上的评分系统类似于国际象棋中的Elo评分系统,用于衡量不同模型之间的相对实力。
并且,是一个学术研究组织,相对更加公平公正。
LMSYS Org(大型模型系统组织)是由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校以及卡内基梅隆大学合作成立的开放式研究组织。
这个榜单不仅可以看到国内外开源模型、闭源模型的排名,给我们日常做决策。
还可以在这上面体验最新的一些大模型,比如最新的 gpt-4o2024-08-06、claude-3.5-sonnet-20240620、以及我们无法部署的 llama-3.1-405b-instruct
**下面顺便测试了前两天的经典数学难题,0.9 和 0.11 比较大小的问题,恭喜啊,下面无一例外,全部 success
gpt-4o-2024-08-06
claude-3.5-sonnet-20240620
llama-3.1-405b-instruct
最主要的是我们可以匿名投票 ,就是大家说的大模型竞技。
这个榜单很重要的原因,是很多新出来的一些榜单都沿用了这样的竞技方式,大家一致认为的好。
司南 OpenCompass
OpenCompass 由 上海人工智能实验室 研发的 开源、高效、全面的大模型评测体系及开放平台。
地址 :https://opencompass.org.cn/home
https://github.com/open-compass/OpenCompass/
关注这个榜单的原因有很多,我觉得这个细对于我们日常选择模型来说可能更加重要
大模型的通用能力固然重要,但是当我们在实际业务中考虑到不同垂类领域的业务,大模型的选择标准可能有不同的维度区分。
包括这里面的一些 NLP 核心任务,我本身做 NLP、大模型,能够有这方面的评测,对于传统的 NLP 任务迁移到大模型有个很好的指引。
能力维度
NLP核心任务
垂类领域
国内模型竞技对比
🏆 琅琊榜中文大模型排行榜
这是一个针对中文大模型的竞技排行榜,也是采用 LMSYS Leaderboard 的评估方式。
方式和LMSYS Leaderboard一样。
只关注国内的可以结合上面的 OpenCompass 总和考量。
chinese-llm-benchmark
这是一个 Github 开源项目,中文大模型能力评测榜单。
地址: https://github.com/jeinlee1991/chinese-llm-benchmark/tree/main
- 目前已囊括113个大模型,覆盖chatgpt、gpt4、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、openbuddy、AquilaChat、书生internLM2、llama3等开源大模型。
- 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
- 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、数据分析能力、中文编码效率、中文指令遵从。
- 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!
项目是针对中文大模型能力的评测,但是没有 claude 3.5 、gemini 1.5 这些大模型的效果,毕竟这些大模型在中文理解能力上已经也是和 gpt4媲美,甚至是超越的存在。
我看这部分已经在 todo 中,期待(✧∀✧)
综合能力排行榜
剩下更多的内容去 github readme 看吧。
就推荐上面这几个了,如果大家有更好的评论区加上。
End
我是大林,持续关注 AI 发展,和大家一起交流。微信(dalinvip2023),备注【公众号 AIGC】,进 AIGC 交流群一起交流。
如果文章对你有一点点 🤏🏻 帮助,关注公众号并【星标】 ,可以及时收到最新 AI 信息,点赞、在看、转发给更多的朋友,后面我继续分享更多的 AI 内容。