lmsys.org 的 一个严肃的竞争对手已经加入了对LLMs(大型语言模型)评估的讨论中: SEAL Leaderboards ——对领先前沿模型进行的 私密、专家 评估。
SEAL Leaderboards的设计原则:
🔒私密 + 无法被利用。在评估上不会过度拟合!
🎓领域专家评估
🏆持续更新,包含新数据和模型
https://x.com/karpathy/status/1795873666481402010
Andrej Karpathy (原OpenAI的创始成员和研究科学家,也是特斯拉人工智能和自动驾驶部门(Autopilot)原负责人)的一些观点:
- LLM评估正在改进,但不久前它们的状况非常糟糕,因为定性体验经常与定量排名不符 。
- 好的评估很难构建 ——在特斯拉,Karpathy可能花了1/3的时间在数据上,1/3在评估上,还有1/3在其他所有事情上。它们必须全面、代表性强、质量高,并测量梯度信号(即不要太容易,也不要太困难),在定性和定量评估一致之前,有很多细节需要考虑和正确处理。
- 任何公开(非私有)的测试数据集不可避免地会渗透到训练集中 。这是人们强烈直觉上怀疑的事情,也是为什么最近的GSM1k引起了轰动。https://arxiv.org/html/2405.00332
- 即使LLM开发者尽了最大努力,防止测试集渗透到训练集中 (以及答案被记住) 也是困难的 。当然,你可以尽力过滤掉完全匹配的项。你也可以过滤掉近似匹配的项,比如使用n-gram重叠等。但是你如何过滤掉合成数据重写,或者有关数据的相关在线讨论呢?一旦我们开始常规地训练多模态模型,你如何过滤掉数据的图像/截图?你如何防止开发者,例如,向量嵌入测试集,并特别针对与测试集在嵌入空间中高度一致的数据进行训练?
- 大家关心的并非所有LLM任务都可以自动评估 (例如,想想摘要等),在这种情况下,你希望涉及人类。当你这样做时,你如何控制所有涉及的变量,比如人们有多关注实际答案,或者长度,或者风格,或者如何处理拒绝等。
- 好的评估出人意料地困难,工作量巨大,但非常重要
SEAL Leaderboards一些大模型评估结果,包括 一些领先大模型:
- GPT-4o
- GPT-4 Turbo
- Claude 3 Opus
- Gemini 1.5 Pro
- Gemini 1.5 Flash
- Llama3
- Mistral Large
SEAL Leaderboards https://scale.com/leaderboard
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。