要说大模型的评测榜单,MMLU几乎是每个闭、源开源模型必评测的一个基准。但是随着模型能力越来越厉害,在这个榜上的指标越来越高,基本要饱和了,后面可能难以评估不同模型的差距了,很多大佬都表示需要一些新的榜单来评估大模型,如下图。
MMLU-Pro是由 TIGER-Lab 发布,致力于提供一个更强大且更具挑战性的大规模多任务语言理解数据集,作为MMLU榜单的替代者。HuggingFace 已经指定 MMLU-Pro 为 open llm leaderboard V2 中新的替代基准。
上个周,在reddit的localllama社区,原始帖子如下图。老哥提到,MMLU-Pro 是一个数学基准。最初的 MMLU 更多的是知识和推理测试,虽然它有数学相关的评测,但其设计原则是无需 CoT 即可完成大部分工作。但 MMLU-Pro,以数学为主。与 MMLU 相比,现在许多/大多数问题实际上需要多步骤思想链推理来解决应用数学问题。
数学和COT有什么问题?
- CoT 需要生成大段的结果,这对大多数人来说,进行 12,000 步 CoT 是令人望而却步的,尤其是对于较大的模型。
- MMLU 的价值在于它主要评估知识,然后在较小程度上评估推理和简单数学
- 对于大多数模型来说,大多数问题都太难了。分数集中在低端,并且没有充分利用可用的分数范围。
到这里,好像一切都还好,突然今天在github上一个issue炸雷了~ 老哥发现,仓库评测脚本,不同使用的采样参数,system prompt,后处理的方式区别都很大。如下图:
MMLU-Pro 团队回应,他们承认存在差异(模型之间以及已发表的论文与公开的评测脚本之间存在差异),但他们表示样本影响很小,但网友们给出了更多的观点。
- 建议保持现有的测试逻辑不变,因为这提供了一个静态的基准来比较所有模型。如果项目改变了模型测试的方式,那么之前的所有测试都将无法用于比较。
- 闭源模型(如Gemini、Claude和GPT4)具有优势,因为它们可以获得定制的评测,而开源模型则使用通用的设置。这使得闭源模型在与专有模型的比较中处于不利地位
- 尽管MMLU-Pro测试可能不是评估模型在特定领域效能的最佳方式,但它仍然比以前的困惑度测试或主观偏好评价要好得多。
天气太热,继续吃瓜~
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读