lmsys大模型竞技场，惨遭炮轰，大模型明星榜单为何跌下神坛？ - 文章 - 开发者社区

大模型的评估，是非常困难的，所以过去很长一段时间lmsys chatbot arena，都是大家作为筛选模型的首选基准。因为他的排名都是很多的玩家通过输提示词，对匿名模型的结果投票排序得到，这意味着他的结果会更符合人类偏好。

随着开源、闭源模型越来越强，大家就发现了，lmsys有很多问题。比如说，大多数人在做评测的时候，会更倾向于简短且易于理解的答案评价更好，并不是最准确或事实上正确的答案。这些问题会带来评测偏差，但是更大的问题是，因为lmsys会定期发布20%的人工评测集，所以一些闭源模型就开始训练模型来拟合这种偏好，在gemma的论文中就提到了这个方法。

拟合似乎表面看也没什么问题？都是期望模型往更好的方向发展。但是实际上这会出现一个残酷的事实-人类的平均知识、创造力和智力对于前沿模型来说已经不够了。

我们可能正在进入一个时代，人类的偏好并不是一个很好的衡量标准，或者不应该在你的主要排行榜中考虑人类偏好的榜单

压死骆驼的最后一根稻草，是最近的gpt4o-mini开分，原帖如下