lmsys大模型竞技场,惨遭炮轰,大模型明星榜单为何跌下神坛?

火山方舟向量数据库大模型

大模型的评估,是非常困难的,所以过去很长一段时间lmsys chatbot arena,都是大家作为筛选模型的首选基准。因为他的排名都是很多的玩家通过输提示词,对匿名模型的结果投票排序得到,这意味着他的结果会更符合人类偏好。

随着开源、闭源模型越来越强,大家就发现了,lmsys有很多问题。比如说,大多数人在做评测的时候,会更倾向于简短且易于理解的答案评价更好,并不是最准确或事实上正确的答案。这些问题会带来评测偏差,但是更大的问题是,因为lmsys会定期发布20%的人工评测集,所以一些闭源模型就开始训练模型来拟合这种偏好,在gemma的论文中就提到了这个方法。

拟合似乎表面看也没什么问题?都是期望模型往更好的方向发展。但是实际上这会出现一个残酷的事实-人类的平均知识、创造力和智力对于前沿模型来说已经不够了。

我们可能正在进入一个时代,人类的偏好并不是一个很好的衡量标准,或者不应该在你的主要排行榜中考虑人类偏好的榜单

压死骆驼的最后一根稻草,是最近的gpt4o-mini开分,原帖如下

凭借 4K+ 用户投票,GPT-4o mini 登上排行榜榜首,现在与 GPT-4o 并列第一,同时价格便宜 20 倍!在竞技场中全面优于其早期版本。picture.image

然后评论区就开始炮轰了,部分截图如下

picture.image picture.image

那lmsys官方很快就出来解释了,说chatbot arena衡量的是人类不同领域的偏好,建议看各个子类别,表示还会公开20%的gpt4o-mini的投票结果。

picture.image

很显然,网友们肯定还是不给面子,疯狂嘲讽说收sama钱了。

最新有网友们开始投票,心目中最优秀的基准评测榜,目前比较推荐的几个分别为:

https://huggingface.co/spaces/allenai/ZebraLogic

https://scale.com/leaderboard

https://livebench.ai

https://livecodebench.github.io/leaderboard.html

https://mixeval.github.io/#leaderboard

大部分榜的前三基本都是这么个排名:

picture.image

开闭源模型的差异在最近的半年被快速追平,早上还看到一份openai的今年产品计划榜单leak,新模型可能就是gpt4.1,并不是一个很大的版本跳跃。

卷出龙卷风,不管是技术还是模型都在快速迭代,淘汰更新。关注NLP前沿,一起学习,共同进步。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
湖仓一体加速引擎 Bolt 及在 LAS 的应用实践
Spark、Presto等引擎原Java执行的性能优化进入瓶颈期,而基于向量化和编译优化的native引擎,可获两倍性能加速比,降低资源成本。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论