MTEB 2.0升级有感--新世界的船,载不了旧时代的残党

向量数据库大模型机器学习

提纲

1 背景

2 MTEB新特性 zero-shot

3 深度剖析

4 讨论

1 背景

对text embedding任务有一定关注的人相应已经发现了,作为目前这个领域最权威的一个榜单MTEB在最近几个月迎来的它的2.0版本升级,而陪伴了大家数年的MTEB 1.0虽然依旧会保留,但不会在继续更新了。目前由于2.0版本还存在比较多的数据缺失等问题,所以还需要一定时间大家才能看到一个相对完整的榜单,而关于其中2.0的新特性以及它出现的契机也值得大家去详细了解一下。

MTEB 2.0: https://huggingface.co/spaces/mteb/leaderboard

MTEB 1.0: https://huggingface.co/spaces/mteb/leaderboard\_legacy

2 MTEB新特性 zero-shot

作为MTEB 2.0版本的一大新特性在于引入了zero-shot filter,引入这个新特性有两个初衷,其一是希望研究人员尽量不用benchmark的数据集去训练,其二是希望开发者能公开自己模型的训练过程。用户可以根据这个tag从海量的模型列表中筛选出那些在这个benchmark上是zero-shot的模型名,对于那些希望拿来即用的用户来是个天大的福音。

picture.image

需要注意的一点是,关于具体的zero-shot定义也跟以往不同,是更为严格的要求(具体原文可见下图)。比如一个模型在A数据集训练得到的,那么在任何A所衍生的任务benchmark评测中都不算做zero-shot。也就是说在MTEB 2.0上的zero-shot模型,它本身的训练数据跟MTEB 2.0的所有评测数据基本是无关的,不存在以往的数据泄漏问题。所以在MTEB 2.0上zero-shot的模型,如果它的得分依旧很高,那说明它的泛化能力很强,在真实场景下是可以拿来即用的。

          
Zero Shot
          
A model is considered zero-shot if it is not trained on other splits of the dataset used to derive the task.E.g., if a model is trained on Natural Questions, it cannot be considered zero-shot on benchmarks containing the task “NQ” which is derived from Natural Questions.
          
This definition creates a few edge cases. For instance, multiple models are typically trained on Wikipedia title and body pairs, but we do not define this as leakage on, e.g., “WikipediaRetrievalMultilingual” and “WikiClusteringP2P” as these datasets are not based on title-body pairs.
          
Distilled, further fine-tunes or in other ways, derivative models inherit the datasets of their parent models.
          
Based on community feedback and research findings, This definition could change in the future.
      

3 深度剖析

从MTEB 2.0的新特性以及对github的讨论上,其实不难发现,榜单的工作人员的目的是希望这个榜单能更加全量公平的评估模型在诸多text embedding任务上的能力,让用户真实体验跟这个榜单的排名或者得分更加接近。




在诸多讨论里列举了两个具体案例,第一个案例是

Voyage在MTEB 1.0发布了一个模型voyage-3-m-exp并成功登顶该榜单,但是技术人员建议大家使用另一个模型voyage-3-large因为有更好的性能,因为voyage-3-m-exp实际上是从voyage-3-large训练过程中的一个checkpoint基础上加入MTEB相关数据训练得到的。而另一个案例则是Nvida-Embed系列模型在MTEB上表现非常优秀,但是在实际体验却比较糟糕。

从这里也不难看出,大概还是由于有的模型在训练过程加入了相关评测数据,所以虽然在MTEB上得分超群,但在实际体验上却不符合预期。而为了让企业跟研究人员能以一种更加无偏的方式了解text embedding模型的性能,MTEB才会出现升级的计划。

4 讨论

跟之前很多大模型评测榜单如出一辙,一方面是模型越来越大,训练用到的训练越来越多,另一方面是有些模型在训练中加入了benchmark相关的数据, 导致benchemark上的得分跟用户实际体验不符。所以这次的2.0发布也是合情合理,更加顺应当下技术的升级迭代,以及广大研究人员的实际需要。

作为MTEB的一个多年老粉,看到了MTEB 1.0不再更新的消息还是有很多感触。作为text embedding任务上最权威的榜单,在这几年其实给大家创造了非常大的便利,既可以及时获悉最新的前沿技术动态,也能第一时间体验过更加sota的开源模型。联想到了海贼王里的白胡子的一句经典台词,“

我是旧时代的残党,新世界没有能载我的船。

”,所以起了这样一个标题。

需要注意一点的是,新榜单目前还有很多内容有待补充跟调整,大家稍安勿躁,完整的MTEB 2.0一定会带来大家更多的惊喜的~

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论