bge-m3准备退休,试试这个!

向量数据库大模型机器学习

上周五,新开源的一个嵌入模型,Kalm-embedding 主张通过优质训练数据带来更强的嵌入模型。

相比于之前的SOTA模型,用到了更多的数据。

相比于正常模型,以bge-m3更小一点的参数量,在MTEB和CMTEB上,获得了不错的score。picture.image

微调除了常见的高质量训练集,还用qwen2 72B合成了550k数据,包含6个任务类型,40k个独特的指令(类似于instruction embedding)。

排名一致性过滤,避免难负例的挖掘,产生噪声,会丢弃掉正例不在topk中的那些样本。

picture.image

训练策略,以前一般会尽可能让一个batch中都是一个任务的数据,提高难度,提高训练效率。但是带来的问题可能是会产生FN样本,所以这里平衡了一下,有概率会来自不同任务的,如下图。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论