bge-m3准备退休,试试这个!

向量数据库大模型机器学习

上周五,新开源的一个嵌入模型,Kalm-embedding 主张通过优质训练数据带来更强的嵌入模型。

相比于之前的SOTA模型,用到了更多的数据。

相比于正常模型,以bge-m3更小一点的参数量,在MTEB和CMTEB上,获得了不错的score。picture.image

微调除了常见的高质量训练集,还用qwen2 72B合成了550k数据,包含6个任务类型,40k个独特的指令(类似于instruction embedding)。

排名一致性过滤,避免难负例的挖掘,产生噪声,会丢弃掉正例不在topk中的那些样本。

picture.image

训练策略,以前一般会尽可能让一个batch中都是一个任务的数据,提高难度,提高训练效率。但是带来的问题可能是会产生FN样本,所以这里平衡了一下,有概率会来自不同任务的,如下图。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论