bge-m3准备退休,试试这个!

上周五,新开源的一个嵌入模型,Kalm-embedding 主张通过优质训练数据带来更强的嵌入模型。

相比于之前的SOTA模型,用到了更多的数据。

相比于正常模型,以bge-m3更小一点的参数量,在MTEB和CMTEB上,获得了不错的score。picture.image

微调除了常见的高质量训练集,还用qwen2 72B合成了550k数据,包含6个任务类型,40k个独特的指令(类似于instruction embedding)。

排名一致性过滤,避免难负例的挖掘,产生噪声,会丢弃掉正例不在topk中的那些样本。

picture.image

训练策略,以前一般会尽可能让一个batch中都是一个任务的数据,提高难度,提高训练效率。但是带来的问题可能是会产生FN样本,所以这里平衡了一下,有概率会来自不同任务的,如下图。picture.image

0
0
0
0
评论
未登录
暂无评论