bge-m3准备退休,试试这个!

向量数据库大模型机器学习

上周五,新开源的一个嵌入模型,Kalm-embedding 主张通过优质训练数据带来更强的嵌入模型。

相比于之前的SOTA模型,用到了更多的数据。

相比于正常模型,以bge-m3更小一点的参数量,在MTEB和CMTEB上,获得了不错的score。picture.image

微调除了常见的高质量训练集,还用qwen2 72B合成了550k数据,包含6个任务类型,40k个独特的指令(类似于instruction embedding)。

排名一致性过滤,避免难负例的挖掘,产生噪声,会丢弃掉正例不在topk中的那些样本。

picture.image

训练策略,以前一般会尽可能让一个batch中都是一个任务的数据,提高难度,提高训练效率。但是带来的问题可能是会产生FN样本,所以这里平衡了一下,有概率会来自不同任务的,如下图。picture.image

0
0
0
0
关于作者
相关资源
抖音连麦音画质体验提升与进阶实践
随着互娱场景实时互动创新玩法层出不穷,业务伙伴对 RTC「体验」和「稳定」的要求越来越高。火山引擎 RTC 经历了抖音 6 亿 DAU 的严苛验证和打磨,在架构设计、音画质提升、高可靠服务等方面沉淀了丰富的经验,本次演讲将和大家分享火山引擎 RTC 在直播连麦等场景中的技术优化及其带来的新玩法。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论