Qwen3 Embedding - 合成数据 is all you need

向量数据库大模型机器学习

今天看看Qwen Embedding。

picture.image

Qwen-Embedding是基于GTE升级的。看到GTE,我是比较抵触的,所以一直也懒得看技术报告。

整体内容不是特别的新颖,个人觉着。 大规模训练 + 高质量微调 + 模型合成。

picture.image

值得聊聊的是合成数据。

第一阶段使用1.5亿的合成数据。

为了适应MTEB的各种,如分类,排序,召回等等任务。

合成步骤分2步:

第一步确定文档适合的人群、问题类型、难度。

picture.image

第二步确定出具体的查询。

picture.image

第二阶段使用接近2000万的高质量pair数据。

筛选第一阶段cosine sim > 0.7的数据 1200万 + 开源QA数据 700万。

第三阶段,merge一下几个ckpt,常规提分操作,但是单独拎出来说,略上不了台面。

训练架构很常规,向量取EOS向量。Reranking取最后一个做二分类。

picture.image

训练损失InfoNCE,加了个mask,忽略掉比正样本得分还高一些的负样本(疑似假阴性)。

picture.image

不知道具体效果如何,测试过的同学,可以评论留言~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论