今天看看Qwen Embedding。
Qwen-Embedding是基于GTE升级的。看到GTE,我是比较抵触的,所以一直也懒得看技术报告。
整体内容不是特别的新颖,个人觉着。 大规模训练 + 高质量微调 + 模型合成。
值得聊聊的是合成数据。
第一阶段使用1.5亿的合成数据。
为了适应MTEB的各种,如分类,排序,召回等等任务。
合成步骤分2步:
第一步确定文档适合的人群、问题类型、难度。
第二步确定出具体的查询。
第二阶段使用接近2000万的高质量pair数据。
筛选第一阶段cosine sim > 0.7的数据 1200万 + 开源QA数据 700万。
第三阶段,merge一下几个ckpt,常规提分操作,但是单独拎出来说,略上不了台面。
训练架构很常规,向量取EOS向量。Reranking取最后一个做二分类。
训练损失InfoNCE,加了个mask,忽略掉比正样本得分还高一些的负样本(疑似假阴性)。
不知道具体效果如何,测试过的同学,可以评论留言~