Qwen3 Embedding模型架构、训练方法、数据策略

大模型向量数据库云存储

Embedding和reranker模型的核心思想是通过任务感知的方式评估相关性 。给定一个查询

和一个文档

,模型根据由指令

定义的相似性标准评估它们的相关性。训练数据通常组织为

,其中

表示与查询

相关的正文档,

表示不相关的负文档。通过在多样化的文本对上训练模型,可以增强其在包括检索、语义文本相似性、分类和聚类等下游任务中的适用性。下面来详细的看下Qwen3 Embedding模型架构、训练方法、数据策略,供参考。

模型架构

picture.image

Qwen3 Embedding、reranker模型架构

Qwen3嵌入和重排序模型基于Qwen3基础模型的dense backbone,提供三种参数规模:0.6B、4B和8B。这些模型通过初始化Qwen3基础模型来利用其在文本建模和指令遵循方面的能力。每个模型配置的层数、隐藏层大小和上下文长度如下表:

picture.image

  • Embedding模型

对于文本嵌入,使用具有因果注意力的LLMs,并在输入序列的末尾添加一个[EOS]标记。最终的嵌入是从对应于这个[EOS]标记的最后一层的隐藏状态 中提取的。没有额外池化头,推理路径更短。

为了确保嵌入在下游任务中遵循指令,将指令和查询连接成一个单一的输入上下文,而文档保持不变,然后通过LLMs进行处理。Query的输入格式如下:

  
{Instruction}{Query}  

  • Reranker模型

为了更准确地评估文本相似性,使用LLMs在单个上下文中进行点对点重排序。与嵌入模型类似,为了实现指令遵循能力,将指令包含在输入上下文中。使用LLM聊天模板,并将相似性评估任务框定为一个二分类问题 。输入到LLMs的模板如下:

  
<|im\_start|>system  
Judge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be"yes" or  
"no".<|im\_end|>  
<|im\_start|>user  
<Instruct>:{Instruction}  
<Query>:{Query}  
<Document>:{Document}<|im\_end|>  
<lim\_start|>assistant  
<think>\n\n</think>\n\n  

为了基于给定输入计算相关性分数,视为二分类任务 ,评估下一个标记是"yes"或"no"的可能性。表示为:

训练方法

Qwen3 Embedding训练过程采用了多阶段训练pipline,结合了大规模无监督预训练和高质量数据集上的监督微调。

1、训练目标

  • Embedding模型:对于嵌入模型,使用了基于InfoNCE框架的改进对比损失。给定一批

个训练实例,损失定义为:

picture.image

其中,

是相似性函数(使用余弦相似性),

是温度参数,

是归一化因子,聚合了正对与各种负对的相似性分数:

picture.image

这些项表示与以下内容的相似性:(1) 正文档

,(2)

个难负样本

,(3) 批内其他查询

,(4) 批内其他正负文档

。掩码因子

目的是减轻假阴性的影响,定义为:

picture.image

其中,

的相应分数。

  • Re-Rank模型:优化了基于监督微调(SFT)的损失,定义为:

其中,

表示LLM分配的概率。标签

为"yes"表示正文档,"no"表示负文档。该损失函数鼓励模型为正确标签分配更高的概率,从而提高排序性能。

2、多阶段训练

picture.image

多阶段训练是训练文本嵌入模型的常见做法,通常从大规模半监督数据上的初始训练开始,然后使用较小规模的高质量监督数据集进行微调。这一两步过程增强了模型的性能和泛化能力。大规模弱监督训练数据显著提高了模型的泛化能力,而后续阶段的高质量数据微调进一步提升了模型性能。

在现有多阶段训练框架的基础上,Qwen3 Embedding系列引入了以下关键创新:

  • 大规模合成数据驱动的弱监督训练 :与之前的工作(如GTE、E5、BGE模型)不同,这些模型主要从开源社区(如问答论坛或学术论文)收集弱监督训练数据,提出利用基础模型的文本理解和生成能力直接合成配对数据。这种方法允许任意定义所需配对数据的各种维度,如任务、语言、长度和难度,并在合成提示中进行定义。与从开放域源收集数据相比,基础模型驱动的数据合成 提供了更大的可控性,能够精确管理生成数据的质量和多样性,特别是在低资源场景和语言中。
  • 高质量合成数据在监督微调中的利用 :由于Qwen3基础模型的卓越性能,合成的数据质量非常高。因此,在监督训练的第二阶段,选择性地整合这些高质量合成数据进一步增强了整体模型性能和泛化能力。
  • 模型合并 :受到先前工作的启发,在完成监督微调后,应用了基于球面线性插值(slerp)的模型合并技术。该技术涉及合并微调过程中保存的多个模型检查点。目的是提高模型在各种数据分布上的鲁棒性和泛化性能。

picture.image

注意,重排序模型的训练过程不包括第一阶段的弱监督训练阶段。

3、合成数据集

使用Qwen3-32B模型作为基础模型进行数据合成,创建了大约1.5亿对多任务弱监督训练数据。实验发现,使用合成数据训练的嵌入模型在下游评估中表现优异,特别是在MTEB多语言基准测试中超越了许多先前监督模型。这促使对合成数据进行过滤,以识别高质量配对,用于第二阶段的监督训练 。采用简单的余弦相似性计算来选择数据对保留随机采样数据中余弦相似性大于0.7的对 。最后大约1200万对高质量监督训练数据对被选中进行进一步训练。

picture.image

实验性能

picture.image

MTEB多语言

picture.image

MTEB英文

picture.image

picture.image

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models,https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3\_embedding\_technical\_report.pdf
code:https://github.com/QwenLM/Qwen3-Embedding

关于我:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论