Qwen3-Embedding技术报告解读 - 文章 - 开发者社区

picture.image

Qwen3-Embedding研究动机

文本嵌入和重排序在网络搜索、问答系统和推荐系统等自然语言处理 (NLP) 和信息检索 (IR) 应用中至关重要。高质量的嵌入使模型能够捕获文本之间的语义关系，而有效的重排序机制可确保最相关的结果获得优先权。

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

https://arxiv.org/pdf/2506.05176

该论文介绍了 Qwen3 Embedding 系列，旨在提升文本嵌入和重排序能力。论文试图解决的关键问题和挑战包括：

可扩展性、上下文理解和与下游任务的对齐 ：尽管取得了显著进展，但训练在可扩展性、上下文理解和与下游任务对齐方面表现良好的嵌入和重排序模型仍然充满挑战，尤其是随着大型语言模型 (LLM) 驱动的检索增强生成 (RAG) 和代理系统等新兴应用范式的出现。
利用 LLM 进行嵌入和重排序 ：虽然 LLM 凭借其更丰富的世界知识和推理能力提升了这些模型，但如何有效地将它们整合到训练过程中，包括数据合成和质量过滤，以及开发新的训练范式，仍然是一个持续的挑战。

解决这些问题的重要性及潜在影响包括：

改进 NLP 和 IR 应用的性能 ：通过开发更有效的嵌入和重排序模型，该论文旨在增强各种应用的核心组件，从而带来更好的搜索结果、更准确的问答和更相关的推荐。
满足 LLM 驱动应用的新需求 ：RAG 和代理系统的兴起对文本嵌入和重排序提出了新的要求。这项研究有助于满足这些需求，使 LLM 更强大、更通用。
推动技术前沿 ：Qwen3 Embedding 系列在 MTEB 多语言基准测试以及各种检索任务（包括代码检索、跨语言检索和多语言检索）等各种基准测试中取得了最先进的结果。值得注意的是，它在 MTEB 多语言基准测试中的得分为 70.58，在 MTEB 代码基准测试中的得分为 80.68，超越了之前最先进的专有嵌入模型 Gemini-Embedding。这表明文本嵌入和重排序能力取得了重大飞跃。

团队解决问题的独特视角或切入点包括：

基于 Qwen3 基础模型构建 ：Qwen3 Embedding 系列构建在 Qwen3 基础模型之上，充分利用了这些模型强大的多语言文本理解和生成能力。
创新的多阶段训练流程 ：训练流程结合了大规模无监督预训练和高质量数据集上的有监督微调。一个关键创新是利用 Qwen3 LLM 本身来合成高质量、多样化的多领域和多语言训练数据，从而增强了训练流程，尤其是在低资源场景下。
有效的模型合并策略 ：论文强调了使用模型合并技术（特别是球面线性插值 (slerp)）来增强模型的鲁棒性和泛化能力。
多种模型尺寸和实用功能 ：为嵌入和重排序任务提供多种尺寸（0.6B、4B 和 8B）的模型，并支持灵活的嵌入维度表示和可定制的指令等实用功能，满足了不同的部署场景和用户需求。

该研究动机与更广泛的技术和社会趋势相关联，包括：

大型语言模型 (LLM) 的兴起 ：这项工作直接建立在 LLM 的进步之上，展示了如何扩展 LLM 的能力以改进基础 NLP 任务。
对高质量信息检索的需求 ：随着数字信息量的增长，对高效准确的检索系统的需求变得至关重要。这项研究通过提供更好的语义搜索和相关性排序工具来满足这一需求。
多语言和跨语言理解 ：对多语言和跨语言能力的重视符合信息的全球性质以及对能够有效跨不同语言操作的模型的日益增长的需求。
开源贡献 ：将 Qwen3 Embedding 和 Qwen3-Reranker 模型（0.6B、4B 和 8B）公开发布，鼓励社区使用和在此基础上进行研究和开发，从而促进人工智能技术的更广泛发展。

Embedding的相关工作综述与现状评估

1. 论文中提到的主要相关工作和研究方向

该论文在引言和相关章节中提及了文本嵌入和重排序领域的多个重要研究方向和模型。这些工作主要围绕以下几个方面展开：

研究方向/模型系列	核心思想/特点	典型代表
传统预训练语言模型作为基础
在大型语料库上进行预训练，然后针对特定任务进行微调，捕获文本的语义信息。

BERT (Reimers & Gurevych, 2019)

大规模语言模型 (LLM) 增强
利用 LLM 更丰富的世界知识、文本理解和推理能力，作为基础模型训练嵌入和重排序模型，提升性能。

Qwen3 (Yang et al., 2025), GPT-4o (Hurst et al., 2024)

训练数据合成与过滤
利用 LLM 生成高质量的训练数据，以克服数据稀缺问题，并进行数据筛选以确保数据质量。

Wang et al., 2024; Lee et al., 2024; 2025b

新型训练范式
引入区别性任务（如指令类型、领域、语言）来训练嵌入模型，或结合零样本方法和有监督微调来训练重排序模型。

Su et al., 2023 (嵌入); Ma et al., 2023; Pradeep et al., 2023; Zhang et al., 2024a; Zhuang et al., 2024 (重排序)

多阶段训练
结合大规模弱监督数据进行初始训练，再用少量高质量有监督数据进行微调，以提高模型性能和泛化能力。

Li et al., 2023; Wang et al., 2022; Chen et al., 2024

模型合并
通过合并多个模型检查点来增强模型的鲁棒性和泛化能力。

Li et al., 2024

评估基准
提供全面的评估基准，用于衡量文本嵌入和重排序模型的性能，特别是多语言和特定领域的任务。

MTEB (Muennighoff et al., 2023), MMTEB (Enevoldsen et al., 2025), CMTEB (Xiao et al., 2024)

2. 当前领域研究的主流方法和技术路线

当前文本嵌入和重排序领域的主流方法和技术路线主要围绕以下几点：

主流方法/技术路线	具体实践
基于 Transformer 架构
以 BERT 或 LLM（如 Qwen3）作为骨干模型，利用其强大的文本编码能力。

对比学习
采用 InfoNCE 框架等对比损失函数，通过正负样本对的学习来优化嵌入空间。

多阶段训练
通常包括一个大规模的弱监督预训练阶段，然后是高质量有监督数据的微调阶段，以平衡泛化能力和任务特异性。

数据增强与合成
利用 LLM 生成多样化、高质量的合成训练数据，特别是在低资源语言和特定任务场景下。

指令遵循能力
通过在输入中包含指令来训练模型，使其能够根据不同的任务需求生成或评估相关性。

模型尺寸多样化
发布不同参数规模的模型，以适应不同的部署场景，平衡效率和效果。

模型融合/合并
采用技术（如 slerp）合并多个模型检查点，以提高模型的鲁棒性和泛化能力。

3. 现有方法的局限性和不足

论文指出，尽管该领域取得了显著进展，但仍存在以下局限性和挑战：

传统方法的局限性 ：在 LLM 出现之前，主流方法是使用像 BERT 这样的编码器专用预训练语言模型作为基础。虽然这些模型表现良好，但它们缺乏 LLM 所固有的更丰富的世界知识、文本理解和推理能力。
训练数据来源与质量 ：以往的弱监督训练数据主要来源于问答论坛或学术论文等开源社区，这导致数据可能包含噪声且多样性受限。尽管有研究致力于利用 LLM 辅助数据合成和过滤，但如何高效、高质量地生成并利用这些数据仍是挑战。
可扩展性、上下文理解和任务对齐 ：对于文本嵌入和重排序模型而言，在可扩展性、上下文理解以及与特定下游任务的对齐方面，仍然存在挑战。新兴的应用范式如 RAG 和代理系统，对这些模型提出了新的要求和挑战。
缺乏系统性创新 ：虽然多阶段训练是常见做法，但现有方法在数据来源、数据质量利用和模型鲁棒性增强方面可能缺乏系统性的创新。

4. 论文工作如何定位在这些相关研究之中

Qwen3 Embedding 系列的工作巧妙地定位在现有研究的交叉点上，并通过以下方式体现其独特性：

以 Qwen3 LLM 为核心骨干 ：论文明确指出其模型构建在 Qwen3 基础模型之上。这使得 Qwen3 Embedding 系列能够充分利用 Qwen3 LLM 强大的多语言文本理解和生成能力，从而超越传统的编码器模型。
创新的数据合成范式 ：与以往主要依赖开源社区数据不同，Qwen3 Embedding 系列提出直接利用基础模型（Qwen3 32B）来合成高质量、多样化、多语言和多任务的文本相关性数据。这种方法提供了更大的可控性，尤其在低资源场景和语言中。
结合高质量合成数据进行监督微调 ：论文在多阶段训练的第二阶段中，选择性地加入了这些高质量的合成数据，进一步提升了模型的整体性能和泛化能力。
引入模型合并策略 ：在监督微调之后，论文应用了基于球面线性插值（slerp）的模型合并技术，以增强模型的鲁棒性和跨不同数据分布的泛化性能。
提供模型规模多样性与实用功能 ：论文推出了不同参数规模的模型（0.6B、4B、8B），以满足不同的部署需求，并支持灵活的嵌入维度和可定制的指令，增强了模型的实用性。

5. 论文对前人工作的借鉴和改进点

Qwen3 Embedding 系列在借鉴前人工作的基础上，实现了多方面的改进：

借鉴：

Transformer 架构和对比学习 ：沿用了基于 Transformer 的模型架构和 InfoNCE 框架的对比损失函数，这是当前文本嵌入训练的主流范式。
多阶段训练框架 ：借鉴了多阶段训练的普遍实践，即从大规模弱监督预训练开始，然后进行有监督微调。
模型合并 ：受到了 Li et al., 2024 等工作的启发，引入了模型合并技术。
指令遵循 ：借鉴了通过在输入中包含指令来实现任务感知相关性评估的方法。

改进：

更强大的骨干模型 ：从 BERT 等编码器模型升级到更先进的 Qwen3 LLM，显著提升了模型的文本理解和生成能力。
数据合成的质和量突破 ：从传统的开源数据收集转向利用 LLM 主动合成 大规模（约 1.5 亿对）且高质量的训练数据，实现了数据来源和多样性的突破。这种合成方式允许任意定义任务、语言、长度和难度等维度。
高质量合成数据在监督微调中的应用 ：创新性地将高质量的合成数据（约 1200 万对）纳入第二阶段的监督微调中，进一步提升了模型性能和泛化能力。
系统性的模型合并策略 ：通过对多个微调检查点进行合并，增强了模型在各种数据分布下的鲁棒性和泛化能力。
SOTA 性能 ：实验结果表明，Qwen3 Embedding 系列在多个基准测试中（如 MTEB Multilingual、MTEB Code）取得了 SOTA 性能，超越了包括 Gemini-Embedding 在内的领先专有模型。
全面且公开的解决方案 ：不仅提供了嵌入模型，还提供了重排序模型，并公开了不同尺寸的模型，促进了社区的研究和应用。

综上所述，Qwen3 Embedding 的工作不仅吸取了前人的经验，更在数据生成、训练策略和模型融合等方面进行了创新，显著推动了文本嵌入和重排序领域的发展。

下图是合成数据构造查询的提示语：

picture.image

研究创新与思路来源

1. 论文的主要创新点

该论文在文本嵌入和重排序领域的主要创新点体现在以下几个方面：

技术创新：

基于 Qwen3 LLM 的骨干模型 ：首次将 Qwen3 大模型作为文本嵌入和重排序模型的基础骨干，充分利用其强大的多语言理解和生成能力。
LLM 驱动的高质量训练数据合成 ：创新性地利用 Qwen3 LLM（特别是 32B 模型）来大规模生成高质量、多样化、多语言和多任务的文本相关性训练数据（约 1.5 亿对）。这包括生成不同的指令、文档、查询和响应，并进行质量过滤。
多阶段训练流程的优化 ：结合大规模弱监督预训练与基于 LLM 合成的高质量有监督微调，构建了更高效和鲁棒的训练范式。
模型合并策略的应用 ：在训练后期采用基于球面线性插值 (slerp) 的模型合并技术，以进一步增强模型的鲁棒性和泛化能力。
灵活的嵌入维度和可定制的指令 ：提供了更灵活的嵌入维度选择（例如，512、768、1024等）和可定制的指令模板，以适应不同的应用场景和用户需求。

方法创新：

“模型即数据生成器”范式 ：将 LLM 不仅仅视为模型本身，更视为高效、高质量训练数据的生成器，打破了传统训练数据来源的局限。
从广度到深度的数据覆盖 ：通过 LLM 生成数据，实现了对不同领域、语言、长度和难度维度的全面覆盖，解决了现有数据集中多样性不足的问题。

视角创新：

构建 LLM 驱动的全栈式信息检索组件 ：论文的愿景是将强大的 LLM 不仅用于生成式任务，更用于构建核心的信息检索组件（嵌入和重排序），为 RAG 和代理系统等新范式提供基础支撑。

2. 这些创新的灵感或思路来源

LLM 的兴起与能力演进 ：近年来 LLM 在文本理解、生成和推理方面的惊人表现是核心灵感来源。既然 LLM 能够理解复杂指令并生成高质量文本，那么它们也应该能够生成高质量的训练数据，并作为构建更强大基础模型的骨干。
数据稀缺与质量挑战 ：传统文本嵌入和重排序模型的训练往往受限于高质量标注数据的缺乏。如何克服这一瓶颈是研究人员一直思考的问题。利用 LLM 的生成能力来“自给自足”地创建数据，是解决这一挑战的自然思路。
多阶段训练的成功经验 ：预训练-微调范式在 NLP 领域取得了巨大成功，因此将这一思路应用于嵌入和重排序模型，并进一步优化其阶段设计是自然的演进。
模型融合的鲁棒性优势 ：模型集成（Ensembling）在机器学习中被广泛证明能够提高模型性能和鲁棒性。模型合并作为一种轻量级的集成方式，提供了在不显著增加计算开销的情况下提升模型稳定性的可能。
用户需求与应用场景 ：面对不同的部署环境（如边缘设备到大型服务器）和应用需求（效率优先或效果优先），提供不同规模的模型以及灵活的维度和指令支持，是源于实际应用场景的考虑。

3. 为什么这些创新对解决前述问题是有效的

LLM 作为骨干模型 ：

解决问题 ：现有编码器模型的语义理解能力有限，尤其在处理复杂语境和多语言信息时。
有效性 ：Qwen3 LLM 具有丰富的世界知识和强大的文本理解能力，将其作为骨干模型，能够捕获更深层次的语义信息，从而生成更高质量的文本嵌入和更准确的重排序分数，有效提升模型在复杂检索任务中的性能。

LLM 驱动的高质量训练数据合成 ：

解决问题 ：高质量标注数据稀缺，传统弱监督数据噪声大且多样性不足。
有效性 ：LLM 能够根据设定的规则和指令生成大量多样化、高质量的文本相关性对。这克服了数据瓶颈，使得模型能够接触到更广泛的语义模式，尤其在低资源场景和特定领域表现优异。高质量的数据直接决定了模型的学习上限。

多阶段训练流程的优化 ：

解决问题 ：如何平衡模型在通用知识和任务特异性知识之间的学习。
有效性 ：大规模弱监督预训练确保了模型的通用语义理解能力，而基于高质量合成数据的监督微调则使模型精确地学习到相关性判断的细粒度特征，两者结合使得模型既具备泛化能力又在特定任务上表现卓越。

模型合并策略 ：

解决问题 ：单一模型可能在某些数据分布上表现不稳定或缺乏鲁棒性。
有效性 ：通过合并多个微调检查点，可以平滑模型参数，减少过拟合，提高模型对不同数据集和任务的泛化能力和鲁棒性，尤其在面临领域漂移或数据噪声时表现更稳定。

灵活的嵌入维度和可定制的指令 ：

解决问题 ：模型部署缺乏灵活性，无法适应不同计算资源和业务场景。
有效性 ：满足了用户在效率和效果之间的权衡需求，使模型在各种实际应用中更具可用性和适应性。

实验结果分析

本文对 Qwen3 Embedding 系列模型进行了全面的评估，包括文本嵌入和重排序任务。

文本嵌入模型评估

多语言性能 ：在 MTEB 多语言基准测试中，Qwen3-Embedding-4B 和 Qwen3-Embedding-8B 模型表现出色，取得了最佳性能。即使是最小的 Qwen3-Embedding-0.6B 模型，其性能也仅次于表现最好的基线模型 Gemini-Embedding，尽管参数量远小于后者。
英语、中文和代码性能 ：在 MTEB (English, v2)、CMTEB (Chinese) 和 MTEB (Code) 上的评估结果显示出相似的趋势。Qwen3-Embedding-4B 和 Qwen3-Embedding-8B 模型持续优于其他模型。Qwen3-Embedding-0.6B 模型表现出与 gte-Qwen2-7B-instruct 相当的竞争力，仅次于 Gemini-Embedding 模型。
消融研究 ：

大规模弱监督预训练的有效性 ：研究表明，大规模弱监督训练阶段对于实现卓越性能至关重要。仅使用合成数据训练的 Qwen3-Embedding-0.6B 模型（没有后续训练阶段）与最终模型相比，仍取得了良好且强大的性能。如果去除弱监督训练阶段（即没有合成数据训练），最终性能会显著下降。
模型合并的有效性 ：模型合并阶段也被证明是开发强大模型的关键。没有使用模型合并技术的模型（使用数据采样来平衡各种任务）的性能明显低于最终的 Qwen3-Embedding-0.6B 模型（采用了模型合并）。

文本重排序模型评估

在各种重排序任务中，所有三款 Qwen3-Reranker 模型（0.6B、4B、8B）与 Qwen3-Embedding-0.6B 模型相比，性能均有所提升，并且超越了所有基线重排序方法。
Qwen3-Reranker-8B 在大多数任务中取得了最高的性能。

模型性能

表格 1：MTEB 多语言性能

Model	Size	Mean (Task)	Mean (Type)	Bitext Mining	Classification	Clustering	Inst. Retrieval	Multilabel Class.	Pair Class.	Rerank	Retrieval	STS
Selected Open-Source Models

| | NV-Embed-v2 | 7B | 56.29 | 49.58 | 57.84 | 57.29 | 40.80 | 1.04 | 18.63 | 78.94 | 63.82 | 56.72 | 71.10 | | GritLM-7B | 7B | 60.92 | 53.74 | 70.53 | 61.83 | 49.75 | 3.45 | 22.77 | 79.94 | 63.78 | 58.31 | 73.33 | | BGE-M3 | 0.6B | 59.56 | 52.18 | 79.11 | 60.35 | 40.88 | -3.11 | 20.1 | 80.76 | 62.79 | 54.60 | 74.12 | | multilingual-e5-large-instruct | 0.6B | 63.22 | 55.08 | 80.13 | 64.94 | 50.75 | -0.40 | 22.91 | 80.86 | 62.61 | 57.12 | 76.81 | | gte-Qwen2-1.5B-instruct | 1.5B | 59.45 | 52.69 | 62.51 | 58.32 | 52.05 | 0.74 | 24.02 | 81.58 | 62.58 | 60.78 | 71.61 | | gte-Qwen2-7b-Instruct | 7B | 62.51 | 55.93 | 73.92 | 61.55 | 52.77 | 4.94 | 25.48 | 85.13 | 65.55 | 60.08 | 73.98 | | Commercial APIs |

| | text-embedding-3-large |

| 58.93 | 51.41 | 62.17 | 60.27 | 46.89 | -2.68 | 22.03 | 79.17 | 63.89 | 59.27 | 71.68 | | Cohere-embed-multilingual-v3.0 |

| 61.12 | 53.23 | 70.50 | 62.95 | 46.89 | -1.89 | 22.74 | 79.88 | 64.07 | 59.16 | 74.80 | | Gemini Embedding |

| 68.37 | 59.59 | 79.28 | 71.82 | 54.59 | 5.18 | 29.16 | 83.63 | 65.58 | 67.71 | 79.40 | | Qwen3 Embedding Models |

| | Qwen3-Embedding-0.6B | 0.6B | 64.33 | 56.00 | 72.22 | 66.83 | 52.33 | 5.09 | 24.59 | 80.83 | 61.41 | 64.64 | 76.17 | | Qwen3-Embedding-4B | 4B | 69.45 | 60.86 | 79.36 | 72.33 | 57.15 | 11.56 | 26.77 | 85.05 | 65.08 | 69.60 | 80.86 | | Qwen3-Embedding-8B | 8B | 70.58 | 61.69 | 80.89 | 74.00 | 57.65 | 10.06 | 28.66 | 86.40 | 65.63 | 70.88 | 81.08 |

表格 2：MTEB 英语、MTEB 中文、MTEB 代码性能

Model	Size	Dim	MTEB (Eng, v2) Mean (Task)	MTEB (Eng, v2) Mean (Type)	CMTEB Mean (Task)	CMTEB Mean (Type)	MTEB (Code)
Selected Open-Source Models

| | NV-Embed-v2 | 7B | 4096 | 69.81 | 65.00 | 63.0 | 62.0 |

| | GritLM-7B | 7B | 4096 | 67.07 | 63.22 |

|

| | multilingual-e5-large-instruct | 0.6B | 1024 | 65.53 | 61.21 |

|

| | gte-Qwen2-1.5b-instruct | 1.5B | 1536 | 67.20 | 63.26 | 67.12 | 67.79 |

| | gte-Qwen2-7b-instruct | 7B | 3584 | 70.72 | 65.77 | 71.62 | 72.19 |

| | Commercial APIs |

| | text-embedding-3-large |

| 3072 | 66.43 | 62.15 |

|

| | cohere-embed-multilingual-v3.0 |

| 1024 | 66.01 | 61.43 |

|

| | Gemini Embedding |

| 3072 | 73.30 | 67.67 |

|

| | Qwen3 Embedding Models |

| | Owen3-Embedding-0.6B | 0.6B | 1024 | 70.70 | 64.88 | 66.33 | 67.44 | 75.41 | | Owen3-Embedding-4B | 4B | 2560 | 74.60 | 68.09 | 72.26 | 73.50 | 80.06 | | Qwen3-Embedding-8B | 8B | 4096 | 75.22 | 68.70 | 73.83 | 75.00 | 80.68 |

表格 3：重排序模型评估结果

Model	Param	Basic Relevance Retrieval MTEB-R	Basic Relevance Retrieval CMTEB-R	Basic Relevance Retrieval MMTEB-R	Basic Relevance Retrieval MLDR	MTEB-Code	FollowIR

Qwen3-Embedding-0.6B

0.6B

61.82

71.02

64.64

50.26

75.41

5.09


Jina-multilingual-reranker-v2-base

0.3B

58.22

63.37

63.73

39.66

58.98

-0.68


gte-multilingual-reranker-base

0.3B

59.51

74.08

59.44

66.33

54.18

-1.64


BGE-reranker-v2-m3

0.6B

57.03

72.16

58.36

59.51

41.38

-0.01


Owen3-Reranker-0.6B

0.6B

65.80

71.31

66.36

67.28

73.42

5.41


Owen3-Reranker-4B

4B

69.76

75.94

72.74

69.97

81.20

14.84


Qwen3-Reranker-8B

8B

69.02

77.45

72.94

70.19

81.22

8.05

表格 4：Qwen3-Embedding-0.6B 模型在不同训练设置下的性能 (平均任务)

Model	MMTEB	MTEB (Eng, v2)	CMTEB	MTEB (Code, v1)

Qwen3-Embedding-0.6B w/ only synthetic data

58.49

60.63

59.78

66.79


Qwen3-Embedding-0.6B w/o synthetic data

61.21

65.59

63.37

74.58


Qwen3-Embedding-0.6B w/o model merge

62.56

68.18

64.76

74.89


Qwen3-Embedding-0.6B

64.33

70.70

66.33

75.41

实验结论

Qwen3 Embedding 系列模型在文本嵌入和重排序任务方面取得了显著进展，并在多项基准测试中达到了最先进的性能。

卓越的性能 ：Qwen3-Embedding-4B 和 8B 模型在多语言、英语、中文和代码嵌入任务中持续超越现有模型，而 0.6B 模型也展现出强大的竞争力。
多阶段训练流程的有效性 ：大规模弱监督预训练和模型合并策略被证明是模型高性能的关键因素。Qwen3 LLM 在合成高质量、多样化训练数据方面的作用对于整个训练流程至关重要。
广泛的应用前景 ：Qwen3 Embedding 系列模型支持灵活的维度表示和可定制的指令，使其适用于各种下游任务，包括检索、语义文本相似性、分类和聚类。
开放可用性 ：Qwen3-Embedding 和 Qwen3-Reranker 模型的开源发布，将有助于促进社区驱动的研究和开发。

总而言之，Qwen3 Embedding 系列模型代表了基于基础模型在文本嵌入和重排序领域的重要进步，为自然语言处理和信息检索应用提供了强大而灵活的解决方案。