多语言E5 Embedding官方技术报告发布 - 文章 - 开发者社区


          
论文题目：Multilingual E5 Text Embeddings: A Technical Report
          
论文链接：https://arxiv.org/pdf/2402.05672.pdf
          
GitHub：https://github.com/microsoft/unilm/tree/master/e5

介绍了在2023年中期发布的开源多语言E5文本嵌入模型的训练方法和评估结果。报告提供了三种不同大小（小型、基础型、大型）的嵌入模型，旨在在推理效率和嵌入质量之间取得平衡。

E5训练过程遵循了两阶段方法 ：在数十亿文本对上进行弱监督对比预训练，然后在少量高质量标记数据上进行监督微调。

弱监督对比预训练（Weakly-supervised Contrastive Pre-training）：

在第一阶段，模型在来自不同来源的多语言文本对上进行预训练，这些文本对包括维基百科、mC4、多语言CC新闻、NLLB、Reddit、StackExchange等数据集。
使用大批量大小（32k）进行训练，总共约30k步，覆盖约10亿文本对。
采用标准的InfoNCE对比损失，仅使用批次内负样本，其他超参数与英语E5模型保持一致。

监督微调（Supervised Fine-tuning）：

在第二阶段，模型在高质量的标记数据集上进行微调，这些数据集包括MS-MARCO、NQ、SQuAD、NLI等。
除了批次内负样本，还结合了挖掘的困难负样本和跨编码器模型的知识蒸馏，以进一步提升嵌入质量。
对于mE5-{small / base / large}模型，使用了表2中的数据混合。对于mE5-large-instruct模型，采用了Wang等人（2023）的数据混合，包括由GPT-3.5/4生成的额外500k合成数据，涵盖93种语言。

报告还发布了一个利用Wang等人（2023）合成数据的指令调整嵌入模型mE5-large-instruct，该模型通过指令更好地了解任务，从而提高嵌入质量。

在评估方面，报告首先展示了多语言嵌入在MTEB基准（Muennighoff等人，2023）的英语部分上具有竞争力的性能，指令调整变体甚至超过了相似大小的强英语模型。

picture.image

为了展示模型的多语言能力，报告还在16种语言的MIRACL多语言检索基准（Zhang等人，2023）进行评测：

picture.image

以及在100多种语言的Bitext挖掘（Zweigenbaum等人，2018；Artetxe和Schwenk，2019）上评估了模型的性能

picture.image

报告的结论部分指出，通过公开模型权重，实践者可以利用这些模型进行信息检索、语义相似性和聚类任务，覆盖多种语言。

大模型RAG Embedding相关论文（BGE M3、Nomic Embed、Jina、E5mistral-7b）汇总：


          
Improving Text Embeddings with Large Language Models (2023)
          
Nomic Embed: Training a Reproducible Long Context Text Embedder (2024)
          
BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation (2024)
          
JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings for Retrieval: Early Technical Report (2023)
          
jina https://hf-mirror.com/jinaai/jina-embeddings-v2-base-en