论文题目:Multilingual E5 Text Embeddings: A Technical Report
论文链接:https://arxiv.org/pdf/2402.05672.pdf
GitHub:https://github.com/microsoft/unilm/tree/master/e5
介绍了在2023年中期发布的开源多语言E5文本嵌入模型的训练方法和评估结果。 报告提供了三种不同大小(小型、基础型、大型)的嵌入模型,旨在在推理效率和嵌入质量之间取得平衡。
E5训练过程遵循了两阶段方法 :在数十亿文本对上进行弱监督对比预训练,然后在少量高质量标记数据上进行监督微调。
- 弱监督对比预训练(Weakly-supervised Contrastive Pre-training):
- 在第一阶段,模型在来自不同来源的多语言文本对上进行预训练,这些文本对包括维基百科、mC4、多语言CC新闻、NLLB、Reddit、StackExchange等数据集。
- 使用大批量大小(32k)进行训练,总共约30k步,覆盖约10亿文本对。
- 采用标准的InfoNCE对比损失,仅使用批次内负样本,其他超参数与英语E5模型保持一致。
- 监督微调(Supervised Fine-tuning):
- 在第二阶段,模型在高质量的标记数据集上进行微调,这些数据集包括MS-MARCO、NQ、SQuAD、NLI等。
- 除了批次内负样本,还结合了挖掘的困难负样本和跨编码器模型的知识蒸馏,以进一步提升嵌入质量。
- 对于mE5-{small / base / large}模型,使用了表2中的数据混合。对于mE5-large-instruct模型,采用了Wang等人(2023)的数据混合,包括由GPT-3.5/4生成的额外500k合成数据,涵盖93种语言。
报告还发布了一个利用Wang等人(2023)合成数据的指令调整嵌入模型mE5-large-instruct,该模型通过指令更好地了解任务,从而提高嵌入质量。
在评估方面,报告首先展示了多语言嵌入在MTEB基准(Muennighoff等人,2023)的英语部分上具有竞争力的性能,指令调整变体甚至超过了相似大小的强英语模型。
为了展示模型的多语言能力,报告还在16种语言的MIRACL多语言检索基准(Zhang等人,2023)进行评测:
以及在100多种语言的Bitext挖掘(Zweigenbaum等人,2018;Artetxe和Schwenk,2019)上评估了模型的性能
报告的结论部分指出,通过公开模型权重,实践者可以利用这些模型进行信息检索、语义相似性和聚类任务,覆盖多种语言。
大模型RAG Embedding相关论文(BGE M3、Nomic Embed、Jina、E5mistral-7b)汇总:
Improving Text Embeddings with Large Language Models (2023)
Nomic Embed: Training a Reproducible Long Context Text Embedder (2024)
BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation (2024)
JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings for Retrieval: Early Technical Report (2023)
jina https://hf-mirror.com/jinaai/jina-embeddings-v2-base-en
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。