多语言E5 Embedding官方技术报告发布

云通信小程序数据库管理服务

          
论文题目:Multilingual E5 Text Embeddings: A Technical Report
          
论文链接:https://arxiv.org/pdf/2402.05672.pdf
          
GitHub:https://github.com/microsoft/unilm/tree/master/e5
      

介绍了在2023年中期发布的开源多语言E5文本嵌入模型的训练方法和评估结果。 报告提供了三种不同大小(小型、基础型、大型)的嵌入模型,旨在在推理效率和嵌入质量之间取得平衡。

E5训练过程遵循了两阶段方法 :在数十亿文本对上进行弱监督对比预训练,然后在少量高质量标记数据上进行监督微调。

  1. 弱监督对比预训练(Weakly-supervised Contrastive Pre-training):
  • 在第一阶段,模型在来自不同来源的多语言文本对上进行预训练,这些文本对包括维基百科、mC4、多语言CC新闻、NLLB、Reddit、StackExchange等数据集。
  • 使用大批量大小(32k)进行训练,总共约30k步,覆盖约10亿文本对。
  • 采用标准的InfoNCE对比损失,仅使用批次内负样本,其他超参数与英语E5模型保持一致。
  • 监督微调(Supervised Fine-tuning):
  • 在第二阶段,模型在高质量的标记数据集上进行微调,这些数据集包括MS-MARCO、NQ、SQuAD、NLI等。
  • 除了批次内负样本,还结合了挖掘的困难负样本和跨编码器模型的知识蒸馏,以进一步提升嵌入质量。
  • 对于mE5-{small / base / large}模型,使用了表2中的数据混合。对于mE5-large-instruct模型,采用了Wang等人(2023)的数据混合,包括由GPT-3.5/4生成的额外500k合成数据,涵盖93种语言。

报告还发布了一个利用Wang等人(2023)合成数据的指令调整嵌入模型mE5-large-instruct,该模型通过指令更好地了解任务,从而提高嵌入质量。

在评估方面,报告首先展示了多语言嵌入在MTEB基准(Muennighoff等人,2023)的英语部分上具有竞争力的性能,指令调整变体甚至超过了相似大小的强英语模型。

picture.image

为了展示模型的多语言能力,报告还在16种语言的MIRACL多语言检索基准(Zhang等人,2023)进行评测:

picture.image

以及在100多种语言的Bitext挖掘(Zweigenbaum等人,2018;Artetxe和Schwenk,2019)上评估了模型的性能

picture.image

报告的结论部分指出,通过公开模型权重,实践者可以利用这些模型进行信息检索、语义相似性和聚类任务,覆盖多种语言。

大模型RAG Embedding相关论文(BGE M3、Nomic Embed、Jina、E5mistral-7b)汇总:


          
Improving Text Embeddings with Large Language Models (2023)
          
Nomic Embed: Training a Reproducible Long Context Text Embedder (2024)
          
BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation (2024)
          
JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings for Retrieval: Early Technical Report (2023)
          
jina https://hf-mirror.com/jinaai/jina-embeddings-v2-base-en
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 EMR 基于 Proton 的存算分离实践
EMR 团队针对这些挑战自研了 Proton 加速引擎,深度优化对象存储读写能力,与 Hive/Spark/Trino 等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。本次分享将介绍 Proton 技术能力和最佳实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论