智源发布深度语义检索多边形战士BGE-M3,效果领先OpenAI最新向量模型

人工智能与算法增长营销数据库管理服务

2024年01月25日 OpenAI一口气连更5款新模型,包括 两个新一代embedding模型:

text-embedding-3-small :与ada v2相比,价格降低5倍,性能更强。

text-embedding-3-large:OpenAI 的最佳性能模型,创建高达3072维的嵌入。

定价详情:


          
ada v2:每1000个令牌0.0001美元。
          
text-embedding-3-small:每1000个令牌0.00002美元(比ada v2便宜5倍)。
          
text-embedding-3-large:每1000个令牌0.00013美元。
      

2024年01月30日 智源发布 新一代通用向量模型 BGE-M3模型已开源huggingface,一站式支持多语言、长文本和多种检索方式:

  • BGE-M3支持超过 100种 语言的语义表示及检索任务,多语言、跨语言能力全面领先(Multi-Lingual)

  • BGE-M3最高支持 8192 长度的输入文本,高效实现句子、段落、篇章、文档等不同粒度的检索任务(Multi-Granularity)

  • BGE-M3同时集成了 稠密检索、稀疏检索、多向量检索 三大能力,一站式支撑不同语义检索场景(Multi-Functionality)

下图是与mE5(Best Baseline)以及 OpenAI 近期发布的向量模型API的评测对比。整体来看,采用三种方式联合检索的BGE-M3(ALL)在三项评测中全面领先。

picture.image

三个公开数据集上评测:多语言(Miracl),跨语言(MKQA),长文档搜索(NarrativeQA)

OpenAI-emb-3 评测结果来自其官方博客,其余为智源团队自测

BGE-M3模型训练分为三个阶段:

  • RetroMAE预训练,在105种语言的网页数据和wiki数据上进行,提供一个可以支持8192长度和面向表示任务的基座模型;
  • 无监督对比学习,在194种单语言和1390种翻译对数据共1.1B的文本对上进行的大 规模对比学习;
  • 多检索方式统一优化,在高质量多样化的数据上进行多功能检索优化,使模型具备多种检索能力。

picture.image


          
开源仓库及技术报告:
          
https://github.com/FlagOpen/FlagEmbedding
          
模型链接:
          
https://huggingface.co/BAAI/bge-m3
          
智源官方报道,新一代通用向量模型BGE-M3:
          
https://mp.weixin.qq.com/s/y-c-EelxbSUMmrZNCeqeAA
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论