2024年01月25日 OpenAI一口气连更5款新模型,包括 两个新一代embedding模型:
text-embedding-3-small :与ada v2相比,价格降低5倍,性能更强。
text-embedding-3-large:OpenAI 的最佳性能模型,创建高达3072维的嵌入。
定价详情:
ada v2:每1000个令牌0.0001美元。
text-embedding-3-small:每1000个令牌0.00002美元(比ada v2便宜5倍)。
text-embedding-3-large:每1000个令牌0.00013美元。
2024年01月30日 智源发布 新一代通用向量模型 BGE-M3 , 模型已开源 在huggingface,一站式支持多语言、长文本和多种检索方式:
-
BGE-M3支持超过 100种 语言的语义表示及检索任务,多语言、跨语言能力全面领先(Multi-Lingual)
-
BGE-M3最高支持 8192 长度的输入文本,高效实现句子、段落、篇章、文档等不同粒度的检索任务(Multi-Granularity)
-
BGE-M3同时集成了 稠密检索、稀疏检索、多向量检索 三大能力,一站式支撑不同语义检索场景(Multi-Functionality)
下图是与mE5(Best Baseline)以及 OpenAI 近期发布的向量模型API的评测对比。整体来看,采用三种方式联合检索的BGE-M3(ALL)在三项评测中全面领先。
三个公开数据集上评测:多语言(Miracl),跨语言(MKQA),长文档搜索(NarrativeQA)
OpenAI-emb-3 评测结果来自其官方博客,其余为智源团队自测
BGE-M3模型训练分为三个阶段:
- RetroMAE预训练,在105种语言的网页数据和wiki数据上进行,提供一个可以支持8192长度和面向表示任务的基座模型;
- 无监督对比学习,在194种单语言和1390种翻译对数据共1.1B的文本对上进行的大 规模对比学习;
- 多检索方式统一优化,在高质量多样化的数据上进行多功能检索优化,使模型具备多种检索能力。
开源仓库及技术报告:
https://github.com/FlagOpen/FlagEmbedding
模型链接:
https://huggingface.co/BAAI/bge-m3
智源官方报道,新一代通用向量模型BGE-M3:
https://mp.weixin.qq.com/s/y-c-EelxbSUMmrZNCeqeAA
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。