BGE太卷了,发布图文检索BGE、重排ReRanker2.0,利好RAG与Agent工具使用!

大模型增长营销数据库管理服务

大模型落地场景

  • LLM+Agent:工具(Tool)使用是Agent的一个项核心能力,这里较大的一个挑战是如何支持大量工具,比如字节版GPTs“扣子”,里面的插件有60+,所有插件里的API工具聚合起来就更多了,这会超过大模型上下文长度,就要用到 检索与排序

, 在昨天的文章有 Agent发展与案例全面分析 ,有需要可以查阅:

从Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)

字节扣子插件商店

picture.image

  • LLM+RAG:perplexity搜索引擎、AI企业知识库问答,这里面网页或知识库文档众多,超出LLM的上下文长度, 检索与排序 不可缺少,甚至还需要支持 图文混合检索 能力。

perplexity搜索引擎产品页面

picture.image

BGE更新( 3/18/2024)

  • 重排模型BGE Re-Ranker2.0, 支持更多语言,更长文本长度,借助分层自蒸馏策略进一步优化推理效率

RAG基准评测:BGE Re-Ranker v2可以大幅提升各个embedding model在RAG场景下的精度

Llama-Index RAG Evaluation

picture.image

另外也推荐一下有道发布的bce-reranke r(参考文献3) ,效果也很不错,可以结合自己的落地场景做进一步评测, 适合的才是最好的!

BCEEmbedding官方评测

picture.image

  • 图文混合检索向量 Visualized-BGE ,通过引入image token embedding赋予BGE视觉编码能力。Visualized-BGE可以对混合图文数据进行编码,用于广泛的混合模态检索任务。

两个尺寸模型

picture.image

从下图的评测结果可以看出,在五个常用评测基准上WebQA、CIRR、FashionlQ、OVEN-QS、ReMuQ,对比基准标准CLIP,Visualized BGE取得了显著显著优势。

文本+图片混合评测基准

picture.image


          
https://github.com/FlagOpen/FlagEmbedding
          
https://mp.weixin.qq.com/s/XnkQFCdbvjox1Y06IbIlYw
          
https://hf-mirror.com/maidalun1020/bce-reranker-base_v1
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
边缘云原生操作系统设计与思考
《火山引擎边缘云原生操作系统设计与思考》 徐广治 | 火山引擎边缘云资深架构师
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论