大模型落地场景
- LLM+Agent:工具(Tool)使用是Agent的一个项核心能力,这里较大的一个挑战是如何支持大量工具,比如字节版GPTs“扣子”,里面的插件有60+,所有插件里的API工具聚合起来就更多了,这会超过大模型上下文长度,就要用到 检索与排序
, 在昨天的文章有 Agent发展与案例全面分析 ,有需要可以查阅:
从Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
字节扣子插件商店
- LLM+RAG:perplexity搜索引擎、AI企业知识库问答,这里面网页或知识库文档众多,超出LLM的上下文长度, 检索与排序 不可缺少,甚至还需要支持 图文混合检索 能力。
perplexity搜索引擎产品页面
BGE更新( 3/18/2024)
- 重排模型BGE Re-Ranker2.0, 支持更多语言,更长文本长度,借助分层自蒸馏策略进一步优化推理效率
RAG基准评测:BGE Re-Ranker v2可以大幅提升各个embedding model在RAG场景下的精度
Llama-Index RAG Evaluation
另外也推荐一下有道发布的bce-reranke r(参考文献3) ,效果也很不错,可以结合自己的落地场景做进一步评测, 适合的才是最好的!
BCEEmbedding官方评测
- 图文混合检索向量 Visualized-BGE ,通过引入image token embedding赋予BGE视觉编码能力。Visualized-BGE可以对混合图文数据进行编码,用于广泛的混合模态检索任务。
两个尺寸模型
从下图的评测结果可以看出,在五个常用评测基准上WebQA、CIRR、FashionlQ、OVEN-QS、ReMuQ,对比基准标准CLIP,Visualized BGE取得了显著显著优势。
文本+图片混合评测基准
https://github.com/FlagOpen/FlagEmbedding
https://mp.weixin.qq.com/s/XnkQFCdbvjox1Y06IbIlYw
https://hf-mirror.com/maidalun1020/bce-reranker-base_v1
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。