给RAG装上眼睛,性能暴涨39%!

大模型图像处理算法

论文笔记分享,标题VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS,来自面壁智能,代码开源:https://github.com/OpenBMB/VisRAG

这篇文章主要是开源一个基于VLM的RAG流程。通过解决传统RAG系统只利用了文本,浪费了视觉信息(布局和图像)的问题,但是往往这些视觉信息在现实中非常重要。

在这篇文章开源的方案中,VisRAG相比TextRAG提升还是非常非常大的!picture.image

与常规的RAG不同,VisRAG直接将文档作为图像嵌入到VLM中,而不是首先解析文档获取文本。这样做可以保留原始文档中的所有信息,避免了解析过程中的信息丢失。picture.image

与常规的检索用clip不同,他们用的VLM,对最后的隐藏状态,使用加权池化得到向量表征。

picture.image

query和image仍然是单独编码的,query会加instruct

picture.image

生成,有一点点讲究

  • 把所有的图片拼一起,形成一张图片 (适用于只能处理单张图片的VLM)
  • 每个图片生成一个答案,然后选择最优的一个 (适用于只能处理单张图片的VLM)
  • 把检索的图片都扔进去 (适用于能处理多张图片的VLM)

VisRAG在检索和生成阶段都优于基于文本的RAG,实现了25-39%的端到端性能提升。

picture.image

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论