给RAG装上眼睛，性能暴涨39%！ - 文章 - 开发者社区

论文笔记分享，标题VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS，来自面壁智能，代码开源：https://github.com/OpenBMB/VisRAG

这篇文章主要是开源一个基于VLM的RAG流程。通过解决传统RAG系统只利用了文本，浪费了视觉信息（布局和图像）的问题，但是往往这些视觉信息在现实中非常重要。

在这篇文章开源的方案中，VisRAG相比TextRAG提升还是非常非常大的！ picture.image

与常规的RAG不同，VisRAG直接将文档作为图像嵌入到VLM中，而不是首先解析文档获取文本。这样做可以保留原始文档中的所有信息，避免了解析过程中的信息丢失。 picture.image

与常规的检索用clip不同，他们用的VLM，对最后的隐藏状态，使用加权池化得到向量表征。

picture.image

query和image仍然是单独编码的，query会加instruct

picture.image

生成，有一点点讲究

VisRAG在检索和生成阶段都优于基于文本的RAG，实现了25-39%的端到端性能提升。

picture.image