论文笔记分享,标题VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS,来自面壁智能,代码开源:https://github.com/OpenBMB/VisRAG
这篇文章主要是开源一个基于VLM的RAG流程。通过解决传统RAG系统只利用了文本,浪费了视觉信息(布局和图像)的问题,但是往往这些视觉信息在现实中非常重要。
在这篇文章开源的方案中,VisRAG相比TextRAG提升还是非常非常大的!
与常规的RAG不同,VisRAG直接将文档作为图像嵌入到VLM中,而不是首先解析文档获取文本。这样做可以保留原始文档中的所有信息,避免了解析过程中的信息丢失。
与常规的检索用clip不同,他们用的VLM,对最后的隐藏状态,使用加权池化得到向量表征。
query和image仍然是单独编码的,query会加instruct
生成,有一点点讲究
- 把所有的图片拼一起,形成一张图片 (适用于只能处理单张图片的VLM)
- 每个图片生成一个答案,然后选择最优的一个 (适用于只能处理单张图片的VLM)
- 把检索的图片都扔进去 (适用于能处理多张图片的VLM)
VisRAG在检索和生成阶段都优于基于文本的RAG,实现了25-39%的端到端性能提升。