传统RAG凉凉？多模态RAG带来工业级革命 - 文章 - 开发者社区

论文笔记分享，标题Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模态VL模型很早的就进入了这个圈子，早的有LLava，近一点的gpt4o。这个内容的主要想论证一个事情，在工业界，同时包含文本和图像的RAG系统，相比于单文本的 RAG 系统会提高整体性能？

当然这个问题的结论是，会提高，所以还额外做了一些，优化多模态流程探索的工作。

首先，多模态的结合，2种模式，一种是图片保持不变，建立起图片向量库；另一种是图片会提取出摘要描述用于召回。分别对应了下图

picture.image

比较特别的是，这个论文用到的数据是私有的，测试数据是自己标的。语料库有8540 个片段，8377 张图片。测试数据由专业人士标注100个问答对。

考虑到，这里多模态，现有的评测框架不够用了，所以他们开发并开源了一个评测框架，具体的维度还是老几样，正确性，相关性，事实性等等。地址在：https://github.com/riedlerm/multimodal\_rag\_for\_industry

评测结论如下图，就看下图左一，关注框框的对比把

最后，在多模态RAG中，基于图片摘要向量的比图像直接做向量的，大部分指标都表现的好，受限于多模态向量的潜能，文本向量模型目前表现更好，也限制了这方面的发挥。总的来说，未来可期。