传统RAG凉凉?多模态RAG带来工业级革命

图像处理机器学习关系型数据库

论文笔记分享,标题Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模态VL模型很早的就进入了这个圈子,早的有LLava,近一点的gpt4o。这个内容的主要想论证一个事情,在工业界,同时包含文本和图像的RAG系统,相比于单文本的 RAG 系统会提高整体性能?

当然这个问题的结论是,会提高,所以还额外做了一些,优化多模态流程探索的工作。

首先,多模态的结合,2种模式,一种是图片保持不变,建立起图片向量库;另一种是图片会提取出摘要描述用于召回。 分别对应了下图

picture.image

比较特别的是,这个论文用到的数据是私有的,测试数据是自己标的。 语料库有8540 个片段,8377 张图片。 测试数据由专业人士标注100个问答对。

考虑到,这里多模态,现有的评测框架不够用了,所以他们开发并开源了一个评测框架,具体的维度还是老几样,正确性,相关性,事实性等等。地址在:https://github.com/riedlerm/multimodal\_rag\_for\_industry

评测结论如下图,就看下图左一,关注框框的对比把

  • 仅仅使用图片的RAG,不管是不是摘要,效果基本都不如baseline no rag
  • 使用text only的RAG系统已经是个非常强的baseline了
  • 多模态的RAG有潜力,但是很难打败基于纯文本的,但是如果图片检索厉害的话,还是能起飞的(黄框)picture.image

最后,在多模态RAG中,基于图片摘要向量的比图像直接做向量的,大部分指标都表现的好,受限于多模态向量的潜能,文本向量模型目前表现更好,也限制了这方面的发挥。总的来说,未来可期。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论