再看这个整理图,整个系统形成了一个闭环的多模态查询响应流程:
- 文档输入
:DOC 和 PDF 文档被转换为 JPG 页面图像。 2. 嵌入生成
:图像和文本通过嵌入器生成向量,存储在 Qdrant 向量数据库中。 3. 查询处理
:用户通过聊天界面输入查询,ColPali 处理多模态表示。 4. 上下文检索
:从数据库中检索相关内容,提供给 Qwen2.5-VL。 5. 回答生成
:基于多模态提示生成最终回答,返回给用户。
关于CoPali理论与实践可参考前期文章:
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
关于作者:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。