大型语言模型(LLMs)和指令调整的兴起,引领了当前指令调整的 大型语言和视觉模型(LLVMs) 的趋势。然而,现有的LLVMs忽视了来自专门计算机视觉(CV)模型的详细和全面的真实世界场景理解,这些CV模型在视觉感知任务中如分割、检测、场景图生成(SGG)和光学字符识别(OCR)等方面具有优势。相反,现有的LLVMs主要依赖于其LLM骨干的强大容量和新兴能力。 为解决上述问题,提出了一个
新的LLVM框架
—— Mixture of All Intelligence(MoAI) 。
MoAI的架构
MoAI的核心特点和工作机制如下:
- 辅助视觉信息的利用:MoAI利用来自外部计算机视觉(CV)模型的辅助视觉信息,这些模型包括分割、检测、场景图生成(SGG)和光学字符识别(OCR)模型。这些信息有助于提高模型在视觉感知任务中的性能。
- MoAI-Compressor模块:该模块负责将外部CV模型的输出进行压缩和对齐,以便在视觉-语言(VL)任务中有效利用这些辅助信息。
- MoAI-Mixer模块:MoAI-Mixer结合了三种类型的智能:视觉特征、外部CV模型的辅助特征和语言特征。它采用“专家混合”(Mixture of Experts)的概念,通过六个专家模块(三个用于视觉特征,三个用于语言特征)来处理和融合这些信息。
- 训练过程:MoAI的训练分为两个步骤。首先,使用视觉指令调整数据集对可学习令牌、MoAI-Compressor和MoAI-Mixer的专家模块进行训练。其次,进一步训练模型,包括学习用于视觉和语言特征的门控网络,以优化专家模块的权重组合。
MoAI架构概览
。压缩后的可学习令牌、MoAI-Compressor和MoAI-Mixer的参数都是通过学习获得的。"视觉"代表视觉编码器,用于嵌入视觉特征,而冰火符号代表冻结或学习的模块。请注意,"词嵌入"代表MLM的词嵌入字典。
MoAI对外部计算机视觉(CV)模型的言语化过程
:全景分割(PS)、开放世界目标检测(OWOD)、场景图生成(SGG)和光学字符识别(OCR)。请注意,“d”表示MLM的通道维度,因此辅助令牌具有相等的通道维度。
描述MoAI中的MoAI-Mixer在MLM层的图示。
在MoAI-Mixer中,有六个专家模块用于协调辅助特征A和两个原始特征(即,视觉特征I和语言特征L)。
MoAI效果评测
MoAI在众多零样本VL任务中显著超越了开源和闭源的LLVMs ,特别是在与真实世界场景理解相关的任务中,如对象存在性、位置、关系和OCR,而无需扩大模型尺寸或策划额外的视觉指令调整数据集。
比较各种 开源和闭源LLVMs 在众多视觉语言(VL)基准测试中的得分和准确率与MoAI的得分和准确率
评估MoAI在 九个视觉语言数据集 上的零样本性能,并与当前强大的视觉语言模型(VLMs)在Q-Bench、SQA-IMG、TextVQA、POPE、MME(-P, -C)、MM-Bench(-CN)和MM-Vet上的表现进行比较
MoAI: Mixture of All Intelligence for Large Language and Vision Models
https://arxiv.org/pdf/2403.07508.pdf
Code https://github.com/ByungKwanLee/MoAI
