MoAI-7B：新型LLVM架构、开源、评测效果很强！ - 文章 - 开发者社区

大型语言模型（LLMs）和指令调整的兴起，引领了当前指令调整的 大型语言和视觉模型（LLVMs） 的趋势。然而，现有的LLVMs忽视了来自专门计算机视觉（CV）模型的详细和全面的真实世界场景理解，这些CV模型在视觉感知任务中如分割、检测、场景图生成（SGG）和光学字符识别（OCR）等方面具有优势。相反，现有的LLVMs主要依赖于其LLM骨干的强大容量和新兴能力。为解决上述问题，提出了一个

新的LLVM框架

—— Mixture of All Intelligence（MoAI） 。

MoAI的架构

MoAI的核心特点和工作机制如下：

辅助视觉信息的利用：MoAI利用来自外部计算机视觉（CV）模型的辅助视觉信息，这些模型包括分割、检测、场景图生成（SGG）和光学字符识别（OCR）模型。这些信息有助于提高模型在视觉感知任务中的性能。
MoAI-Compressor模块：该模块负责将外部CV模型的输出进行压缩和对齐，以便在视觉-语言（VL）任务中有效利用这些辅助信息。
MoAI-Mixer模块：MoAI-Mixer结合了三种类型的智能：视觉特征、外部CV模型的辅助特征和语言特征。它采用“专家混合”（Mixture of Experts）的概念，通过六个专家模块（三个用于视觉特征，三个用于语言特征）来处理和融合这些信息。
训练过程：MoAI的训练分为两个步骤。首先，使用视觉指令调整数据集对可学习令牌、MoAI-Compressor和MoAI-Mixer的专家模块进行训练。其次，进一步训练模型，包括学习用于视觉和语言特征的门控网络，以优化专家模块的权重组合。

MoAI架构概览

。压缩后的可学习令牌、MoAI-Compressor和MoAI-Mixer的参数都是通过学习获得的。"视觉"代表视觉编码器，用于嵌入视觉特征，而冰火符号代表冻结或学习的模块。请注意，"词嵌入"代表MLM的词嵌入字典。

picture.image

MoAI对外部计算机视觉（CV）模型的言语化过程

：全景分割（PS）、开放世界目标检测（OWOD）、场景图生成（SGG）和光学字符识别（OCR）。请注意，“d”表示MLM的通道维度，因此辅助令牌具有相等的通道维度。

picture.image

描述MoAI中的MoAI-Mixer在MLM层的图示。

在MoAI-Mixer中，有六个专家模块用于协调辅助特征A和两个原始特征（即，视觉特征I和语言特征L）。

picture.image

MoAI效果评测

MoAI在众多零样本VL任务中显著超越了开源和闭源的LLVMs ，特别是在与真实世界场景理解相关的任务中，如对象存在性、位置、关系和OCR，而无需扩大模型尺寸或策划额外的视觉指令调整数据集。

比较各种 开源和闭源LLVMs 在众多视觉语言（VL）基准测试中的得分和准确率与MoAI的得分和准确率

picture.image

评估MoAI在 九个视觉语言数据集 上的零样本性能，并与当前强大的视觉语言模型（VLMs）在Q-Bench、SQA-IMG、TextVQA、POPE、MME(-P, -C)、MM-Bench(-CN)和MM-Vet上的表现进行比较

picture.image


          
MoAI: Mixture of All Intelligence for Large Language and Vision Models
          
https://arxiv.org/pdf/2403.07508.pdf
          
Code https://github.com/ByungKwanLee/MoAI