细粒度视觉处理，MG-LLaVA 多模态大型语言模型，从3.8B到34B，物体识别能力大幅提升！

picture.image

多模态大型语言模型（MLLMs）在各类视觉理解任务中取得了重大进展。然而，这些模型中的大多数局限于处理低分辨率图像，这限制了它们在需要详细视觉信息的感知任务中的有效性。

在本次研究中，作者提出了MG-LLaVA，一个创新性的MLLM，通过整合多粒度视觉流，包括低分辨率、高分辨率和以目标为中心的特征，来提升模型的视觉处理能力。

作者 Proposal 增加一个额外的 high-resolution 视觉编码器来捕捉细粒度细节，然后通过 Conv-Gate 融合网络将这些细节与基础视觉特征融合。

为了进一步精化模型的物体识别能力，作者融入了由离线检测器识别的边界框导出的目标 Level 特征。

仅通过指令调整在公开可用的多模态数据上进行训练，MG-LLaVA 展现出卓越的感知技能。

作者用从3.8B到34B的各种语言编码器实例化MG-LLaVA，以全面评估模型的性能。

在多个基准测试中的广泛评估表明，MG-LLaVA 超越了参数规模相当的其他现有MLLMs，展示了其卓越的效能。

代码https://github.com/PhoenixZ810/MG-LLaVA。

1 Introduction

多模态大型语言模型（MLLMs）在视觉语言理解、视觉推理、视觉交互和定位方面取得了迅速发展。大多数MLLMs采用预训练的大型语言模型（LLMs）作为基础架构来处理连接的视觉和语言嵌入。以LLaVA [3]作为代表作品，它采用低分辨率（, 等）图像作为输入，并通过MLP投影器将视觉嵌入与文本模态对齐，然后进行指令调整。LLaVA的架构已被后续工作广泛采用，并已应用于各种视觉任务，包括检测、分割和视频理解。

现实世界中的图像展现出广泛的分辨率、尺度和长宽比，这对以低分辨率输入的MLLMs在鲁棒处理它们方面提出了重大挑战。为了解决这个问题，近期的研究提出了各种策略来增强MLLMs中视觉编码器的能力，包括在多样化数据集上进行训练、使用高分辨率图像输入和采用动态长宽比。这些方法大多涉及通过各种技术整合额外的视觉标记。尽管取得了这些进展，但仍然存在两个关键问题：

（1）尽管在几乎所有视觉理解任务中目标级特征都至关重要，但目前在现有的视觉编码器中却缺失；

（2）现有的MLLMs都没有将计算机视觉中的经典概念——多粒度特征，整合到其框架中。

受到上述分析的启发，作者介绍了MG-LLaVA，这是一个新颖的MLLM，旨在有效地处理多粒度视觉输入，包括目标级、原始图像和高分辨率输入。作者的框架基于LLaVA [3]并特别针对融合和管理多粒度输入进行了量身定制。对于目标级输入，作者使用预训练的开词汇检测器来识别目标边界框，并执行RoI对齐以获取区域视觉标记。与封闭集检测器相比，开词汇检测器在多样化场景中提供了增强的泛化能力和鲁棒性。为了处理细粒度视觉输入，作者利用基于卷积的 Backbone 网[16]来提取更丰富的视觉特征。随后，作者提出了一种简单而有效的融合策略，将这些输入整合到LLaVA中的原始视觉标记中。具体来说，作者最初使用简单的Conv-Gate卷积将细粒度视觉标记与原始视觉标记合并，然后将目标级标记附加到融合标记中。图2展示了MG-LLaVA与现有MLLMs之间的区别。实验结果定量验证了MG-LLaVA设计的有效性。

picture.image

作者使用MG-LLaVA与各种语言编码器（从3.8B到34B）进行了广泛的实验，以证明MG-LLaVA的有效性。作者的评估涵盖了11个流行的多模态基准测试，包括图像和视频。此外，作者提供了一系列全面的消融研究，说明了MG-LLaVA中不同组件的影响。得益于多粒度视觉特征，MG-LLaVA在感知和视觉理解方面的能力显著提高，优于已建立的同类产品，并在包括MMBench [19]和SEEDBench [20]在内的各种多模态基准测试中显著超过GPT-4V [17]和GeminiPro-V [18]。

这项工作的贡献可以总结如下：

图1：在涉及物体识别的各种视觉-语言任务中，MG-LLaVA的表现优于LLaVA。

picture.image

作者介绍了MG-LLaVA，这是一个高级的多模态模型，擅长处理多种粒度的视觉输入，包括目标级特征、原始分辨率图像和高分辨率数据。这一进展显著提高了MLLM在视觉感知和理解方面的能力。
作者提出了多粒度视觉流（Multi-Granularity Vision Flow），这是一个简单而有效的模块，用于整合不同粒度的特征，从而显著提高了作者模型的性能。通过实证实验验证了作者的方法的有效性。
通过采用从3.8B到34B的各种语言模型，作者的模型表现出清晰的伸缩性，并且在视觉理解方面有明显的能力，超过了已建立的同类模型，特别是在MMBench和SEEDBench上明显超过了GPT-4V和GeminiPro-V。

2 相关工作

大型语言模型。 近年来，像GPT-4 [17] 和Llama [21]这样的私有大型语言模型（LLM）已经取得了显著的性能。与此同时，许多开源研究也着手探索LLM。LLM在各种NLP任务中表现出强大的性能。然而，纯LLM无法处理图像和视频输入。作者的工作专注于设计新的多模态大型语言模型，这些模型将视觉和语言标记作为输入。在这项工作中，作者采用了从3.8B到34B的一系列LLM。这些模型观察到的性能证明了作者设计的效果。

多模态大型语言模型。 多模态大型语言模型（MLLM）最近展示了赋予LLM视觉对话能力的潜力。在这些模型中，LLaVA [31]通常构建了一个简单的架构，利用视觉-语言跨模态 Adapter 来弥合视觉和语言标记之间的差距。一些研究[36; 37; 11]尝试通过利用高分辨率输入来提高性能。LLaVA-UHD [7]通过将高分辨率图像划分为更小的切片，经济高效地增加了输入分辨率。随后，LLaVA-HR [14]和Mini-Gemini [8]，努力通过增加额外的视觉编码器来增强高分辨率细节，而不增加视觉标记的数量。然而，这些研究一致忽略了细粒度目标级特征的影响，这限制了它们在增强感知方面的潜力。相比之下，MG-LLaVA通过同时利用高分辨率输入、低分辨率输入和目标级输入探索多粒度输入的潜力。通过灵活地整合多种粒度的视觉标记，MG-LLaVA在几个基准测试上以很小的成本增加实现了卓越的性能。

多粒度视觉建模。在下游视觉任务的各个方面都已经融入了多粒度的输入。在目标检测和分割中，多级特征在检测不同尺度的物体方面的有效性已经得到了很好的证实。对于全景分割，一些方法应用了多粒度网络来并行训练实例、语义和部分分割，一些研究表明，在不同抽象层次上进行训练可以提高分割网络的性能。例如，SAM[56]提出了一种多粒度 Mask 预测方法，用于处理各种层次的 Mask ，如事物、背景杂物和部分。受到上述工作的启发，作者旨在将不同感知层次的输入捕获到MLLM中。特别是，作者通过为不同粒度开发多个视觉分支来构建作者的模型，从而增强其感知能力。

3 Method

在本研究中，作者引入了MG-LLaVA，它有效地利用了高分辨率和目标 Level 的特征来提升多粒度语言模型的表现。MG-LLaVA的架构如图3所示。该模型由两个关键组件组成：(1) 多粒度视觉流框架，用于提取具有不同分辨率和粒度的视觉特征，同时有效地整合不同的特征以确保无缝交互。(2) 一个大型语言模型，专门用于生成连贯和上下文相关的响应。

picture.image

Preliminary

作为广泛采用的多模态大型语言模型架构之一，LLaVA包括一个视觉编码器、一个MLP投影器和一个语言模型。给定一个视觉输入和一个文本输入，LLaVA根据方程(1)计算视觉和语言嵌入，其中表示的输入嵌入层。得到的嵌入和随后被连接成一个单独的 Token 序列，作为LLM的输入。LLaVA使用方程(2)计算目标答案的概率，其中表示可训练参数，是的长度。该模型在视觉指令调整数据上进行训练，以最大化。

图3：MG-LLaVA的说明。_左上_：MG-LLaVA的总体框架，包括多粒度视觉流模块和一个LLM。_右上_：多粒度视觉流的说明，旨在提取多个视觉特征并整合不同特征以确保无缝交互。_左下_：卷积门控融合模块的结构。

尽管结果很有希望，但LLaVA在处理低分辨率图像（224, 336等）方面仍然受到限制，这显著阻碍了模型的能力，特别是在小目标的识别方面。如果不直接调整视觉编码器而扩展到高分辨率，将大幅增加视觉 Token 的数量，使得这种方法无效。此外，视觉输入也可能很复杂，包含图像或视频中的多个目标，这对于多模态大型语言模型在识别一些关键目标方面提出了挑战。经验表明，融入目标级特征可以显著增强模型的感知能力。因此，作者引入了MG-LLaVA，它有效地利用了高分辨率和目标级特征，以提高多模态大型语言模型的表现。### 多粒度视觉流

混合视觉编码器如图3(b)所示，MG-LLaVA最初以两种不同的分辨率处理图像：低分辨率和高分辨率。在低分辨率分支中，作者遵循LLaVA-1.5 [31]，利用经过CLIP预训练的ViT [57]，记作，以导出低分辨率特征。ViT特征得益于扩展的接收域，捕捉更全面的全球信息。在高分辨率分支中，作者采用经过CLIP预训练的ConvNeXt [16]，记作，以获得高分辨率特征。有效地从高分辨率图像中提取详细特征，提供了详细的局部洞察。和分别以14和32的步长降低输入分辨率。因此，作者调整和，以确保和中的标记数量相同（）。

卷积门融合将低分辨率和高分辨率特征作为输入会导致待处理的视觉标记数量加倍，这在计算上效率低下。此外，ViT和ConvNeXt的不同架构导致和之间存在差异，需要一个仔细的融合过程。受到[14]的启发，作者实现了一个轻量级的卷积门融合网络，如图3(c)所示，它在保持单一分辨率的标记数量同时促进特征聚合。作者首先使用一维卷积对异构特征的对齐通道宽度，然后使用门控层调节低分辨率和高分辨率之间的语义信息，如方程(3)所述。融合模块应用于两个视觉编码器的输出，仅导致计算成本略有增加。

集成目标级特征鉴于从图像中导出的个目标边界框的集合，记作，作者采用感兴趣区域（RoI）对齐从高分辨率编码器的视觉特征中提取目标级特征。具体来说，作者将来自不同卷积阶段的特点上采样并拼接至输入大小的1/4比例，从而得到多尺度特征表示，这提供了细粒度的视角。然后从中对齐目标级特征。为了保持计算效率，作者对每个目标特征应用平均池化，然后将它们拼接成序列，如方程(4)所述。

在聚合和提取了目标级特征之后，和分别由两个独立的光投影仪（和）进行处理，以与文本嵌入对齐。对齐后的特征随后被拼接起来作为LLM的输入。作者尝试了多种策略将目标级特征合并到视觉嵌入中，并发现拼接操作产生了最有利的结果。相关实验在4.3节中讨论。在训练期间，作者在视觉指令调整数据上优化方程（5），以增强MG-LLaVA的多模态理解能力。对于视频训练，作者对每一帧执行上述操作，然后将结果拼接成一个扩展序列。

Training & Inference

最近，出现了各种强大的标签模型和开放词汇检测器，展示了显著的有效性。通过使用特定的标签模型输出标签，然后由检测器生成边界框，作者可以有效地避免生成大量不相关的框，与直接使用类不可知的检测器形成对比。推理流程的细节在附录D中说明。为了获取目标边界框，作者采用训练良好的RAM [58]作为标签模型，OWL-ViT v2 [59]作为检测器。生成的边界框通过非极大值抑制（NMS）进行过滤，然后用于模型训练和推理。需要注意的是，虽然RAM模型有助于生成标签，但这些标签仅作为开放词汇检测器确定边界框的输入，并不在训练阶段中整合。

遵循LLaVA-1.5 [31]，作者进行两阶段训练过程。在预训练阶段，作者冻结所有视觉编码器和LLM，只训练融合模块、视觉投影器和框投影器。这旨在提高融合模块聚合低分辨率和高分辨率特征的能力，并增强投影器将视觉特征与文本嵌入对齐的能力。在指令调优期间，作者保持视觉编码器冻结，以保持高质量图像特征提取的完整性，并微调剩余的组件以增强多模态理解。

4 Experiments

Implementation Details

模型设置。在这项工作中，所有实验都是基于Xtuner [60]进行的。特别地，作者选择了预训练的CLIP ViT-Large-14-336 [57]作为低分辨率视觉编码器，以及LAION预训练的ConvNext-Large-320 [16]作为高分辨率视觉编码器。对于边界框的生成，作者选择了RAM-Plus [58]作为标记模型，以及OWL-ViTv2-large-patch14-ensemble [59]作为开放词汇检测器。

数据集。在基于图像的训练阶段，作者的数据集包含了来自LAION-CCSBU [61]的558K图像-标题对和来自ALLaVA-4V-Caption数据集 [62]的708k图像-标题对，总计126万图像-标题对进行预训练。用于指令调优的数据集包括来自LLaVA-Instruct [31]的665K混合数据集，来自ALLaVA-4V-Instruction数据集 [62]的692k指令，以及额外的25k指令，这些指令来自于ShareGPT4V [63]，DocVQA [64]，DVQA [65]和AI2D [66]的组合，总共有超过130万图像-文本对话。此数据集的高质量有助于性能的迅速提升。对于视频训练，遵循Video-LLaVA [10]，作者将558K图像-文本对和703k视频-文本对组合起来进行视频适应。对于指令微调，作者使用了来自LLaVA的665k图像-文本指令数据集和来自Video-ChatGPT [9]的10k视频-文本指令数据集。

训练细节。为了公平起见，在整个训练过程中作者固定了所有种子，这里作者采用了XTuner代码库[60]。作者将低分辨率参数设置为336，高分辨率参数设置为768。对于视频训练，作者从每个视频中统一提取8帧。在预训练阶段，每个设备的批处理大小为32，总批处理大小为256。在指令调优阶段，作者将每个设备的批处理大小减少到16，总批处理大小为128。预训练阶段的初始学习率设置为1e-3，指令调优阶段的学习率设置为2e-5。每张图像的边界框数量限制在训练期间为100。使用Vicuna7B [22]模型和8xA100 GPU时，整个训练过程大约需要23小时。对于作者最庞大的模型，Yi1.5-34B [28]，作者使用了32xA100 GPU，并通过采用DeepSpeed Zero3策略在大约三天内完成优化过程。

Main Results

感知基准测试。 在表1中，作者在多种设置下将作者的MG-LLaVA与先前的领先方法在多模态基准测试上进行比较，这些基准测试主要关注感知能力，包括MMBench-Dev和MMBench-Test [19]，SEEDBench-Image [20]，以及MMStar [71]。MMBench旨在推进对多模态感知和认知的理解，而SEEDBench提供了对MLLM的全面和客观评估。MMStar进一步确保每个选定的样本展现出视觉依赖性。与各种MLLM相比，MG-LLaVA显示出显著增强的感知能力。配备了phi3-3.8B [26]的作者的MG-LLaVA在MMBench Dev和Test上比MiniCPM V2 [70]分别高出+3.8%，在SEEDBench上高出+3.1%。利用Vicuna-7B [22]，MG-LLaVA在MMBench和SEEDBench上超越了所有使用vicuna-7B甚至13B的模型，平均在四个基准测试上超过LLaVA-1.5-7B 5.1%。此外，使用Yi1.5-34B [28]的MG-LLaVA在MMBench和SEEDBench上持续超越GPT-4V，同时在MMStar上保持与GPT-4V相当的有效性。通过结合多粒度视觉输入，MG-LLaVA提高了捕捉图像内部细节的能力。更多案例展示在附录B中。

picture.image

视觉问答基准测试。 在本节中，作者分析了MLLM在视觉对话方面的能力。

基准测试可以分为两组：

(1)需要理解图像中的文本以提供答案的基准测试，包括TextVQA(VQA) [72]和DocVQA [73]。作者报告了两个验证集的准确率。

(2)一般的视觉问答基准测试，如VQA-V2 [74]，ScienceQA-Image(SQA) [75]，AI2D [66]。VQA基准测试的评估结果展示在表2中。MG-LLaVA在VQA基准测试上也显示出相当高的熟练度。当配备Vicuna-7B和7.4B参数时，MG-LLaVA在这些基准测试上超越了拥有10B参数的SPHINX-1k [12]和具有7.4B参数的Mini-Gemini。在相同的参数条件下，MG-LLaVA使用低分辨率输入336和高分辨率768，在VQA，SQA和AI2D上超越了输入分辨率为672x1008的LLaVA-UHD [7]。当与更大的LLM结合时，MG-LLaVA显示出其扩展潜力。使用Yi1.5-34B [28]，MG-LLaVA在大多数VQA基准测试上超越了广泛建立的 Baseline 。

picture.image

视频问答基准测试。 为了证明作者方法的有效性，作者已经将模型扩展到包含视频理解。作者在MSVD和MSRVTT上评估作者的模型，结果展示在表3中。MG-LLaVA在两个基准测试上超越了Video-LLaVA [10]，这进一步证明了MG-LLaVA的效率。在视频理解方面，MG-LLaVA在识别视频中的关键目标方面表现出专业能力。

picture.image

Ablation Experiments

在本节中，作者对模型进行了全面的消融研究。消融实验基于LLaVA-1.5 [31]提供 training 数据，采用固定种子协议以确保实验条件的稳定性和可比较性。每个组件的效果。 作者首先在包括MMBench-DEV [19]，SEEDBench [20]和TextVQA [72]等多个数据集上对目标级特征和Conv-Gate融合模块进行消融研究。为了验证作者的方法对不同规模LLM的有效性，基准建立在Vicuna-7B和Phi3-3.8B上。结果如表4所示。

picture.image

很明显，模型在集成了目标级特征和Conv-Gate融合模块后取得了显著的增益。在添加目标级特征时，使用Vicuna-7B的MMBench-Dev和SEEDBench的性能分别提高了1.0%，0.4%，使用Phi3的则提高了1.7%，0.9%。在使用融合网络后，这两个基准的性能进一步分别提高了1.6%，0.9%（Vicuna-7B）和2.3%，1.1%（Phi3）。对于TextVQA基准，由于检测器在图像中检测文本内容的表现不佳，加入目标级特征并没有显著提高性能。然而，集成高分辨率特征减轻了这一限制，最终使得Vicuna-7B的准确度提高了3.0%，Phi3-3.8B提高了2.5%。集成这两个模块会在计算开销和参数计数上略有增加，但提高了各种规模模型的效能。作者进一步列举了MMBench-Dev和SEEDBench各个子集的附加比较结果，比较结果在附录A中展示。融合网络设计。 作者还探索了不同的融合模块设计，并对各种组件进行了消融研究：(1) Channel Concat. 作者简单地在通道维度上连接低分辨率和高分辨率特征。(2) Patch Info Mining. 作者用[8]中的Patch Info Mining替换门控融合模型。(3) Resampler. 作者用[79]中的重采样器替换门控融合模型。结果如表4(a)所示。作者发现作者的Conv-Gated融合模块比这些方法表现更好，这证实了其有效性。

合并目标级特征的方法。 作者进一步探索了合并目标级特征的多种方法：(1) F-to-B Cross-Attention. 作者添加了一个交叉注意力块，通过在融合模块后集成目标级特征来增强融合特征，然后将增强的融合特征输入LLM。(2) B-to-F Cross-Attention. 在融合模块之后，另一个交叉注意力块被用来通过集成融合特征来增强目标级特征。融合特征和增强的目标级特征然后被连接起来作为输入给LLM。两者的框架在附录C中描述，结果在表4(c)中报告。作者的观察表明，交叉注意力并没有增强目标级特征到视觉表示的融合。相反，将目标级特征与视觉标记连接起来，并将决策权交给LLM会产生更优的结果。

标注模型。 作者研究了标注模型在边界框生成 Pipeline 中的影响。作者将作者的方法与基于COCO [80]数据集的80个类别分配固定标签给开放词汇检测器以生成边界框进行比较。比较结果在表4(b)中呈现。鉴于COCO数据集的80个类别并没有全面覆盖现实世界的目标，生成的边界框无法包含图像中的所有目标。这个限制因此减弱了目标级特征的影响。

5 Discussions

结论在这项工作中，作者提出了MG-LLaVA，一个能够处理多粒度视觉输入的扩展性多模态模型，包括目标级特征、原始图像和高分辨率数据。

为了有效融合不同粒度的特征，作者提出了多粒度视觉流模块，从而使LLM具备了从统一的视觉框架中识别多模态交互的能力。

利用从3.8B到34B参数范围的LLM，作者的模型显示出显著的可扩展性和在视觉理解方面的卓越性能，超过了现有模型，并在MMBench和SEEDBench等基准测试中显著超越了GPT-4V和GeminiPro Vision。

通过严格的实证研究，验证了作者的方法的有效性。

参考

[1].MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning.

细粒度视觉处理，MG-LLaVA 多模态大型语言模型，从3.8B到34B，物体识别能力大幅提升 ！

1 Introduction

2 相关工作

3 Method

Preliminary

Training & Inference

4 Experiments

Implementation Details

Main Results

Ablation Experiments

5 Discussions

参考