MM-LLMs: Recent Advances in MultiModal Large Language Models - 文章 - 开发者社区

Abstract

在过去的一年中，多模态大型语言模型（MM-LLMs）取得了实质性的进展，通过具有成本效益的训练策略，增加了现成的llm来支持MM的输入或输出。所得到的模型不仅保留了LLM固有的推理和决策能力，而且还赋予了各种各样的MM任务。本文对MM-LLMs进行了全面的综述，旨在为 MM-LLMs 的进一步研究提供参考。首先，我们概述了模型体系结构和训练管道的一般设计公式。随后，我们介绍了一个包含126个mm-llm的分类法，每个mm - llm都有其特定的配方。此外，我们在主流基准上回顾了所选 mm-llm的表现，并总结了提高 mm-llm效能的关键训练方法。最后，我们探索了mm-llm的发展方向，同时维护了一个实时跟踪网站，以了解该领域的最新发展。我们希望这项调查有助于MM-LLMs领域的持续发展。

Introduction

近年来，多模态（MM）预训练研究取得了重大进展，不断推动下游任务的性能界限。然而，随着模型和数据集的规模不断扩大，传统的MM模型会产生大量的计算成本，特别是在从头开始训练时。认识到MM研究是在各种模式的交叉点上进行的，一个合乎逻辑的方法是利用现成的预训练单模基础模型，特别强调强大的大型语言模型（llm）。该策略旨在减少计算费用并提高MM预训练的效率，从而出现了一个新的领域：MM-LLMs。

MM-LLMs利用llm作为认知引擎来支持各种MM任务。llm提供了理想的特性，如强大的语言生成，zero-shot迁移能力和上下文学习（ICL）。同时，其他模式中的基础模型提供了高质量的表示。考虑到不同模式的基础模型是单独预训练的，mm-llm 面临的核心挑战是如何有效地将 llm与其他模式的模型连接起来，从而实现协同推理。该领域的主要焦点是通过MM Pre-Training(PT) + MM Instruction-Tuning（IT） 管道来优化模态之间的对齐并与人类意图对齐。

随着GPT-4(Vision) 和Gemini 的首次亮相，展示了令人印象深刻的MM理解和生成能力，引发了对MM-llm的研究热情。最初的研究主要集中在MM内容理解和文本生成，包括图像文本理解等任务，例如BLIP-2 、LLaVA 、MiniGPT4 和 OpenFlamingo 等项目；视频文本理解，如VideoChat 、Video-ChatGPT 和 LLaMA-VID 等倡议所证明的；以及音频-文本理解，如QwenAudio等项目。后来，mm-llm的功能得到了扩展，以支持特定的模态输出。这包括具有图像-文本输出的任务，如GILL 、cosmos -2、Emu 和 MiniGPT-5 ；以及语音/音频-文本输出，如SpeechGPT 和AudioPaLM 等项目。最近的研究努力集中在模仿类似人类的任意形态转换，为人工通用智能的道路提供了光明。一些努力旨在将llm与外部工具合并，以达到接近任意对任意MM的理解和生成，例如VisualChatGPT , HuggingGPT 和AudioGPT。相反，为了减轻级联系统中的传播误差，NExT-GPT 、CoDi-2 和 ModaVerse 等计划开发了任意模态的端到端 mm-llm。mm-llm的时间轴如图1所示。

picture.image

在这里插入图片描述

本文对mm-llm进行了全面的综述，旨在促进mm - llm的进一步研究。为了让读者全面了解mm-LLM，我们首先从模型架构（第2节）和训练管道（第3节）描述一般设计公式。我们将一般模型架构分解为五个组件：Modality Encoder （第2.1节）、Input Projector （第2.2节）、 LLM Backbone （第2.3节）、Output Projector （第2.4节）和 Modality Generator （第2.5节）。训练管道阐明了如何增强预训练的纯文本LLM以支持MM输入或输出，主要由两个阶段组成：MM PT （第3.1节）和MM IT （第3.2节）。在该部分中，我们还提供了mm pt和mm it的主流数据集的摘要。接下来，我们建立了包含126个最先进（SOTA） mm-llm的分类，每个mm-llm都具有特定的配方特征，并在第4节中总结了它们的发展趋势。在第5节中，我们全面回顾了主要mm-llm在主流基准上的表现，并提炼出关键的训练配方，以提高mm - llm的有效性。在第6节中，我们为mm-llm的研究提供了有希望的方向。此外，我们还建立了一个网站（ https://mm-llms.github.io），以跟踪mm-llm的最新进展，并促进众包更新。最后，我们在第7节对全文进行了总结，并在附录a中对mm-llm的相关调查进行了讨论。我们希望我们的调查能够帮助研究者对这一领域有更深入的了解，并为设计更有效的mm-llm提供启发。

Model Architecture

picture.image

在这里插入图片描述

在本节中，我们将详细概述组成一般模型体系结构的五个组件，以及每个组件的实现选择，如图2所示。强调MM理解的MM- llm只包括前三个组件。在训练期间，Modality Encoder 、LLM Backbone 和Modality Generator 通常保持在冻结 状态。主要的优化重点 是Input 和 Output Projectors 。鉴于投影是轻量级组件，mm-llm中可训练参数的比例与总参数数相比明显很小（通常约为2%）。总体参数数取决于mm-LLM中使用的核心LLM的规模。因此，可以有效地训练MM-llm，以增强各种MM任务。

Modality Encoder

Modality Encoder（ME）的任务是对来自不同模态

的输入进行编码，以获得相应的特征

，其公式如下： picture.image 各种预训练编码器选项

存在，用于处理不同的模态，其中 X可以是图像，视频，音频，3D等。接下来，我们将按模态进行简要介绍。

Visual Modality 对于图像，有各种可选的编码器：NFNet-F6, ViT, CLIP, Eva-CLIP ViT, BEiT-3, OpenCLIP, Grounding-DINO-T with Swin-T backbone, DINOv2 , SAM-HQ with MAE, RAM++ with Swin-B backbone, InternViT, 和 VCoder。对于视频，可以统一采样到5帧，进行与图像相同的预处理。
Audio Modality 通常由CFormer、HuBERT、BEATs 、Whisper 和 CLAP 编码。
3D Point Cloud Modality 通常由ULIP-2 和 PointBERT 主干编码。

此外，为了处理众多异构模态编码器，一些 mm-llm，特别是任意对任意的mm-llm，使用ImageBind ，这是一种涵盖六种模态的统一编码器，包括图像/视频、文本、音频、热图、惯性测量单元和深度。我们在附录B中简要介绍了一些主流的模态编码器。

Input Projector

**Input Projector

的任务是将其它模态

的编码特征与文本特征空间

对齐** ，然后将对齐的特征作为提示

与文本特征

一起馈送到LLM主干中。给定

-text 数据集

，目标是最小化

条件文本生成损失

：

picture.image 其中

。

Input Projector 可以直接通过 Linear Projector 或多层感知器（MLP ）来实现，即几个线性投影与非线性激活函数交错。还有更复杂的实现，如 Cross-attention、Q-Former、P-Former 和 MQ-Former。Cross-attention （Perceiver Resampler）使用一组可训练向量作为查询，编码特征

作为键，将特征序列压缩到固定长度。然后将压缩的表示直接输入LLM或进一步用于X-Text交叉注意融合。Q-Former 通过可学习的查询从

中提取相关特征，然后将选中的特征用作提示

。同时，P-Former 产生“reference prompts”，对Q-Former产生的提示进行对齐约束。MQ-Former 对多尺度视觉和文本信号进行细粒度对齐。然而，Q-、P-、MQ-Former都需要一个额外的 PT 进程进行初始化 。

LLM Backbone

拿 LLMs 作为核心智能体，mm-llm 可以继承一些值得注意的特性，如 zero-shot 泛化、few-shot ICL、思维链（CoT）和指令遵循。LLM 主干处理来自各种模式的表征，从事输入的语义理解、推理和决策。它产生 (1) 直接文本输出

，(2) 来自其他模态（如果有的话）的信号令牌

。这些信号令牌作为指示，指导生成器是否生成MM内容，如果是，则指定要生成的内容：

picture.image

在这里插入图片描述

其中其他模态

的对齐表示可以被认为是 LLM 的 soft Prompt-tuning 。此外，一些作品介绍了 Parameter-Efficient Fine-Tuning（PEFT）方法，如 Prefix-tuning， LoRA 和 LayerNorm tuning。在这些情况下，额外可训练参数的数量非常少，甚至不到LLM参数总数的0.1%。我们在附录C中介绍了主流的PEFT方法。

MM-LLMs 中常用的 llm 包括Flan-T5 、ChatGLM 、UL2 、Persimmon、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2 和 Vicuna。我们在附录D中简要介绍了一些有代表性的llm。

Output Projector

将 LLM Backbone 的信号令牌表示

映射为 Modality Generator

可理解的特征

。给定

text 数据集

，

，首先将

输入LLM以生成相应的

，然后将其映射到

。为了方便映射特征

的对齐，目标是最小化

与

的条件文本表示之间的距离：

picture.image

在这里插入图片描述

优化只依赖于文本，不使用任何音频或视觉资源

，其中

，

是

中的文本条件编码器。Output Projector 由一个带有可学习的MLP 或 Tiny Transformer 实现，其输入是解码器特征序列。

Modality Generator

的任务是产生不同模态的输出。通常，现有的工作使用现成的 Latent Diffusion Models（ldm），即用于图像合成的Stable Diffusion，用于视频合成的Zeroscope ，以及用于音频合成的AudioLDM2 。由 Output Projector 映射的特征

作为去噪过程中的条件输入来生成MM内容。在训练过程中，ground truth 内容首先被预训练的VAE转化为潜在特征

。然后，将噪声

加到

中，得到噪声潜在特征

。使用预训练的 Unet

计算条件 LDM 损失

如下：

picture.image 通过最小化

来优化参数

和

。

Training Pipeline

MM-llm 的训练管道可以划分为两个主要阶段：MM PT 和 MM IT。

MM PT

在PT阶段，通常利用X-Text数据集，训练 Input 和 Output Projectors 通过优化预定义的目标来实现各种模式之间的对齐 。对于MM理解模型，优化仅关注式(2)，而对于MM生成模型，优化涉及式(2)、式(4)、式(5)。在后一种情况下，式(2)还包括真值信号令牌序列。

X-Text数据集包括图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型：图像-文本对（例如，）和交错图像-文本语料库（例如，

）。X-Text数据集的详细情况见表3

MM IT

MM IT是一种使用指令格式的数据集对预训练的MM-llm进行微调的方法 。通过这个过程，mm-llm可以通过遵守新的指令来推广到未见过的任务，从而提高zero-shot性能。这个简单而有影响力的概念催化了NLP领域的后续成功，例如 InstructGPT、OPT-IML 和 InstructBLIP 。

MM-LLMs IT包括监督微调（SFT）和人类反馈强化学习（RLHF），旨在与人类意图保持一致，增强MM-llm的交互能力。SFT将部分PT阶段数据转换为指令感知格式。以可视化问答（QA）为例，可以使用各种模板，如 (1) “{Question}”用一个简短的答案回答问题。(2) "" 检查图片，用一个简短的答案回答以下问题：“{Question}. Answer:”；等等......。接下来，它使用相同的优化目标对预训练的 mm-llm 进行微调。SFT数据集可以构建为单轮QA或多轮对话。

在SFT之后，RLHF涉及模型的进一步微调，依赖于mm-llm响应的反馈（例如，手动或自动标记的自然语言反馈（NLF））。该过程采用强化学习算法对不可微NLF进行有效积分。该模型经过训练以产生以NLF为条件的相应响应。SFT和RLHF数据集的统计结果见附录G的表4。

现有MM- llm在MM PT和MM IT阶段使用的数据集各不相同，但它们都是表3和表4中数据集的子集。

SOTA MM-LLMs

picture.image

在这里插入图片描述

如图3所示，我们从功能和设计的角度对126个SOTA mm - llm进行了分类。在设计分类，“Tool-using”表示将LLM视为黑盒，并提供对特定MM专家系统的访问，以通过推理执行特定的MM任务，而“End-to-End”表示整个模型以端到端方式联合训练。基于先前定义的设计公式，我们还对其中43个SOTA mm - llm的架构和训练数据集规模进行了全面比较，如表1所示。接下来，我们将总结它们的发展趋势，并简要介绍附录E中一些代表性模型的核心贡献。

picture.image Trends in Existing MM-LLMs: (1) 从专门强调MM理解到生成特定模态，并进一步演变为任意到任意模态转换（例如，MiniGPT-4→MiniGPT-5→NExT-GPT）；(2) 从MM PT到SFT再到RLHF，训练管道不断完善，力求更好地符合人类意图，增强模型的会话交互能力（例如，BLIP-2→instructlip→DRESS）；(3) 采用多样化的模态扩展（例如，BLIP-2→X-LLM和InstructBLIP→X-InstructBLIP）；(4) 纳入更高质量的训练数据集（例如，LLaVA→LLaVA1.5）；(5) 采用更高效的模型架构，从BLIP-2和DLP中复杂的Q-和P-Former input projector 模块过渡到VILA中更简单但有效的linear projector。

Benchmarks and Performance

为了提供全面的性能比较，我们编制了一个表，其中包含了各种论文。表2给出了这些信息，附录F给出了这些基准的详细描述。考虑到可用的众多基准，我们将重点放在基于 OKVQA、IconVQA、

和 GQA 的不同mm-llm的评估和比较上。 picture.image OKVQA包括需要用各种知识类型（如常识、世界知识和视觉知识）进行推理的问题。MiniGPT-v2和MiniGPT-v2-chat在这个基准测试中表现最好，展示了它们出色的推理能力。IconVQA强调抽象图表理解和整体认知推理在现实世界基于图表的文字问题中的重要性，这既需要敏锐的感知能力，也需要全面的认知推理。MiniGPT-v2和MiniGPT-v2-chat在这个基准测试中也表现出色，突出了它们卓越的感知和认知推理能力。VQAv2是一个更加平衡的VQA数据集，其中每个问题都与一系列图像配对。VILA-13B在这个基准测试中表现最好，证明了它在理解多模态信息方面的卓越能力，以及它在获取的知识中对语言偏差的抵抗能力。GQA是一个专注于图像场景图的VQA数据集，提供来自真实世界图像的公正构图问题。每个问题都与其含义的结构化表示和回答所需的详细逻辑步骤相关联。LLaVA-1.5和VILA-7B在该基准测试中表现最好，说明它们在该领域具有出色的推理能力。

接下来，我们将概述提高mm - llm有效性的训练配方，并从SOTA模型中获得见解。

Training Recipes

首先，更高的图像分辨率可以为模型包含更多的视觉细节，有利于需要细粒度细节的任务。例如，LLaVA-1.5和VILA的分辨率为 336 × 336，而Qwen-VL和MiniGPT-v2的分辨率为 448 × 448。然而，更高的分辨率会导致更长的令牌序列，从而产生额外的训练和推理成本 。MiniGPT-v2通过在嵌入空间中连接4个相邻的视觉标记来减少长度来解决这个问题。最近，Monkey 提出了一种无需重新训练高分辨率视觉编码器即可提高输入图像分辨率的解决方案，该方案仅使用低分辨率视觉编码器，支持分辨率高达1300 × 800。为了增强对富文本图像、表格和文档内容的理解，DocPedia 引入了一种将视觉编码器分辨率提高到 2560 × 2560 的方法，克服了开源ViT中低分辨率表现不佳的限制。

其次，纳入高质量的SFT数据可以显著提高特定任务的性能 ，如将ShareGPT4V数据添加到llva -1.5和VILA-13B中，如表2所示。

此外，VILA揭示了几个关键发现：(1) 在 LLM 主干上执行 PEFT 可以促进深度嵌入对齐，这对ICL至关重要 ；(2) 交错的图像-文本数据被证明是有益的 ，而单独的图像-文本对是次优的；(3) 在SFT过程中，将纯文本指令数据（如非自然指令）与 image-text 数据重新混合，不仅解决了纯文本任务的退化问题，还提高了VL任务的准确性 。

Future Directions

在本节中，我们从以下几个方面探讨了mm - llm的未来发展方向：

More General and Intelligent Models

增强 mm-llm的能力可从以下四个主要途径：

(1) Expanding Modalities ：目前 mm-llm 主要支持图像、视频、音频、3D和文本等模式。然而，现实世界涉及更广泛的模式。扩展mm - llm以适应其他模式（例如，网页、热图和图表）将增加模型的多功能性，使其更普遍适用；

(2) Diversifying LLMs：纳入不同类型和规模的LLMs，使从业者能够根据自己的具体要求灵活选择最合适的LLM；

(3) 提高 MM IT 数据集质量：当前MM IT数据集有很大的改进和扩展空间。多样化的指令范围可以提高mm - llm理解和执行用户命令的有效性；

(4) 增强MM生成能力：目前大多数mm-llm主要面向MM理解。尽管一些模型包含了生成MM的能力，但是生成的响应的质量可能受到ldm能力的限制。探索基于检索的方法的整合在补充生成过程，提高模型的整体性能方面具有重要的前景。

More Challenging Benchmarks

现有的基准测试可能不足以挑战 mm-llm 的能力，因为许多数据集不同程度的在PT或IT集中出现过。这意味着模型可能在训练期间已经学会了这些任务 。此外，目前的基准测试主要集中在VL子领域。因此，对于mm-llm的发展来说，构建一个更具挑战性、更大规模的基准是至关重要的，该基准包括更多的模态，并采用统一的评估标准。例如，GOAT-Bench 旨在评估各种mm-llm 在识别和响应模因中描述的社会虐待的细微方面的能力。MM-Code 评估了在视觉丰富的环境下mm-llm的算法解决问题的能力。DecodingTrust 测量mm-llm的可信度。MathVista 在视觉环境下评估mm-llm的数学推理能力，而GeoEval 评估了他们解决几何数学问题的熟练程度。此外，MMMU 和CMMMU 分别为专家人工通用智能引入了英文和中文版本的综合多学科MM理解和推理基准。此外，Fan等人用多面板VQA挑战了mm-llm， BenchLMM 对mm-llm的跨风格视觉能力进行了基准测试。此外，Liu等人对mm-llm的光学字符识别能力进行了深入研究。这些努力突出了需要更复杂和多样化的基准来真正衡量mm-llm的先进能力。

Mobile/Lightweight Deployment

要在资源受限的平台上部署mm-llm，同时实现最优性能，如低功耗移动和物联网设备，轻量级实现至关重要。MobileVLM是该领域的一个显著进步。这种方法战略性地缩小了LLaMA的规模，实现了无缝的现成部署。MobileVLM还推出了一款轻量级下采样projector，由不到 2000 万个参数组成，有助于提高计算速度。最近，有许多类似的轻量化mm-llm研究，以相当的性能或最小的损失实现高效的计算和推理，包括TinyGPT-V , Vary-toy, Mobile-Agent, MoE-LLaVA 和MobileVLM V2。然而，这一途径需要进一步探索，以进一步促进发展。

Embodied Intelligence

具身智能旨在通过有效地理解环境、识别相关物体、评估它们的空间关系和制定全面的任务计划来复制人类的感知和与周围环境的互动。具身AI任务，如具身规划、具身视觉问答和具身控制，通过利用实时观察，使机器人能够自主执行扩展计划。该领域的典型作品有PaLM-E 和EmbodiedGPT 。PaLM-E通过MM-LLM的训练引入了一种多具身智能体。除了作为一个具体的决策者之外，PaLM-E还展示了处理一般VL任务的熟练程度。EmbodiedGPT引入了一种以CoT方法为特征的经济高效的方法，增强了具身智能体与现实世界接触的能力，并建立了一个连接高级规划与低级控制的闭环。基于mm-llm的具身智能在与机器人集成方面取得了进展，但在增强机器人自主性方面还需进一步探索。

Continual Learning

由于其庞大的规模带来了巨大的训练成本，mm-llm不适合频繁的再训练。然而，更新是必要的，以赋予mm-llm新的技能，使其与快速发展的人类知识保持同步。因此，需要持续学习（CL）使模型足够灵活，以有效和持续地利用新出现的数据，同时避免重新训练mm - llm的大量成本。mm - llm的CL可分为 continual PT 和 continual IT 两个阶段。最近，已经提出了一个 continual 的 MM IT基准，以持续地对MM- llm进行新的MM任务微调，同时在原始MM IT阶段学习的任务上保持优越的性能。它引入了两个主要挑战：(1) 灾难性遗忘 ，即模型在学习新任务时忘记了之前的知识和 (2)负前向迁移 ，表明学习新任务时未见的任务的表现下降。

Mitigating Hallucination

幻觉需要在没有视觉线索的情况下对不存在的物体产生文本描述，这表现在不同的类别中，例如描述中的误判和不准确。这些幻觉的来源 是多方面的，包括训练数据中的偏差和注释错误 。此外，Skip \n 强调了与段落分隔符相关的语义漂移偏差 ，在故意插入时可能会引起幻觉。目前缓解这些幻觉的方法包括利用自我反馈作为视觉线索。然而，挑战仍然存在，需要在准确输出和幻觉输出之间进行细微的区分，以及改进训练方法以提高输出的可靠性。

Biases and Ethical Considerations

尽管mm-llm具有优势，但确保其安全高效的应用仍然至关重要。mm - llm产生的信息可能使刻板印象永久化，并对弱势群体造成伤害。由于MM- llm从MM训练数据中的模式中学习，它们可以重现这些数据中存在的偏差，从而潜在地导致代表性损害。为了解决这个问题，我们可以开发专门用于评估mm-llm偏差的新基准。此外，设计更有效和细粒度的对齐方法是必要的。例如，使用RLHF可以帮助校准mm-llm，以产生符合人类价值观和愿望的答案。

Conclusion

在本文中，我们对mm-llm的最新进展进行了全面的调查。最初，我们将模型体系结构分为五个组件，提供一般设计公式和训练管道的详细概述。随后，我们介绍了各种SOTA mm-llm，每种mm-llm都有其特定的配方。我们的调查还揭示了他们在不同MM基准上的能力，并展望了这个快速发展领域的未来发展。我们希望这项调查能够为研究者提供一些见解，为mm-llm领域的持续发展做出贡献。

参考文献

https://arxiv.org/pdf/2401.13601