mmMamba框架：从现有MLLMs逐步蒸馏，实现线性复杂度多模态模型，兼顾效率与性能并大幅节省资源！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

近期的多模态大语言模型（MLLMs）在性能上取得了显著进展，但由于它们的计算复杂度呈二次增长、不断增长的关键值缓存需求以及对独立视觉编码器的依赖，面临着部署挑战。作者提出了mmMamba框架，该框架通过从现有的MLLMs逐步蒸馏，利用适度的学术计算资源开发出线性复杂度的原生多模态状态空间模型。

作者的方法可以直接将训练好的仅解码器MLLMs转换为线性复杂度架构，无需预先训练基于RNN的大语言模型或视觉编码器。作者提出了一种起始策略，从训练过的Transformer中提取Mamba，并制定了一种三阶段的蒸馏方案，

可以有效地将Transformer的知识转移到Mamba中，同时保留多模态能力。作者的方法还支持灵活的混合架构，可以结合Transformer层和Mamba层，以实现可定制的效率-性能权衡。

从基于Transformer的仅解码器HoVLE蒸馏而出，mmMamba-linear在与现有线性和二次复杂度视觉语言模型的竞争中表现出色，而mmMamba-hybrid则进一步提升了性能，接近了HoVLE的能力。

在103K Tokens的情况下，mmMamba-linear实现了相对于HoVLE的20.6倍加速和75.8%的GPU内存减少，而mmMamba-hybrid实现了13.5倍的加速和60.2%的内存节省。

相关代码和模型已发布在https://github.com/hustvl/mmMamba。

Introduction

近年来，大语言模型（LLMs）的发展激发了研究领域在扩展其能力方面的显著兴趣，使这些模型不仅仅局限于文本理解，还涵盖了多模态理解，特别是在同时处理视觉和文本信息方面。这种扩展催生了多模态大语言模型（MLLMs），其中视觉语言模型（VLMs）成为了一个突出的子类别。诸如LLaVA、BLIP、Qwen-VL（Bai等人，2023b）、InternVL 以及Monkey（Li等人，2024b）等显著的例子，通过集成预训练的视觉编码器和专门的连接器，成功提高了大语言模型对视觉信息的理解能力。这些连接器有效地弥合了视觉与语言之间的模态差距。

尽管这些基于编码器的组合VL模型已经实现了最先进的性能，并且确立了它们作为默认范式的地位，但它们面临两个关键限制。首先，处理长上下文变得极其昂贵，这是由于计算复杂性呈二次增长以及随序列长度线性增长的关 Key-Value （KV）缓存。这一限制在对长链推理和高分辨率图像/视频理解的需求不断增加的情况下显得尤为突出。其次，它们异构的架构严重依赖预训练的视觉编码器，在训练过程和部署场景中引入了显著的复杂性（Chen等人，2024a）。

当前的研究努力克服这些局限性主要沿着两条不同的路径进行。一种方法侧重于通过遵循传统的编码器基础食谱开发线性复杂度的VLM，这需要预先训练好的视觉编码器和线性复杂度的语言模型。另一种方法旨在通过增加模型规模和扩展训练数据集来提升仅解码器型VLM的表现，使其性能能够与基于编码器的模型相媲美。

尽管取得了这些进展，线性复杂度的解码器型大语言模型的发展仍然是一个研究不足但至关重要的挑战。解决这一缺口具有三个关键原因的价值：

（1）统一的多模态理解：这样的模型能够在单一架构中无缝集成多模态推理，从而消除对异构且模态特定框架的需求。

（2）实际效率：线性复杂度模型在训练和推理阶段都天然地减少了计算需求，降低了成本，并允许在资源受限的边缘设备上部署。

（3）未开发的潜力：虽然像Mamba-2这样的近期线性时间模型展示了高文本处理能力，但对于多模态任务——特别是跨模态对齐和推理——它们的能力仍远未得到探索。

研究线性复杂度的解码器型大语言模型有可能解锁高性能、低成本的多模态系统。

一个直接的解决方案是将仅解码器型VLG和线性复杂度编码器型VLG的方法相结合。这种整合需要一个预训练的线性复杂度大语言模型，并进行基于文本指令和图像 Prompt 的图像-描述对齐预训练(PT)和监督微调(SFT)。然而，这种方法面临两大挑战：

（1）它要求为不同的目的（即PT和SFT）收集多种大规模多模态数据集，并且需要大量的计算资源。

（2）整体性能受限于预训练的线性复杂度大语言模型的能力，在语言理解任务上这些模型始终逊色于主流的SOTA Transformer基座的大语言模型。

在本文中，作者提出了一种新颖的知识蒸馏方法，用于开发具有线性复杂度的解码器型视觉语言模型(VLM)，该方法只需有限的学术资源即可克服预先训练的线性复杂度大语言模型的局限性。作者的方法利用了Transformer注意力机制与Mamba-2状态空间模型(SSM)机制之间的基本相似性。作者引入了一种初始化方案，能够直接从Transformer参数转移到Mamba-2层参数，从而有效地将注意力机制转化为SSM函数，并仔细初始化SSM特有的参数以模仿注意力行为。这种方法使得预训练的基于Transformer的VLM可以直接转换为基于Mamba-2的线性复杂度VLM，而不依赖于表现不佳的预先训练的线性复杂度大语言模型。尽管这种参数继承和初始化策略提供了良好的起点，但转换后的Mamba-2基VLM仍需要进一步的蒸馏来恢复稳健的多模态对话能力。为了增强与基于Transformer的教师VLM的一致性，作者开发了一种分阶段的渐进式蒸馏策略：

（1）第一阶段：作者首先训练SSM特有的参数，同时冻结继承的参数，并使用均方误差(MSE)蒸馏损失调整各层的行为；

（2）第二阶段：然后通过启用继承的Transformer参数的训练优化完整的Mamba-2层行为；

（3）第三阶段：最后使用KL散度损失对最终输出logits进行完全模型对齐，通过端到端的蒸馏恢复教师模型的多模态理解能力。

提出的蒸馏食谱能够实现两种不同的架构变体：mmMamba-linear，它将所有Transformer层转换为Mamba-2层，从而实现完全线性复杂度；以及mmMamba-hybrid，它有选择地将Transformer层的固定间隔转换为Mamba-2层。这种混合设计系统地保留了关键特征层次上的Transformer层，同时利用Mamba-2的线性复杂度进行大部分计算，实现了效率与能力之间的平衡。在最终的端到端蒸馏阶段，作者可以灵活调整交错的Transformer层数量，从而精确控制计算与性能之间的权衡。这种架构灵活性使得作者的方法能够高度适应各种部署场景，在特定计算约束下优化性能的同时保持所需的效果。

通过从近期基于Transformer的解码器架构VLG模型HoVLE中提炼经验，作者展示了mmMamba在多个视觉语言基准测试中实现了竞争力的性能，并显著提高了计算效率。

作者的纯Mamba-2线性复杂度变体mmMamba-linear在性能上与现有的二次/线性复杂度VLG模型（例如Chu等人的Mobile-VLM-3B，Hou等人的VisualRWKV3B，Qiao等人的VL-Mamba-3B）相当，而无需额外的视觉编码器。mmMamba-pure在参数量减少到原先的一半时也达到了与之前SOTA的基于Transformer的解码器架构EVE-7B相当的性能。混合变体mmMambahybrid在所有基准测试中的性能显著优于mmMamba-pure，并接近于教师模型HoVLE的表现。特别是在上下文长度为103K Token的情况下，mmMamba-linear相比HoVLE快了20.6倍，并节省了75.8%的GPU内存，而mmMamba-hybrid则实现了13.5倍的速度提升，并节省了60.2%的GPU内存。这些结果和详尽的消融研究验证了作者精简方法的有效性，并突显了其在实际应用中的潜力。

作者的主要贡献可以总结如下：

作者提出了一种新颖的三阶段渐进式提炼方案，用于构建无需依赖表现不佳的预训练线性复杂度大语言模型的原生多模态状态空间模型，从而实现从二次架构到线性架构的有效知识转移。
通过提出的蒸馏方案，作者首次提出了包含两种独立架构变体的解码器为主多模态状态空间模型：mmMambalinear具有纯粹的线性复杂度，而mmMambahybrid则提供了灵活的性能-效率trade-offs。
大量的实验结果表明，本方法在各种视觉-语言任务中展现了竞争力，并且显著提升了计算效率，相比NVIDIA 4090 GPU上的长序列建模，速度提升了高达20.6倍，内存减少了4.2倍。
Related Work

解码器为主的视觉语言模型。大语言模型（LLM）取得的显著成功激发了研究界将其能力扩展到多模态视觉语言模型（VLM）。尽管组合编码器基架构，利用预训练的基础视觉编码器、以及额外的连接器，在该领域占主导地位。最近，Fuyu-8B（Bavishi等，2023）这一开创性工作表明，单一统一的解码器为主Transformers 可以在性能上与基于编码器的VLM相媲美，并且由于其架构上的简单性和部署效率而成为一种有吸引力的选择。这一突破引发了研究行人对解码器为主的VLM的兴趣。SOLO（Chen等，2024a）提出了一套针对解码器为主的VLM的系统性训练方法，通过调整预训练的LLM来适应视觉语言任务。

EVE（Diao等，2024）在此基础上进一步引入了视觉语言预对齐和辅助视觉表示监督，在微调过程中增强了解码器为主的VLM的性能。为了更好地保留继承来的LLM的语言能力，HoVLE（Tao等，2024）引入了一个额外的基于Transformer的解码器为主的整体嵌入模块，在LLM处理多模态输入Token之前对语言和视觉模态进行对齐。尽管取得了这些进展，现有的解码器为主的VLM仍然受到Transformer架构二次计算复杂性的限制，导致了显著的训练和部署成本。相比之下，作者提出的mmMamba通过逐步蒸馏将Transformer层转换为线性复杂度的Mamba-2层，从而实现了纯线性和混合架构变种，解决了这些问题。

线性复杂度视觉语言模型。基于线性复杂度循环神经网络（RNN）的大语言模型（例如，Mamba（Gu & Dao, 2023），Mamba-2（Da0 & Gu, 2024），RWKV（Peng et al., 2023））的发展激发了对解决基于Transformer的视觉语言模型（VLM）的二次复杂度限制的兴趣。VL-Mamba（Qia0 et al., 2024）沿用了LLaVA的方法，通过在预训练的Mamba大语言模型中加入视觉选择性扫描连接器。同样地，Cobra（Zha0 et al., 2024）通过集成DINOv2（Oquab et al., 2023）和SigLIP（Zhai et al., 2023）视觉编码器增强了预训练的Mamba大语言模型的视觉能力。MLMamba（Huang et al., 2024）引入了Mamba-2扫描连接器来处理预训练视觉编码器与预训练的Mamba-2大语言模型之间的视觉Token。相比之下，VisualRWKV（Hou et al., 2024）利用CLIP ViT-L/14（Radford et al., 2021）作为视觉编码器，并使用一个带有2D图像扫描机制的预训练RWKV大语言模型（Peng et al., 2023；2024）进行视觉序列处理。然而，上述工作仍然受限于依赖预训练的RNN基础大语言模型和视觉编码器，遵循组合编码器为基础的范式。相反，作者提出的mmMamba消除了对预训练RNN基础大语言模型和视觉编码器的依赖，能够训练一种灵活的混合架构，该架构最少化训练成本地交错使用Mamba和Transformer层。这一能力使得性能和效率之间可以自定义权衡，使其适用于多种实际应用。

基于Transformer的RNN知识蒸馏。与从零开始训练基于RNN的大语言模型不同，近期的研究提出了一种通过蒸馏将预训练的基于Transformer的大语言模型线性化为基于RNN的大语言模型的方法，这可以显著降低构建基于RNN的大语言模型的成本。Kasai等人（2021年）率先采用了这种方法，使用了线性注意力，并用预训练的大语言模型权重初始化线性注意力参数，利用了与Transformer的softmax注意力固有的相似性。

Zhang等人（2024年b）提出增加损失项以匹配softmax注意力，从而更接近基Transformer的效果。Mercat等人（2024年）在此领域取得了进展，通过用一个带有新型归一化策略的线性RNN核替代softmax注意力。在此基础上，Bick等人（2024年）、Wang等人（2024年a）和Zhang等人（2024年a）开发了多阶段知识蒸馏方法，以实现更有效的Transformer到RNN的知识蒸馏。受这些进展的启发，作者通过提出的新型多阶段蒸馏策略将此蒸馏范式扩展到了视觉语言模型（VLMs）。作者的方法首先在每一层对新增的线性化LSTM参数进行对齐，然后进行逐层蒸馏，最后进行端到端蒸馏。这种逐步的pipeline确保了高效的知识转移，从二次知识过渡到线性知识，同时保持性能。

Preliminary

作者首先简要介绍一下二次复杂度序列建模的Transformer和线性复杂度序列建模的Mamba-2。给定一个输入序列

，其中

是序列长度，

是隐藏维度。上述两种序列建模层将计算输出序列

。标准自回归Transformer在大语言模型中使用注意力机制（Vaswani, 2017），通过与序列中的所有历史位置进行交互来定义：

其中，

是可学习的参数。当前输出 Token

是通过在增长的历史 Key 序列

和历史 Value 序列

上执行注意力机制计算得到的。Mamba-2 与其不同的是，它将历史信息压缩成一个固定大小的矩阵状隐藏状态，该隐藏状态定义如下：

其中，

和

是可学习的参数。

是固定大小的矩阵状隐藏状态，

是数据依赖的门控项，用于通过动态衰减历史信息

来控制信息流。

Method

作者的方法包含三个关键组件。首先，作者在第4.1节中详细介绍了种子策略，该策略通过继承参数并在预训练Transformer的基础上精心初始化新引入的SSM特定参数来构建Mamba-2架构。在此基础上，作者在第4.2节、第4.3节和第4.4节中提出了所提出的渐进式知识蒸馏Pipeline，以有效地将Transformer的知识转移到Mamba-2。

借助设计好的蒸馏训练方案，作者在第4.5节中实例化了两种模型变体：仅使用Mamba-2层的mmMamba-linear，以及结合交织Transformer和Mamba-2层的mmMamba-hybrid。

原训练得到的Transformer层。具体来说，作者将基于Transformer的预训练VLM实例化为教师模型，将转移学习得到的Mamba-2 VLM模型作为学生模型。唯一的区别在于序列混合层。作者将多模态序列输入到教师模型中。

为了保持层间的对齐并减少逐层累积的误差，作者将第

个Mamba-2层的输入设置为第

个Transformer层的输出，即第

个Mamba-2层和第

个Transformer层具有相同的输入。并通过在第

个Mamba-2层的输出与第

个Transformer层的输出之间应用均方误差(distillation)损失来对齐层间行为：

4.1. Seeding: Initialize Mamba-2 from Transformer

为了尽可能地从二次Transformer转移到线性Mamba-2中，作者在每一层都从Transformer初始化Mamba-2。通过比较式(1)和式(2)，作者可以发现Mamba-2在结构上与Transformer相似，这意味着作者可以在每一层直接继承

、

和

的投影参数，而不是从头开始构建。此外，作者还需要引入额外的参数

和

用于状态空间建模，替代注意力机制。为了更好地进行替代并简化训练难度(Trockman等人，2024)，作者初始化

和

，使得在训练初期的门控项

接近于1，也就是说作者首先记忆所有历史信息而不进行选择性处理。

除了核心的SSM机制外，作者还引入了额外的因果卷积和输出门控，以增强位置感知能力和表达能力。为了消除因果卷积初试阶段的影响，在训练开始时，作者将权重和偏置初始化为使其功能类似于恒等层（即，因果卷积的输出与输入相同），而不影响SSM原有的功能。

模型的其他部分，如MLP层和文本及图像Patch嵌入层，直接继承自原始的Transformer基VLM，并保持冻结状态。

4.2. Stage-1: Layerwise Distillation for the Newly Introduced SSM Parameters

作者首先逐层对学生引入的额外参数进行知识蒸馏，使提出的Mamba-2层与目标层对齐，其中第

层Mamba-2的可训练参数仅为引入的额外参数

、

和

。

是输入到第

层Mamba-2层和Transformer层的输入序列，

是第

个教师Transformer层的输出，

是第

个学生Mamba2层的输出。

4.3. Stage-2: Layerwise Distillation for the Whole Mamba-2Parameters

经过阶段一的知识蒸馏，作者已经获得了引入的额外参数的良好初始化，并进一步训练了所有Mamba-2参数，以更好地使学生Mamba-2的逐层行为与教师Transformer对齐。阶段一和阶段二之间的唯一区别在于，作者在优化蒸馏损失时进一步包含了

、

参数。

4.4. Stage-3: End-to-End Distillation

除了层级对齐之外，最终的第三阶段蒸馏旨在将学生模型Mamba2的整体行为与教师Transformer对齐。具体来说，作者向教师Transformer和学生模型Mamba2提供相同的多模态序列，但不共享中间输出。对于教师模型和学生模型的输出，作者应用单词 Level 的KL散度损失，换句话说，它们作为软标签使用，作者强制学生模型的输出logits接近教师模型的输出logits。

其中，

是提供给教师模型和学生模型的相同的多模态输入序列，

是学生模型的可训练参数。

4.5. Architecture

作者的mmMamba建立在HoVLE的基础上，HoVLE是一个由32个Transformer层组成的解码器模型。对于mmMambalinear，作者将每个Transformer层转换为Mamba2层，同时保留MLP层，从而形成一个线性复杂度的解码器模型。为了增强模型的表达能力，在Mamba2层中，作者采用了多头设计，将SSM划分为多个组，并在组间共享Query，这与HoVLE中使用的分组 Query 注意力机制一致。

对于mmMamba-hybrid，作者引入了一种系统性的层转换方案。具体来说，在每一组连续的若干层中，作者保留第一层作为Transformer，并将剩余层转换为Mamba-2。这种混合方案在关键特征层次上保留了Transformer的建模能力，同时利用Mamba2的线性复杂度来进行大部分计算。这样的设计使得在计算效率与模型能力之间取得了有效的折中，适用于各种具有不同需求的应用场景。在本文中，作者将间隔设为4，构建了总共包含8个Transformer层和24个Mamba-2层的mmMamba-hybrid。

Experiment

5.1. Implementation Detail

训练。所有模型均使用8块NVIDIA A800 80GB GPU和BF16精度进行训练，并采用DeepSpeed ZeRO2（Rajbhandari等，2020；Rasley等，2020）。蒸馏过程利用了SOLO（Chen等，2024a）的监督微调数据集，包含170万语言仅含和图像-文本配对实例。作者使用AdamW（Loshchilov，2017）优化器，

参数设置为

，梯度剪裁值为5.0，并采用WarmupStable-Decay（WSD）调度器，其中包含10%的预热期和10%的衰减期。对于第一阶段和第二阶段的蒸馏，作者使用批量大小为128，训练20000步，并设置权重衰减为0.05，学习率分别为

和

。第三阶段的蒸馏使用批量大小减少到64，继续进行20000步的训练，权重衰减仍为0.05，学习率为

。

评估基准。作者在9个不同的公开基准上评估作者的模型，涵盖了6项通用VLM基准和3项视觉问答任务。

通用VLM基准包括：MME（Yin等，2023），通过真假问题评估视觉感知和推理能力；

MMBench（Liu等，2024b），通过多项选择题评估模型的鲁棒性；POPE（Li等，2023b），评估目标错觉；SEED（Li等，2023a），评估开放世界的多模态理解能力；MMMU（Yue等，2024），评估具有大学水平跨学科推理任务的模型性能；

以及MM-Vet（Yu等，2023），在核心视觉和语言能力的16个新兴任务上评估模型。视觉问答基准包括：TextVQA（Singh等，2019），评估光学字符识别（OCR）能力和基于文本的推理能力；ScienceQA（Lu等，2022），测试科学图像理解能力；以及GQA（Hudson & Manning，2019），评估现实世界的视觉推理能力和组合式问题回答能力。

在比较中的具体得分，作者报告MME感知分为MME分，MMB分数基于MMBench-EN划分计算，而POPE分数则通过其三个类别取平均值得到。

5.2. Main Comparison

在表1中，作者将mmMamba与之前的基于编码器和解码器-only的多模态语言模型在9个流行的基准上进行了比较。作者强调了以下发现：

picture.image

· mmMamba仅在训练配方中使用知识蒸馏，这在两个方面大大降低了训练成本：(1) 数据集收集——与其他方法需要分别准备用于预训练（PT）和监督微调（SFT）的数据集不同，作者的蒸馏配方只需要一个SFT数据集；(2) 可训练参数——在训练过程中，mmMamba-linear仅更新了约14.7%的可训练参数，而mmMamba-hybrid更新了约11.2%的可训练参数，相比之下，其他方法需要训练大部分参数。

·mmMamba-linear 在6/9个基准测试中（即MME、MMB、POPE、SEED、MM-Vet、ScienceQA）超越了基于Transformer的解码器型VLM EVE-7B的表现，而在另外3个基准测试中的性能与EVE-7B相当，但参数量减少了2倍。即使与基于编码器的VLM（例如MobileVLM-3B、LLaVA-phi）相比，mmMamba-linear仍然表现出可比拟的性能，且计算复杂度降低到了线性复杂度。

mmMamba-linear在性能上与近期的基于编码器的线性复杂度视觉语言模型（VisualRWKV-3B和VL-Mamba-3B）相当，但在ScienceQA基准测试中显著优于它们。

通过与Transformer层交替使用，mmMamba-hybrid在所有基准测试上的性能均优于mmMamba-linear，显著缩小了与其基于HoVLE的Teacher Transformer之间的差距，并且优于基于线性复杂度编码器的VLMs（VisualRWKV-3B和VL-Mamba-3B）。

5.3. Efficiency Analysis

固定 Prompt 词和固定的解码长度。作者直接遵循表2中Cobra的基准配方，使用相同的示例图像和问题“具体描述这张图片”来 Prompt VLM模型，并将输出的Token数量设置为256。作者记录了VLM模型的总时间，该时间包括图像/文本 Prompt 预填充时间和解码时间。速度（Token/s）通过输出Token的数量（即256）除以总时间计算得出。作者将作者的方法与3个基于Transformer的VLM和2个具有相似参数量级的线性复杂度编码器为基础的VLM进行比较。所有的评估都在同一块NVIDIA RTX 4090 GPU上进行。

picture.image

由于基于线性复杂度建模固定隐藏状态，mmMamba-linear/hybrid 的推理速度比所有基于Transformer的VLM快近4倍。此外，由于采用简单的解码器架构，mmMamba-linear/hybrid 在线性复杂度编码器基础上的VLM（如Cobra-3.5B和VisualRWKV-3B）上的表现也高出一大截（分别大约每秒30个Token和快3倍）。

增加上下文长度。长上下文处理已成为现代多模态视觉语言模型的一项关键能力，对于高分辨率图像/视频理解（Chen等，2023；Li等，2024a）和长链推理（Xu等，2024；Lightman等，2023；DeepSeek-AI等，2025；Muennighoff等，2025；Team等，2025）而言变得愈发重要，这些场景通常需要处理数千个Token的序列。为了展示所提出的mmMamba在这一应用中的效率，作者将其与基于Transformer的HoVLE在同一块NVIDIA RTX 4090 GPU上进行比较。作者报告了GPU内存使用情况以及模型解码下一个Token的延迟。

如图1所示，在Token长度为4K时，由于采用了高效的FlashAttention2实现，HoVLE表现出稳定的低延迟。当上下文Token长度达到8K以上时，由于Key-Value缓存的增长，HoVLE的延迟和内存消耗会线性增加。在Token长度达到128K时，HoVLE因超出GPU内存限制而无法解码。相比之下，mmMamba-linear在Token长度增加时表现出较低且稳定的延迟和内存使用量，并且mmMamba-hybrid的推理成本相较于HoVLE增加了较慢的速度，在128K Token长度下仍能进行解码。具体来说，在103K Token长度时，mmMamba-linear比HoVLE快20.6倍，并节省了75.8%的GPU内存；而mmMamba-hybrid则实现了13.5倍的加速，并节省了60.2%的GPU内存。

picture.image

5.4. Ablation Study

阶段重要性。如表3所示，直接将Transformer的权重转移到Mamba-2中（第4.1节，未进行知识蒸馏）会丧失多模态理解能力。通过逐步加入设计的知识蒸馏阶段，模型的性能得到了逐步提升。当比较ID-7和ID-8时，作者发现提出的额外参数蒸馏阶段-1能够将优化过程解耦，并简化训练，从而实现更好的对齐，所有指标均获得了持续改进（在MME上提高了48分，在POPE上提高了1.7分，在TextVQA上提高了6.6分，在ScienceQA上提高了7.1分）。

picture.image

参数初始化。在表4中，作者将作者的方法与Phi-Mamba（Bick等，2024）中使用的“从零开始”策略进行了比较，这种策略用直接初始化的Mamba-2层替换训练好的Transformer层，而不继承任何参数。作者还将作者的方法与LoLCATs（Zhang等，2024a）和LLaMA中的Mamba（Wang等，2024a）采用的“继承

”策略进行了比较，后者利用两者的相似性，仅继承Transformer中的

参数到Mamba-2层。实验结果验证了作者提出的参数初始化策略的优势，该策略不仅继承了训练好的参数，还通过模仿原始注意力机制初始化额外引入的参数。

picture.image

混合架构。提出的蒸馏方案比构建线性复杂度编码器基VLM时使用的先前训练方案更具灵活性，不需要使用训练好的线性复杂度的大语言模型，并且可以修改架构。如表5所示，作者可以构建具有交错排列的多种Transformer层的混合架构，这使得在性能与效率之间实现灵活的权衡成为可能。通过增加Transformer层的数量，性能会逐渐提高。24个Mamba-2层和8个Transformer层组成的混合架构与HoVLE全Transformer模型相比，性能相近，但略有下降。

picture.image

混合策略。在表6中，作者探讨了特定的混合策略，并固定交错的Transformer层数量为8层。作者研究了4种交织策略：

(1) 尾部堆叠：将所有8个Transformer层堆叠在网络顶部。

(2) Head 堆叠：将所有8个Transformer层堆叠在网络底部；

(3) 尾部交错：在每个4层块的尾部交错一个Transformer层；

(4) Head 交错：在每个4层块的 Head 交错一个Transformer层；实验结果显示， Head 交错策略最有效，在所有指标上都取得了最佳性能。

picture.image

参考

[0]. Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation .

mmMamba框架：从现有MLLMs逐步蒸馏，实现线性复杂度多模态模型，兼顾效率与性能并大幅节省资源 ！

4.1. Seeding: Initialize Mamba-2 from Transformer

4.2. Stage-1: Layerwise Distillation for the Newly Introduced SSM Parameters

4.3. Stage-2: Layerwise Distillation for the Whole Mamba-2Parameters

4.4. Stage-3: End-to-End Distillation

4.5. Architecture

5.1. Implementation Detail

5.2. Main Comparison

5.3. Efficiency Analysis

5.4. Ablation Study

参考