无需改架构！REGATE凭参考LLM教师+EMA难度剪枝，MLLM训练时间减半 - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 多模态大语言模型（MLLMs）的训练计算成本随token数量增加而迅速增长，特别是在视频任务中，帧被分词成极长的序列，导致自注意力机制的计算复杂度呈平方级增长。
1. 现有效率方法主要针对推理阶段（如token减少或合并），在训练过程中提供的效益有限，而训练时间加速方法尚未扩展到大型多模态模型。
1. 早期视觉处理效率的尝试（如随机token丢弃）在现代MLLMs中存在不足，无法捕捉token间微妙且不直观的跨模态重要性，特别是在信息密集且具有时间分布性的视频领域。

本文的核心创新是什么

1. 提出了REGATE（参考引导自适应token消除），一种用于加速MLLM训练的自适应token剪枝方法，无需引入额外可训练参数。
1. 采用师生框架，其中正在训练的MLLM作为学生，一个冻结的参考大语言模型（LLM）作为教师，教师通过移除视觉组件获得。
1. 结合两种互补信号动态识别重要token：教师计算的参考损失（评估token是否需要视觉定位）和学生历史token难度的指数移动平均（EMA）。
1. 引入双周期稀疏性调度方法，动态调整训练期间保留的token比例，确保训练初期稳定。
1. 开发自适应解码器稀疏性方法，通过修改Transformer解码器层实现稀疏注意力计算，不影响模型架构且与预训练权重兼容。

结果相较于以前的方法有哪些提升

1. 在MVBench基准测试上，REGATE应用于VideoLLaMA2时达到与标准训练相同的峰值精度，速度比标准训练快2倍，仅使用35%的token（29.3百万vs 83.8百万）。
1. 通过额外训练，REGATE在一些多模态基准上超越了Baseline，同时将总token数量减少了超过41%，且在多个基准测试上性能提升显著：

• VideoLLaMA2-REGATE在ScienceQA上提升19.1%，在MME上提升33.1分
• VideoChat2-REGATE在ScienceQA和MME上分别提升5.8%和46.1分
• VideoChat2-REGATE在VideoMME和MLVU长视频任务上分别提升6.7%和4.5%

1. 训练效率显著提升：VideoLLaMA2使用REGATE仅需16.0小时达到Baseline准确率（标准训练需32.4小时）；当训练至26.9小时时，token减少41.51%且准确率更高（53.6% vs 52%）。
1. 即使在使用参数高效LoRA微调的VideoChat2上，REGATE仍能减少训练时间和token使用量，在21.6小时内接近Baseline准确率（标准训练需37.2小时）。

局限性总结

1. 由于计算资源限制，REGATE仅在7B参数模型（VideoLLaMA2和VideoChat2）上验证，其完整潜力可能需要更大规模模型（30B或70B+参数）及大规模网络数据集才能充分展现。
1. 许多最新多模态大语言模型的预训练权重未公开，使得直接应用REGATE的可行性受限；从头训练也不切实际，因这些模型依赖专有预训练流程，需大量GPU、网络规模数据集及私有数据访问权限。

深入阅读版本

导读

训练多模态大语言模型（MLLMs）的计算成本随所涉及token数量的增加而迅速增长。现有的效率方法主要针对推理，依赖于token的减少或合并，在训练过程中提供的效益有限。在本文中，作者提出了REGATE（参考引导自适应token消除），一种用于加速MLLM训练的自适应token剪枝方法。具体而言，REGATE采用师生框架，其中正在训练的MLLM作为学生，一个冻结的参考大语言模型（LLM）作为教师。教师计算每个token的参考损失，这些损失与学生的自身难度分数的指数移动平均（EMA）相结合。这种基于自适应难度的评分机制能够在前向传递中选择性地处理关键token，同时跳过信息量较少的token，显著降低了计算开销。实验表明，将REGATE应用于VideoLLaMA2时，在MVBench上达到与标准训练相同的峰值精度，速度比标准训练快2倍，仅使用35%的token。通过额外的训练，它甚至在一些多模态基准上超越了 Baseline ，同时将总token数量减少了超过41%。代码和模型即将发布。

1 引言

多模态大语言模型（MLLMs）由于训练的高计算成本而面临重大挑战。一个关键 Bottleneck 是自注意力机制，其复杂度随输入序列长度呈平方级增长（Vaswani等人，2017年）。这个问题在视频任务中更为突出，因为帧被分词成极长的序列。因此，在大型指令数据集上训练MLLMs需要大量的计算资源，这限制了其可访问性并减缓了该领域的发展。

已提出多种策略以加速MLLMs中的推理过程，包括静态token剪枝（Arif等人，2025年）和token合并（Chen等人，2024年）。然而，降低训练的高成本仍然是一个更复杂且探索较少的挑战。在单模态文本领域，近期如RHO-1的研究引入了可学习的token剪枝技术，从而提高了训练效率（Lin等人，2024c）。但这些训练时间加速方法尚未扩展到大型多模态模型。早期为提升视觉处理效率所做的尝试，通常针对标准视觉Transformer（Akbari等人，2021年）或早期视频语言模型（Lei等人，2021年），主要依赖随机token丢弃等启发式方法。这些方法在现代MLLMs中存在不足，因为它们无法捕捉token间微妙且往往不直观的跨模态重要性，特别是在视频领域，信息既密集又具有时间分布性。因此，这类方法存在丢弃重要视觉或语义内容的风险，可能导致训练不稳定和多模态理解能力减弱。

为应对这一挑战，作者提出了REGATE（参考引导自适应 Token 消除）框架，旨在加速多模态大语言模型（MLLM）的训练。REGATE采用师生架构，其中学生为正在训练的多模态模型，教师为同一LLM主干网络的纯文本冻结版本。这种设置使ReGATE能够通过结合两种互补信号，在训练过程中动态识别并保留信息量最大的 Token 。首先，它通过检查纯文本教师能否仅从 Prompt 中准确预测该 Token ，来评估 Token 是否需要视觉定位。其次，它使用 Token 历史损失的指数移动平均（EMA）来评估学生模型的学习进度。通过整合这些信号，REGATE将计算分配给对多模态理解至关重要且对模型学习仍具挑战性的 Token 子集。

总而言之，作者的贡献有三方面：

• 作者介绍了REGATE，一种用于加速MLLM训练的自适应 Token 剪枝方法。REGATE利用一个仅包含文本的参考教师模型和学生的历史 Token 难度，动态地识别并保留视觉上重要的 Token ，而无需引入任何额外的可训练参数。
• 作者证明，模型无关的ReGATE可以无缝集成到现有的MLLM中，无需进行架构变更，从而易于采用。
• 在图像和视频基准测试上的大量实验展示了REGATE的广泛适用性和高效性。值得注意的是，在具有挑战性的MVBench基准测试上，当REGATE应用于VideoLLaMA2时，仅需16.0小时即可达到 Baseline 峰值精度（相较于标准微调的32.4小时），同时处理的token数量仅为29.3百万，较 Baseline 的83.8百万减少了65%（图1）。

picture.image

2 相关工作

2.1 Token压缩加速推理

现有文献中的大多数工作集中于加速推理，而非训练。推理时Sparse性方法已证明，许多token可以被移除或合并，而对准确率的影响极小。在视觉Transformer中，动态Token剪枝（Tang等人，2023）逐层停止处理"简单"token的运算，在语义分割任务上将FLOPs降低了20%至35%，且性能未受影响。对于视频大语言模型，DyCoke（Tao等人，2025）在推理过程中动态压缩时空token，在冻结模型权重的情况下实现了高达2倍的加速。从剪枝转向聚合，重要性Token合并（Wu等人，2025）将高度相似的token进行合并而非丢弃，在长视频基准测试中维持了性能，同时将推理速度提升了1.5倍。然而，所有这些方法都在训练完成后进行操作。在训练期间，每个前向和后向传递中仍会处理完整的token序列，导致训练的计算成本主要未被解决。

2.3 教师学生蒸馏用于多语言大语言模型

目前针对多模态大语言模型（MLLM）的蒸馏方法主要集中于参数压缩。一项系统性研究（Xu等人，2024）表明，联合对齐token和logits有助于较小的学生模型继承来自较大教师模型的视觉基础能力。类似地，DIME-FM（Sun等人，2023）等方法展示了跨模态特征即便在无配对数据中也能实现迁移。一种更近期的MaskedKD（Son等人，2024）方法通过基于学生模型的注意力分数 Mask 教师模型输入的部分图像块token来提升效率，该策略在不降低学生模型准确率的前提下节省高达50%的教师模型FLOPs。然而MaskedKD仅Sparse化了教师模型的计算，仍需对所有学生token进行反向传播。相比之下，REGATE通过重新定义教师模型在蒸馏中的角色引入了一种根本性不同方法，它利用教师模型的每token损失来决定学生模型在每个前向和后向传播过程中应处理的token。REGATE并非专注于压缩模型本身，而是针对压缩计算路径，这种新颖范式提供了即时的、模态无关的Sparse性，优化了训练过程而无需改变学生模型的 Backbone 架构。

3 ReGATE

作者介绍了REGATE方法，该方法通过仅将计算资源分配给真正需要视觉信息的 Token 来加速MLLM的训练。关键洞察在于，多模态序列中的所有 Token 并不同等依赖于视觉上下文：有些 Token 仅凭文本即可准确预测，而另一些 Token 则需要跨模态接地。为了捕捉这一点，REGATE使用了一种师生框架。学生是正在训练的主要MLLM。教师是一个参考模型，通过使用学生的LLM主干网络，移除其视觉组件（视觉编码器和 Projector ），并冻结其权重来创建。这产生了一个纯文本的LLM，它充当一个固定的专家来估计每个 Token 依赖于视觉输入的程度。给定一个包含文本和视觉 Token 的输入序列批次，作者生成一个二进制 Mask ，该 Mask 决定了哪些 Token 位置应进行主动计算，哪些可以跳过。本节解释了作者如何使用冻结的纯文本教师结合学生的训练历史来计算每个 Token 的难度分数，如何动态调整训练期间保留的 Token 比例，以及如何在Transformer解码器中应用生成的 Mask 。

3.1 难度评分公式构建

令

表示样本

中的 Token 序列，包括文本 Token 和特殊视觉 Token （例如表示视觉内容的或Token ）。为计算参考损失，作者通过用占位符 Token （通常为填充 Token ）替换实际视觉 Token 来构建修改后的序列

，确保序列长度与输入到MLLM Backbone LLM的多模态输入保持一致。作者的参考模型是一个纯文本LLM，通过从MLLM Backbone 中移除视觉编码器和 Projector 获得，因此无法处理任何视觉内容。通过在评估模式下将构建的占位符序列

输入到参考模型，作者计算每个 Token 的负对数似然：

的低值表明教师可以根据文本上下文单独预测

，而高值则意味着需要多模态信息才能预测该词元。同时，作者监控每个词元在训练更新过程中对学生造成的难度。对于每个训练样本

和词元位置

，作者维护一个运行难度缓冲区

，该缓冲区作为学生交叉熵损失的指数移动平均（EMA）进行更新：

其中

是学生模型在位置

处的当前交叉熵损失，

控制指数移动平均（EMA）的平滑程度。

的值越高，表示样本

中的位置

的 Token 在训练过程中一直存在困难。然后作者将参考损失和学生历史难度结合，为每个 Token 生成一个统一的难度分数：

其中

平衡这两个信号。具有更高综合难度

的 Token 要么持续挑战学生模型，要么确实需要视觉上下文，因此在进行训练更新时被优先考虑。请注意，这种综合难度评估仅针对输出 Token （标签），因为这些 Token 通过反向传播直接影响训练过程。

3.2 双周期Sparse性调度

作者采用确定性调度方法来确定每个训练步骤中保留的token比例。该调度方法每

步重复一次。在每个周期的前

步中，作者保留所有token（即

，以使模型稳定。在剩余的

步中，作者仅保留固定比例

的token。形式上，如果

表示全局训练步数，则有：

3.3 动态 Token 门控

对于每个样本

，作者识别出有效 Token 的索引，排除填充和特殊 Token 。令

表示这些索引，

。作者使用公式 (3) 计算

的综合难度

，并选择前

个 Token 。生成的二元 Mask

在保留的 Token 处设为1，其余设为0。作者始终保留所有特殊视觉 Token （例如，对应于帧或图像的 Token ），无论其难度如何，以保留多模态信息。

由于难度缓冲

在每个epoch后都会更新，所选位置集在训练过程中会动态适应：对于那些对学生来说逐渐变得容易的token会被逐步降低优先级，而那些持续具有挑战性或需要视觉定位的token则保持活跃。这种动态门控机制使模型能够在每个epoch中将计算预算分配到序列中最具信息量的部分，而不是固守一个固定的Sparse模式。最后，每个样本的二进制 Mask 被连接并填充，形成批次 Mask

，其中

是考虑了视觉token的扩展序列长度。

3.4 自适应解码器Sparse性

在正向传播过程中利用二进制 Mask ，作者修改了 Backbone LLM的Transformer解码器层。作者通过将 Mask 直接作为注意力 Mask 传递给flash attention例程，并清零被剪枝token的隐藏状态来实现Sparse注意力。对于 FFN ，作者仅收集活跃位置，将它们输入到MLP中，并将输出散回到它们的位置。残差连接确保被跳过的token保留其先前的表示。算法1展示了单个正向解码器层的伪代码。这种实现不需要额外的参数，并能无缝集成到流行的库中，如HuggingFace Transformers。重要的是，作者的修改不影响模型架构，因此仍然与预训练权重兼容。

picture.image

4 实验

4.1 实现细节

为验证所提框架的有效性，作者将REGATE应用于两种不同的模型（即VideoLLaMA2和VideoChat2）以及训练策略。作者选择VideoChat2和VideoLLaMA2而非Qwen-2.5-VL和VideoLLaMA3等更新的模型，因为REGATE假设能够获取预训练模型权重进行微调。然而，在许多情况下，这些权重并非公开可用，使得直接应用REGATE等方法的可行性不高。从头训练此类模型也不切实际，因为许多最新的多模态大语言模型（MLLMs）依赖于专有的预训练流程，这些流程需要数百个GPU、网络规模的数据集以及私有数据访问权限。尽管如此，在拥有充足资源且能够获取预训练权重和训练数据的情况下，REGATE可以无缝集成到任何现代MLLM的训练流程中。

VideoLLaMA2.作者将REGATE应用于VideoLLaMA2-7B（Cheng等人，2024），其语言主干是Qwen2-7B（Yang等人，2024）。该模型最初使用冻结的语言主干进行预训练，随后在多模态数据上进行微调。作者在微调阶段引入了token门控机制，因为语言主干变为可训练的，从而可以从选择性的token更新中受益。具体而言，参考教师模型是通过从VideoLLaMA2主干中移除视觉编码器和 Adapter 获得的，结果是一个纯文本基础的LLM，无法处理视觉输入。该教师模型计算token Level 的损失，其中所有视觉token均被替换。

数据集和Sparse性调度。作者在VideoChatGPT数据集（Maaz等人，2024）上对VideoLLaMA2进行有和没有ReGATE的微调，该数据集是VideoLLaMA2官方微调数据集的一个子集，包含约300,000个指令-响应对。对于VideoChat2，作者同样使用其官方微调数据的一个子集，包含约260万个指令对。训练遵循第3.2节中描述的双周期Sparse性调度，参数设置为

和

。为确保训练初期稳定，作者添加了一个全局预热阶段，共100次迭代，在此期间所有token均被保留。REGATE的主要超参数包括指数移动平均（EMA）衰减

和教师损失加权系数

。所有实验均在4块H100 GPU上使用混合精度训练进行。

4.2 评估基准

为评估ReGATE，作者使用了一系列涵盖图像、长视频和短视频领域的基准测试。所有评估均在LMMs-Eval的设置下进行。作者评估中使用的所有基准测试均遵循各自许可证，并与其预期用途保持一致。下面，作者简要总结每个基准测试的关键特征。

图像理解。ScienceQA（Lu等人，2022年）是一项包含21,208道选择题及其配套课程和解释的多模态科学考试；MME（Fu等人，2024年）通过人工创建的问答对，在14个子任务上衡量感知和认知；VizWiz（Gurari等人，2018年）收集盲人用户拍摄的真实照片，并针对这些照片提出问题，同时询问这些问题是否可回答；POPE（Li等人，2023年）是一个物体幻觉基准，形式化为二选一任务；SEED-Bench（Li等人，2024b）包含19,000道选择题，涵盖图像和视频模态，分布在12个维度上。

长视频理解。视频MME（Fu等人，2025）涵盖六个主要领域和30个子领域，视频时长从11秒到1小时不等；它整合了帧、字幕和音频，并提供2700对专家标注的问答对进行综合评估。LongVideoBench（Wu等人，2024）包含3763个视频（最长可达1小时）和6678道多项选择题，其中许多题目需要在推理前参考特定的时序片段。MLVU（Zhou等人，2025）收集了来自不同类型的长视频，包括电影、监控和第一人称记录，并提供多种任务。研究表明，现有模型在更长的上下文中性能会下降。EgoSchema（Mangalam等人，2023）包含250小时第一人称数据中超过5000个三分钟片段，问题要求在比以往数据集更长的时序窗口上进行推理，而当前模型的性能远低于人类水平。

短视频理解。MVBench（Li等人，2024c）将20个静态图像任务转换为动态视频任务，生成多项选择题以测试时间理解能力。Perception Test（Patraucean等人，2023）包含11,600个真实世界视频，平均时长23秒；它评估六种标注类型中的感知和推理能力，并强调记忆、抽象和物理等技能。Vinoground（Zhang等人，2024a）包含1,000个短视频-字幕对，专为反事实时间推理设计，即使是大型专有模型也难以区分细微的动作差异。NExT-QA（Xiao等人，2021）提供5,440个视频和约52,000个问题，针对因果关系和时间动作推理。

4.3 基准模型

picture.image

作者对REGATE与一系列全面的 Baseline 模型进行了评估，包括经过适配的VideoLLaMA2和VideoChat2模型。

picture.image

作者的比较涵盖了广泛的最先进开源模型，主要来源于表现优异的LLaVA和Qwen等家族。作者还报告了来自Google Gemini、OpenAI GPT和Anthropic Claude系列专有模型的结果。这一多样化的 Baseline 集合涵盖了多个LLM主干网络和不同模型规模，确保了稳健且具有意义的比较。在图像和视频任务中评估的具体模型列于表1、表2和表3。

picture.image

4.4 结果

学习进步：ReGATE在图像和视频基准测试中的准确率提升。表1、表2和表3中展示的综合结果表明，VideoLLaMA2和VideoChat2在有无REGATE的情况下，在一系列图像、短视频和长视频理解基准测试中的表现。REGATE通过将计算集中于最具信息量的 Token ，持续提升性能。例如，VideoLLaMA2-REGATE在大多数任务上优于 Baseline VideoLLaMA2，同时使用了

更少的 Token 。类似地，VideoChat2-REGATE在使用

更少的 Token 的同时，取得了比 Baseline VideoChat2更好的结果。

在需要多模态推理的图像理解任务中，两种模型均表现出显著提升。VideoLLaMA2-REGATE在ScienceQA上的提升为19.1%，在MME上的提升高达33.1分。VideoChat2-REGATE在同一基准测试上的提升分别为5.8%和46.1分。对于长视频理解任务，VideoChat2-REGATE在VideoMME和MLVU上分别展现出6.7%和4.5%的显著提升。VideoLLaMA2-REGATE在该任务上的提升虽然较为温和，但也分别达到了0.8%和1.3%。短视频任务同样受益。VideoLLaMA2-ReGATE在MVBench和Perception上的提升分别为1.6%和1.1%，而VideoChat2-REGATE分别获得了0.9%和1.6%的提升。

总体而言，这些结果表明REGATE能够在不同任务中适应，通过高效地引导计算资源至最重要的视觉和语义内容。

更快的学习：ReGATE的效率提升。表4展示了在MVBench基准测试中，token使用、训练时间和准确率方面的详细效率提升。

picture.image

对于VideoLLaMA2，REGATE仅需16.0小时即可接近 Baseline 准确率（51.9% vs. 52%），而标准微调所需时间为其一半（32.4小时）。它仅使用了2932万个token，约为基础模型所使用的8382万个token的35%。当训练时间延长至26.9小时（仍比 Baseline 少5.5小时），REGATE处理的token数量减少了41.51%，并达到了更高的准确率53.6%。

对于使用参数高效LoRA微调的VideoChat2，训练时间的改进较为温和。具体而言，ReGATE在21.6小时内接近 Baseline 准确率（55.5% vs. 55.7%），而 Baseline 所需时间为37.2小时。此外，当训练时间增加至32.5小时（仍比 Baseline 少4.7小时），REGATE处理的token数量减少了43.51%（2.22亿 vs. 3.93亿），并达到了更高的准确率56.6%。

VideoLLaMA2与VideoChat2之间的加速差异源于完整微调和LoRA微调策略的对比。在完整微调中，VideoLLaMA2采用的方法，模型的前向和后向传递都计算成本高。通过剪枝token，REGATE加速了这两个传递过程，尤其是后向传递，其中计算了所有模型参数的梯度。在LoRA微调中，VideoChat2采用的方法，大多数参数被冻结，后向传递已经高效，因为梯度仅计算于少数 Adapter 参数。虽然REGATE仍然加速了通过冻结主干的前向传递，但总时间节省较小，因为后向传递不是 Bottleneck 。总体而言，REGATE在不同训练策略中，在token效率和训练时间上均显著提升，使其成为在不影响性能的前提下减少计算的有效解决方案。

5 结论与未来工作

作者提出了REGATE，一个参考引导的token门控框架，用于加速多模态大语言模型的训练。通过结合学生模型的学习难度与冻结纯文本教师模型产生的参考损失，REGATE能够动态地将计算资源集中于对多模态理解最具信息量的token，同时跳过那些关联性较低的部分。该方法易于实现，无需进行架构变更，且显著提升了训练效率。实验表明，REGATE在使用仅占一小部分token的情况下，仅需显著更短的训练时间，即可达到或超越标准全量微调的精度，且不牺牲模型质量。事实上，REGATE在广泛的图像和视频基准测试中始终优于 Baseline 模型，展现出强大的数据效率和泛化能力。未来工作将探索通过动态调整保留token比例（基于任务复杂度、模型稳定性和训练进度，例如早期采用较高Sparse度，随着微调进展逐渐放宽）来实现tokenSparse度的自适应调度。作者还将研究跨层或注意力头的细粒度Sparse性控制，以实现更高效的资源分配。此外，作者旨在将“参考”的概念从仅使用冻结纯文本教师模型推广开来。使用更强的或多模态教师模型（例如视觉/视频-语言模型）可以为门控提供更丰富的监督，改善跨模态对齐，并提升在复杂时空任务上的性能。

局限性

由于计算资源限制，作者在7B参数模型VideoLLaMA2和VideoChat2上验证了REGATE，展示了在该规模下的显著效果和效率提升。然而，REGATE的完整潜力可能需要更大规模的模型（例如30B或

参数）以及大规模网络数据集才能充分展现，此时时间和成本节省将更为显著。未来的工作应聚焦于在高资源环境下评估REGATE的性能和可扩展性。

参考

[1]. REGATE: Learning Faster and Better with Fewer Tokens in MLLMs