告别视觉冗余！METEOR多阶段协同剪枝让MLLM省49%算力还提速46% - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 多编码器多模态语言模型(MLLM)中的计算开销问题：多编码器融合方法虽然能利用多个视觉编码器互补的视觉表征实现更优性能，但引入了过高的计算开销。
1. 视觉Token冗余问题：视觉信息与文本信息相比具有固有的稀疏性，直接连接视觉Token会导致显著的计算低效性。
1. 现有单编码器Token剪枝策略无法直接应用于多编码器MLLM的问题：无法解决如何为语义丰富程度不同的视觉编码器合理分配Token剪枝比例，以及如何有效减少在多个视觉编码器中重叠的冗余Token等关键问题。
1. 现有剪枝方法无法根据不同任务需求动态调整剪枝比例的问题：特别是在OCR等需要保留更多Token的特定任务上表现不佳。

本文的核心创新是什么

1. 提出了一种多编码器协同Token剪枝框架(METEOR)，用于在整个多编码器多模态语言模型过程中逐步消除冗余的视觉Token，包括编码、融合和解码三个阶段。
1. 提出利用特征图的秩作为信息丰富度的数学基础度量，以协同地为每个编码器分配稀疏率，并在融合过程中剪枝跨多编码器存在信息重叠的相互冗余Token。
1. 开发了一种实例自适应剪枝策略，该策略选择最相关的注意力头进行精确的视觉-文本注意力，以识别冗余Token，并进一步根据不同的任务需求动态调整剪枝比例。
1. 在编码阶段，采用基于排序的协同Token分配策略，在浅层使用与平均Token的相似度，在深层使用类Token注意力值来识别冗余Token；在融合阶段，采用专用Projector适配每个编码器的Token；在解码阶段，根据实例复杂度动态调整Token剪枝比例。

结果相较于以前的方法有哪些提升

1. 效率提升：与典型的多编码器MLLM EAGLE相比，METEOR减少了76%的视觉Token，节省了49%的TFLOPS并加速了46%的FPS，而平均性能仅下降0.3%。
1. 性能提升：METEOR在平均上比先前的token剪枝方法高出4.3%至5.7%，特别是在OCR任务上高出8.8%至12.3%，展现出实例自适应token剪枝的优势。
1. 在使用相同的视觉编码器情况下，METEOR在OCR任务上以44%更少的视觉token显著优于Cambrain-1，提升了3.3%。
1. 在11个基准测试中的10个上，其性能均优于LLaVA-Next，且使用的Token数量少于10%。
1. 与现有的基于训练的Token剪枝方法相比，METEOR在减少60%至80%的Token数量方面表现出更优性能，在DocVQA任务上比Pyramiddrop、TokenPacker和DeepStack-V分别提升了2.4%、8.8%和28%。

局限性总结

1. METEOR主要关注视觉Token的剪枝，对于文本Token的冗余问题没有涉及。
1. 虽然减少了计算开销，但引入了额外的剪枝策略计算，可能在某些场景下带来新的计算负担。
1. 动态调整Token剪枝比例依赖于视觉注意力值与实例复杂度之间的相关性，这种相关性在所有类型任务中是否都成立可能需要进一步验证。
1. METEOR需要在多个阶段进行剪枝决策，增加了系统的复杂性。

深入阅读版本

导读

视觉编码器是多模态理解的核心。单编码器架构如CLIP在跨多种多模态任务泛化时存在固有约束，而最新的多编码器融合方法为了利用多个视觉编码器互补的视觉表征实现更优性能，却引入了过高的计算开销。为解决此问题，作者提出了一种渐进式剪枝框架，命名为多编码器协同 Token 剪枝（METEOR），用于在多编码器多模态语言模型（MLLM）的编码、融合和解码阶段消除冗余视觉 Token 。对于多视觉编码，作者通过基于排序的协同 Token 分配策略在每个编码器内丢弃冗余 Token 。随后，在多视觉融合阶段，作者结合不同编码器的视觉特征，同时通过协同剪枝减少跨编码器冗余。最后，作者在LLM解码阶段提出了一种自适应 Token 剪枝方法，根据文本 Prompt 进一步丢弃无关 Token ，并根据特定任务需求动态调整剪枝比例。据作者所知，这是首次成功实现基于多阶段剪枝策略的高效多编码器视觉语言模型。在11个基准测试上的大量实验表明了作者提出方法的有效性。与典型的多编码器MLLM EAGLE相比，METEOR减少了76%的视觉 Token ，平均性能仅下降0.3%。

代码 https://github.com/YuchenLiu98/METEOR

引言

大语言模型（LLMs）[2, 4, 12, 63]的最新进展显著推动了多模态大语言模型（MLLMs）的发展，使得人工智能能够融入日常生活 [3, 9, 35, 40, 82]。典型的MLLMs将图像转换为视觉 Token 序列，然后将其与文本 Token 连接起来用于LLMs。后续研究通过高分辨率输入 [16, 36] 和创新的Transformer架构 [3, 61] 进一步提升了性能。然而，由于视觉信息与文本信息相比具有固有的Sparse性，直接连接视觉 Token 会导致显著的计算低效性。为了缓解这种低效性， Prompt 无关方法在将视觉 Token 输入单编码器MLLMs（如LLaVA [40]）之前减少其数量。视觉 Token 通过视觉注意力机制 [25, 57, 75]、局部池化 [5, 13, 35, 69] 和重采样器 [16] 进行压缩。然而，这些方法忽略了文本 Prompt 提供的上下文，导致与用户指令无关的冗余视觉 Token 。作为一种补救措施， Prompt 感知方法 [20, 67, 71, 74]（如FastV [7]、Pdrop [67] 和 SparseVLM [78]）利用文本 Prompt 来指导LLMs中的视觉 Token 剪枝。

另一方面，广泛采用的单一编码器架构如CLIP [56] 存在幻觉问题 [36, 42]，并且在细粒度任务（如定位和OCR）[24, 66] 上性能退化。为了解决这些局限性，近期研究 [14, 27, 43, 58, 61, 84] 探索整合多个当前最先进的视觉编码器，以提升跨不同领域的视觉感知能力，从而实现鲁棒性能。尽管性能表现良好，但采用高分辨率输入的多个视觉编码器会带来过高的计算开销。例如，在Mini-Gemini [35] 中，一张

的图像经过双视觉编码器处理后生成2880个视觉token，导致自注意力机制中的计算复杂度呈平方级增长。

为解决这一问题，一种直观的方法是在多编码器多模态语言模型中应用单编码器token剪枝策略。然而，这种方法在实现多个视觉编码器之间的协同剪枝方面存在不足。具体而言，它未能解决诸如如何为语义丰富程度不同的视觉编码器合理分配token剪枝比例，以及如何有效减少在多个视觉编码器中重叠的冗余token等关键问题。此外，在图3(a)所示图像分辨率增加导致视觉编码复杂度提升的背景下，加速整个处理过程也至关重要。此外，现有的剪枝方法在一些特定任务（如OCR识别）上的表现不佳，因为它们无法根据不同任务需求动态调整剪枝比例，而OCR任务需要保留比一般任务更多的token。

picture.image

在本文中，作者提出了一种新颖的多模态 Token 剪枝框架，命名为多编码器协同 Token 剪枝（METEOR），用于在整个多编码器多模态语言模型（MLLM）过程中逐步消除冗余的视觉 Token ，包括编码、融合和解码。具体而言，对于多视觉编码，作者识别出一种可靠标准，该标准用于衡量与浅层平均 Token 的相似性以及深层类注意力，以实现冗余视觉 Token 的逐步剪枝。为了为每个编码器分配适当的 Token Sparse率，作者利用不同编码器生成的特征图的秩作为信息丰富度的数学基础度量。此外，作者发现编码器某一层的特征图平均秩对输入图像的小方差具有鲁棒性，并提供在小批量上可计算的离线秩计算方法，其计算开销可以忽略不计。

对于多视觉编码器融合，作者采用一种更灵活的融合策略，为每个视觉编码器配备独立的 Projector ，从而在融合前能够独立地调整视觉 Token 。基于调整后的视觉嵌入，作者提出一种协同剪枝策略，以减少跨多视觉编码器存在信息重叠的冗余视觉 Token 。最后，在大语言模型解码过程中，作者采用视觉文本注意力机制来减少与文本 Prompt 无关的冗余视觉 Token 。与现有方法平均所有注意力头的做法不同，作者选择top-

重要的头以减轻幻觉。利用视觉注意力值与跨数据集的实例复杂度之间的相关性，作者动态调整特定任务（如OCR）的 Token 剪枝比例。

据作者所知，METEOR是首个专为多编码器大语言模型设计的token剪枝框架。其主要贡献总结如下：

• 作者提出了一种多编码器协同 Token 剪枝框架，以逐步消除编码、融合和解码阶段中的冗余视觉 Token 。
• 作者提出利用特征图的秩作为信息丰富度的数学基础度量，以协同地为每个编码器分配Sparse率，并在融合过程中剪枝跨多编码器存在信息重叠的相互冗余 Token 。
• 作者开发了一种实例自适应剪枝策略，该策略选择最相关的注意力头进行精确的视觉-文本注意力，以识别冗余 Token ，并进一步根据不同的任务需求动态调整剪枝比例。

在多模态基准测试上的大量实验表明METEOR的有效性。与最先进的单编码器多模态大语言模型EAGLE相比，METEOR减少了76%的视觉token，同时节省了49%的TFLOPS并加速了46%的FPS，性能仅下降0.3%。此外，METEOR在平均上比先前的token剪枝方法高出4.3%至5.7%，特别是在OCR任务上高出8.8%至12.3%，展现出作者实例自适应token剪枝的优势。此外，使用相同的视觉编码器，METEOR在OCR任务上以44%更少的视觉token显著优于Cambrain-1 [61]，3.3%，证明了作者的策略在各种单编码器多模态大语言模型中的广泛适用性。

相关工作

多模态大语言模型（MLLMs）。近年来，MLLMs [3, 9, 35, 40, 61] 取得了显著进展。LLaVA [40] 和 MiniGPT-4 [82] 在高质量数据集上进行指令微调，以增强在复杂指令下的生成能力。为进一步提升性能，后续研究探索了高分辨率输入 [16, 36, 42]、模型设计 [3, 61] 以及扩大模型规模和数据 [8, 9, 35]。然而，处理高分辨率图像不可避免地导致视觉token的长度呈指数级增长。由于文本token的数量要小得多，整体计算成本随视觉token数量呈平方级增长。因此，如何在保持性能的同时减少冗余的视觉token，对于提升效率至关重要。

面向多模态大语言模型的视觉编码器设计。以往的MLLM通常采用典型的视觉语言预训练模型CLIP [56, 60]。尽管这些模型在通用识别方面表现出色，但它们缺乏特定能力，如阅读文本和定位物体。因此，一系列研究工作 [18, 24, 29, 35, 38, 43, 48, 62] 将在多样化视觉任务或视觉语言任务上预训练的视觉模型整合进来，以扩展视觉能力。例如，Mousi [14]、Brave [27]、Cambrian-1 [61] 和 EAGLE [58] 通过在通道或token方向上拼接，融合来自不同视觉专家（如OCR、检测和分割）的视觉token。

MoVA [84] 提出了一种路由网络，根据给定指令选择最优视觉模型组合。尽管性能表现良好，但多视觉编码器的视觉编码时间显著增加，甚至达到LLM预填充时间的数倍。因此，如何在MLLMs中通过优化精度-延迟权衡来降低多视觉编码器的计算复杂度，是一个亟待解决的问题。

视觉 Token 压缩用于多模态大语言模型。与文本相比，视觉 Token 占输入序列的大部分，且具有高度冗余性，因此视觉 Token 压缩对加速多模态大语言模型十分有效。 Prompt 对抗性方法[1, 22, 25, 57, 64, 65, 75]利用视觉编码器的注意力机制来识别重要的视觉 Token 。DeCo[69]和TokenPacker[33]通过高效的视觉 Projector 作为池化或局部注意力来减少视觉 Token 。 Prompt 感知方法[19, 71, 72, 74, 80, 81, 83]利用文本语义来指导多模态大语言模型中的视觉 Token 剪枝。FastV[7]基于视觉-文本注意力值剪除不必要的视觉 Token 。PDrop[67]和SparseVLM[78]随着多模态大语言模型层数的加深，逐步减少保留的视觉 Token 数量。自注意力和 FFN 的视觉计算被[32, 79]保存。LLaVAMini[76]和VoCo-LLaMA[73]探索将视觉 Token 压缩至一个极端压缩 Level 。MQT[21]和M3[5]采用套娃表征学习方法来压缩视觉 Token 。iLLaVA[20]、Ficoco[17]和MustDrop[44]提出在视觉编码阶段和多模态大语言模型阶段都剪除视觉 Token 。尽管这些方法取得了有前景的结果，但它们不能直接应用于多编码器多模态大语言模型，例如如何将 Token 预算分配给不同的视觉编码器。此外，现有方法无法自适应地调整 Token 预算以适应不同任务，在OCR任务上的表现不佳。

方法论

3.1. 概述

阶段1：多视觉编码。图3(a)显示，视觉编码的延迟随着图像分辨率的提高和模型复杂性的增加而显著增加，对于多视觉编码器甚至可能加剧。作者开发了一种可靠的度量方法，以识别并剪枝冗余的token，并协同分配Sparse率。

阶段2：多视觉融合。现有方法[58, 61]通过一个共享 Projector 对来自不同编码器的独立剪枝token进行适配。这些方法不够灵活，且忽略了跨多编码器存在信息重叠的相互冗余token。作者采用专用 Projector 来适配每个编码器的token，并在融合过程中协同抑制编码器间的相互冗余。

阶段3：LLM解码。仅使用视觉信息进行剪枝无法消除与特定文本 Prompt 相关的冗余，也无法满足不同复杂度实例的不同token预算，例如OCR任务需要比一般任务更多的tokens。作者通过文本 Prompt 动态调整剪枝比例，自适应地剪枝视觉tokens。

3.2. 第一阶段：编码器内的独立剪枝

给定

个视觉编码器，其中第

个编码器堆叠

个块，作者提出在多个块中逐步丢弃 Token ，以充分利用自注意力机制的信息传播能力，并显著减轻一次性剪枝导致的严重信息损失。对于第

个视觉编码器中的任意第

个块，作者识别冗余 Token ，并根据信息丰富度的不同，为每个编码器分配适当的剪枝比例。

冗余 Token 识别。注意力值通常用于计算每个 Token 的重要性[25, 57, 64, 75]，但在浅层中不可靠。如图3(a)所示，浅层中的注意力值分布并不Sparse，表现出高熵。此外，注意力值选择的top-k索引在相邻层之间差异显著，Kendall's tau相关性较低。由于浅层通常包含Low-Level信息，离散傅里叶变换中对应低频分量的平均 Token 通常代表具有高冗余度的背景。因此，作者通过与平均 Token 的相似度来衡量其重要性，

此处，

表示第

个视觉编码器中第

个块的输出token，sort表示降序排序，

表示余弦相似度，

表示保留的

个token的集合。

在包含Low-Level冗余信息的浅层块中，计算

平均token比注意力值更适合衡量token的重要性。

注意力值在深层是Sparse且可靠的，如图3(b)所示。作者通过测量类 Token 和视觉 Token 之间的注意力值来评估其重要性。

(2) 其中

是cls token的 Query 值，

是

的键值。在实际应用中，作者将模型分为三个阶段，其中第一阶段采用特征余弦相似度，最后两个阶段采用可靠的注意力值来识别冗余的视觉token。多视觉编码器的Sparse率。来自不同视觉编码器的视觉token具有不同的语义丰富度和冗余度，并且对MLLM理解的贡献也不同。在这里，作者为每个块分配不同的Sparse率，以适当地预算保留token的数量，即语义丰富度较低时保留较少的token。受[37]的启发，作者探索特征图的秩作为token冗余的度量。

的奇异值分解（SVD）是

其中

是

的秩，

是左和右的 top-

奇异向量。秩为

的特征映射分解为具有更低秩

的特征映射

以及附加信息

。这意味着秩是信息丰富度的可靠度量，因为具有更高秩的特征映射包含更多信息。

由于在线计算排名是不切实际的，作者使用一小批输入图像以离线方式估计排名的期望值。作者将文献[37]中的发现从卷积神经网络扩展到视觉Transformer，并通过实验揭示排名的期望值对输入图像具有鲁棒性，其方差可以忽略不计，如图4(a)所示。

picture.image

发现2：特征图的秩是衡量不同编码器信息丰富度的稳定且可靠的指标。

第

个编码器中第

层保留的token数量预算按秩

成比例分配，表示为

，其中

是所有视觉编码器中第

个块的整体保留token数量。

3.3. 阶段2：协同剪枝交叉编码器

多视觉Token融合。现有的多编码器MLLMs[27, 50, 58]采用预投影融合策略，在视觉-文本对齐前使用共享 Projector 组合视觉Token。相比之下，作者采用更灵活的投影后融合策略，其中每个编码器维护自己的专用 Projector ，以独立地适应Token进行融合。这种策略可以将来自不同编码器的视觉嵌入对齐到共享语义空间中，从而进一步减少多编码器之间的冗余Token。具体而言，作者使用一个两层MLP

作为 Projector ，即

，其中

是第

个编码器的输出。多编码器的视觉Token沿Token通道连接为

跨多视觉编码器的互冗余。具有相似表示的token往往在后续的注意力机制中具有类似的作用，从而导致互冗余。作者进一步实现了协同剪枝，以移除跨各种视觉编码的互冗余，从而提高效率。对于

中的第

个token

，互冗余定义为：

作者随后保留互信息冗余最低的前

个token，并丢弃其余部分，记为

。多样性增强分析。作者通过核范数（更多细节在补充材料中）来衡量特征多样性。图4(b)显示，与不丢弃或随机丢弃相比，作者的协同剪枝有效增强了token序列的多样性。此外，它优于单独在每个编码器中丢弃token，突出了在融合过程中减少跨编码器冗余相对于减少编码器内冗余的重要性。

发现3：减少多视觉编码器特征 Token 间的互冗余可提高效率。

3.4. 阶段3：文本感知实例自适应剪枝

冗余 Token 识别。在视觉信息之外，考虑特定的文本 Prompt 可以进一步减少冗余 Token ，并且Sparse率可以根据输入实例的复杂程度动态调整。现有方法[7, 20, 67, 71]在使用预定义的Sparse率进行细粒度任务时性能会下降。作者通过计算视觉 Token

与最后一个指令 Token

之间的注意力值

来识别冗余视觉 Token 。发现4：并非所有注意力头都对准确识别冗余视觉 Token 相关。

作者采用视觉注意力值（VAV），即文本 Token

与所有视觉 Token 之间的注意力值的幅度，来衡量每个注意力头的质量。对于第

个头，

其中

是第

个注意力头的注意力值。现有方法 [7, 20, 67, 72, 78] 通过对所有注意力头进行平均来计算注意力值，并可能因幻觉 [26, 68, 77] 而聚焦于错误的视觉区域，如图5(a)所示。相反，作者发现并非所有LLM中的自注意力头都与准确地将文本 Token 与视觉 Token 对齐相关。图5(b)显示

在不同注意力头之间存在很大差异，大多数头的值接近零，这些头是不相关的。由于值较高的头更可靠，作者排序并保留前

个最显著的头作为

，并推导出重要性标准

以识别冗余的视觉 Token 。然后对视觉 Token 进行排序，保留重要性值较大的 Token ，其余 Token 在后续层中被剪枝。

picture.image

实例自适应 Token 保留。作者发现前

个最重要注意力头的 VAV 与输入变化的复杂性相关，因此提出根据 VAV 动态调整保留的 Token 数量。

发现5：视觉注意力值的分布在不同数据集上差异很大，并且与输入实例的复杂性密切相关。

图5(c)展示了VAV与实例复杂度在数据集之间的明显相关性。具体而言，具有粗粒度泛化理解的AI2D表现出低值，而需要细粒度OCR识别的DocVQA则显示出高VAV。实际上，VAV量化了文本 Token 与视觉信息交互的程度，更高的值意味着在生成过程中图像 Token 有更大的贡献。因此，作者将视觉贡献水平定义为前k个头的VAV之和

。这种增加的贡献反过来又要求在生成过程中保留更多的视觉 Token 。因此，视觉贡献水平决定了要保留的视觉 Token 数量，表示为：

其中

是用于缩放的常数。此外，由于视觉 Token 的冗余随着层数的加深而逐渐增加 [7]，作者在三个阶段逐步压缩 Token 。

实验

4.1. 实验设置

实现细节。作者采用EAGLE [58] 作为基础设置，其中使用Vicuna-v1.5-7B [10] 和 Llama3-8B [63] 作为LLM，并采用四个视觉编码器：CLIP [56]、ConvNeXt [47]、Pix2Struct [30] 和 EVA02 [60]。在预训练阶段，作者在多视觉编码中采用 Token 丢弃策略，并使用与LLaVA-1.5 [41] 相同的预训练数据，包含558k图像-文本对，其中整个模型被冻结，仅更新 Projector 。在监督微调阶段，基于预训练的 Projector 进行对齐，作者在多视觉融合中结合协作剪枝，保留576个 Token ，并采用[6]中的数据配方作为基础设置，使用1M图像-文本对对整个模型进行微调，同时采用EAGLE-1.8M [58] 数据配方作为High-Level设置。最后，作者以无训练方式开展所提出的实例自适应文本引导剪枝，并采用不同的 Token 预算配置以简化操作。更多细节请参见补充材料。

评估数据集。作者在现有的多样化多模态基准数据集上评估了模型，包括SEEDBench [31]、POPE [34]、TextVQA [59]、ChartQA [52]、DocVQA [53]、GQA [23]、ScienceQA [49]、AI2D [28]、OCRBench [45]、OKVQA [51]、MME [15]和MMBench [46]。

4.2. 主要结果

与领先的多模态大语言模型（MLLMs）的比较。如表1所示，作者展示了METEOR在11个视觉语言基准上的性能表现，包括两种视觉 Token 计数配置，即约242和126个 Token 。与现有的MLLMs相比，METEOR始终能够实现更优的性能，在11个基准中的10个上，其性能均优于LLaVA-Next，且使用的 Token 数量少于10%。与现有的基于训练的 Token 剪枝方法（如Pyramiddrop、TokenPacker和DeepStack-V）相比，METEOR在减少60%至80%的 Token 数量方面表现出更优性能，特别是在更具挑战性的细粒度OCR识别任务中，例如在DocVQA上分别提升了2.4%、8.8%和28%。与现有的多专家MLLMs相比，METEOR在保留更少的视觉 Token 和更少训练数据的情况下，显著优于Mousi和Brave-X5，这证明了作者的 Token 剪枝策略在整合多视觉编码器 Token 方面优于MLP和Q-former。此外，通过配备更先进的LLM，METEOR性能可以得到进一步提升，在11个基准中的7个上，使用少于25%的视觉 Token 即可超越EAGLE。此外，即使使用126个视觉 Token ，METEOR也能实现令人满意的表现，并始终优于Mini-Gemini，展现出在实现更优的精度-效率权衡方面的有效性。

picture.image

与现有高效MLLM方法的比较。作者的基本设置遵循EAGLE [58]，使用相同的视觉编码器和训练数据，但为了简化，作者不涉及预对齐阶段。因此，作者与基于EAGLE的现有高效MLLM方法进行比较。所有结果均在Ascend 910B上测试。表2显示，METEOR可降低49%的TFLOPS，同时提高46%的吞吐量，平均性能仅下降0.3%，显示出相对于现有方法的明显优势。基于LLM的剪枝方法，如FastV、Pdrop和Sparse

picture.image

视觉语言模型忽略了视觉编码过程的加速，而这一过程随着图像分辨率的增加也需要相当长的时间。此外，对所有数据集使用预定义的剪枝比例无法在准确性和效率之间实现理想的权衡。此外，尽管在通用基准上表现令人满意，但基于训练的方法Deco和PixelShuffle在OCR基准上存在显著的性能下降，因为它们无法实现有效的实例自适应剪枝比例，而OCR任务比通用任务需要更多的token。

不同视觉编码器扩展。为验证METEOR的一般化能力，作者采用了另一组视觉编码器，包括SigLIP、ConvNeXt、CLIP和DINOv2，这些编码器遵循Cambrian-1 [61]的标准。表3显示，METEOR在更少的视觉token条件下表现优于MGM-HD和Cambrian-1，特别是在OCR任务上，准确率分别提升了

和

，这证明了作者的策略在自适应压缩多视觉编码器生成的视觉token方面，比空间视觉聚合器[61]更有效。

picture.image

4.3. 消融研究

本小节中的实验使用558K数据用于预训练，使用1M数据用于SFT。评估结果按知识（SQA、AI2D、OKVQA）、通用（GQA、POPE、SEED）和OCR（TextVQA、DocVQA、ChartQA、OCRBench）进行汇总，通过平均计算以节省空间。

多视觉编码中的Token剪枝。为了识别冗余的Token，作者采用浅层块的平均Token相似度以及深层块的注意力值。图6(a)验证了作者的策略在使用相似度或注意力值对所有块进行评估时的有效性。此外，为了为每个编码器分配TokenSparse率，作者比较了作者的策略与1) 平均策略：所有编码器分配相等的Token数量，以及2) 倒数排名策略：为生成更高排名特征的编码器分配更少的Token。图6(b)显示基于排名的策略实现了最佳性能，特别是在更具挑战性的OCR任务上，验证了低秩特征图包含较少信息，应该分配更少的Token数量。

picture.image

多视觉融合中的Token剪枝。以往方法通常采用预投影融合，而作者提出了一种更灵活的后续投影融合策略，在融合前独立地调整每个编码器的视觉Token，这在表4中实现了更优的性能。此外，基于用于对齐多编码器的 Projector ，作者将作者的剪枝策略与1)独立剪枝：分别在每个编码器内进行剪枝和2)随机剪枝进行比较。表4显示作者的策略显著优于这两种替代方案，表明丢弃跨多视觉编码器的Token冗余是有效的，这在图4(b)中也表现出更多的特征多样性。作者的策略也优于基于参数的压缩，如MLP和Resampler，这些方法需要更多的数据进行训练。实例自适应文本引导Token剪枝。

picture.image

首先，表5显示作者的注意力头过滤策略显著提高了OCR的性能，准确率提升了0.8%，这表明采用最相关的注意力来精确测量Token冗余是有效的。此外，如表5所示，作者的策略在所有基准测试中始终优于预定义的固定剪枝率，平均Token数为242，特别是在OCR任务上，后者更复杂且需要比一般任务更多的Token，性能提升了2.6%。这些结果表明，为特定实例或任务定制自适应剪枝策略，动态调整Token预算，可以减轻性能下降。

picture.image

保留的Token数量分析。图7显示了不同数据集上保留的Token数量（剪枝率）差异很大。对于AI2D等一般任务，少量Token即可取得令人满意的结果，而OCR识别等需要详细视觉信息的任务则受益于保留更多Token。这种自适应行为展示了METEOR在针对不同任务需求调整Token预算方面的有效性。每个编码器的贡献。作者在补充材料中统计了每个编码器保留的Token比例。

picture.image

结论

在本文中，作者提出了一种多编码器协同 Token 剪枝策略，即METEOR，用于逐步消除编码、融合和解码阶段中的冗余视觉 Token 。基于多个有趣的发现，作者利用可靠度量方法来识别不同阶段的冗余 Token 。此外，特征图的排名被用作一个数学基础度量方法，为不同编码器分配Sparse率。此外，作者提出了一种实例自适应 Token 剪枝策略，以动态调整不同任务需求的剪枝率。大量实验证明了METEOR的有效性。与典型的多编码器MLLMs EAGLE相比，METEOR减少了76%的视觉 Token ，同时仅性能下降0.3%，显著优于现有的高效方法。

参考

[1]. METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models