大模型轻量化里程碑 | ACCM在LLaVA-1.5实现93.5%剪枝，7大基准平均提升5.5% - 文章 - 开发者社区

点击下方名片，关注「集智书童」公众号

picture.image

精简阅读版本

本文主要解决了什么问题

1. 大型视觉语言模型（LVLMs）计算成本高昂问题：LVLMs的计算成本主要源于输入的视觉序列，该序列包含数百甚至数千个token，且在Transformer架构中计算成本随输入序列长度呈平方级增长。
1. 现有token剪枝方法在高剪枝率下性能严重退化问题：尽管现有方法通过移除冗余token取得了进展，但由于视觉信息的丢失，它们在高剪枝率下（例如超过90%）会遭受严重的性能退化。
1. 视觉信息丢失导致的多模态感知和推理能力下降问题：在高剪枝率下，大多数视觉token被丢弃，剩余的token保留的视觉信息不足以支持有效的多模态感知和推理。

本文的核心创新是什么

1. 提出了一种自适应内容补偿方法（ACCM）：该方法可以通过图像描述有效地减轻视觉信息丢失，是首个利用图像描述来恢复token剪枝过程中丢失的视觉信息的工作。
1. 设计了两个关键组件：轻量级描述模型和选择器。描述模型在用户指令的指导下生成与问题相关的描述；选择器从多个候选中进一步识别出上下文合适的描述。
1. 提出了自监督学习方法：ACCM可以在没有任何人工或自动化标注的情况下高效学习，使用直接偏好优化（DPO）联合优化描述模型和选择器。

结果相较于以前的方法有哪些提升

1. 在高剪枝率下性能显著提升：例如，在97%的剪枝率下，ACCM相较于PyramidDrop减少了6.5%的FLOPs，同时准确率提升了20.6%。
1. 在多个基准测试上表现优异：在七个基准数据集上的实验结果表明ACCM显著优于现有方法，例如在LLaVA-1.5-7B的93.5%剪枝率下，平均达到49.5%，比其他方法绝对提升5.5%。
1. 在极端剪枝率下优势更加明显：在约97%的剪枝率下，ACCM在LLaVA-1.5-7B上比PyramidDrop获得了平均绝对提升7.8%，在LLaVA-1.5-13B和LLaVA-NeXT-7B上分别实现了11和15个百分点的绝对性能提升。
1. 跨模型泛化能力强：ACCM可以以即插即用的方式迁移到不同的LVLM，无需额外调整就能取得相当的结果。

局限性总结

1. 额外计算开销：ACCM需要运行轻量级描述模型和选择器，这可能会增加一些额外的计算开销，尽管论文提到这两个模块是轻量级的。
1. 依赖生成的描述质量：ACCM的效果依赖于描述模型生成的与问题相关的描述的质量，如果描述模型无法生成合适的描述，可能会影响最终性能。
1. 训练数据需求：虽然ACCM采用自监督学习，但仍需要一定量的训练数据（论文中使用40k数据），在数据稀缺的情况下可能会影响性能。

深入阅读版本

导读

尽管大型视觉语言模型（LVLMs）取得了巨大成功，但其高昂的计算成本严重限制了其广泛应用。LVLMs的计算成本主要源于输入的视觉序列，该序列包含数百甚至数千个token。尽管现有方法通过移除冗余token取得了进展，但由于视觉信息的丢失，它们在高剪枝率下会遭受严重的性能退化。在本文中，作者提出了一种自适应内容补偿方法（ACCM），该方法可以通过图像描述有效地减轻视觉信息丢失。具体而言，ACCM包含两个关键组件：轻量级描述模型和选择器。首先，描述模型在用户指令的指导下生成与问题相关的描述。然后，选择器从多个候选中进一步识别出上下文合适的描述。借助自监督学习，作者的模块可以在没有任何人工或自动化标注的情况下高效学习。作者在七个基准数据集上进行了广泛的实验，结果表明ACCM显著优于现有方法，具有更低的FLOPs（例如，以6.5%更少的FLOPs超越了SOTA 2.0.6%）。

1 引言

近年来，大视觉语言模型（LVLMs）作为人工智能领域的变革性力量迅速发展[2, 19, 25, 56]。基于大语言模型（LLMs）[6, 35, 43, 53]，LVLMs将文本和图像整合起来，实现跨模态理解和生成，在多种任务（例如视觉推理和视觉定位）上取得了显著改进。其影响力日益深远，应用范围涵盖医疗保健、教育和自主系统[1, 29, 41]。尽管LVLMs在多个领域展现出卓越的能力，但巨大的计算开销严重阻碍了其实际应用。在当代

视觉语言模型（LVLMs）中的视觉序列通常包含数百到数千个token，尤其是在处理高分辨率图像时[30, 49, 55]。此外，在Transformer架构[44]中，计算成本随着输入序列长度的增加呈平方级增长。因此，LVLMs的计算负担主要来源于冗长的视觉序列。

为了减轻LVLMs的计算负担，近期提出了一系列的token剪枝方法[8, 9, 20, 22, 26, 33, 37, 40, 52]。这些方法证明了LVLMs中视觉序列的高冗余性，并采用各种策略对其进行压缩。其中许多方法[9, 15, 26, 37, 48]基于特定标准选择最关键的token。而另一些方法[20, 33, 52]通过设计高效模块（例如多模态连接器）来压缩视觉序列。尽管当前方法显著减少了视觉token的冗余性，但它们都存在一个共同问题：在高剪枝率下性能严重下降。例如，FastV[9]在剪枝率超过90%时，性能下降超过30%（详细讨论见第4.6节）。

事实上，上述结果具有直观性。在较高的剪枝率下，大多数视觉token将被丢弃，而剩余的token保留的视觉信息不足以支持多模态感知和推理。如图1（a）所示，在97%的剪枝率下，有限的视觉token无法覆盖整个柜子区域，不可避免地导致其他视觉信息的丢失。因此，剪枝后的LVLMs无法正确回答问题（Q1），该问题要求模型关注柜子顶部的两个花瓶。

picture.image

为减少视觉信息损失，一个直接的想法是使用图像描述来恢复丢失的信息。然而，通用的描述在补充丢失信息方面并不理想（详细结果在4.4节展示）。为探究这种现象背后的原因，作者进行了系统的定性分析，并获得了以下见解：首先，对于同一图像，不同的问题通常需要不同的视觉信息。通用的图像描述可能并不包含回答问题所需的内在信息。如图1（a）所示，第一个描述（由ClipCap[32]生成）主要描述了沙发区域，而第二个描述（ ours）则关注与问题直接相关的橱柜区域。因此，如何生成与问题相关的描述是一个关键问题。其次，虽然生成的描述仍然与问题相关，但它们表现出不同的表达形式和语义侧重。在这些变体中，某些描述可能比其他描述提供更合适的内容。如图1（b）所示，第一个描述（C1）关注室内家具（即桌子和微波炉），而第二个描述（C2）强调户外环境（即树和海）。这两个描述都描述了男人的周围环境，但后者更适合回答问题（Q2）。因此，如何识别一个与上下文相符的描述对于补充丢失的视觉信息至关重要。

基于上述分析，作者提出了一种自适应内容补偿方法（ACCM），该方法能够有效缓解在高剪枝率下的视觉信息损失。与其他方法不同，ACCM通过图像标题自适应地恢复丢失的信息。具体而言，ACCM由两个模块组成：轻量级图像标题模型和选择器。首先，在对应问题的指导下，标题模型根据被丢弃的视觉 Token 生成与问题相关的描述。然后，选择器从多个候选中进一步识别出最符合上下文的标题。最后，由于选择操作的非可微特性，标题模型和选择器使用直接偏好优化（DPO）[36]进行联合优化。更重要的是，这两个模块以自监督的方式训练，无需大量的人工或自动化标注。

作者在多种多模态任务上进行了广泛的实验，包括视觉问答、幻觉评估和图像描述。实验结果表明，ACCM在较高剪枝率下能有效补充丢失的视觉信息，并且与其他方法相比，在更低的FLOPs下表现出显著优势。例如，ACCM相较于PyramidDrop [48] 减少了6.5%的FLOPs，同时准确率提升了20.6%。

作者的主要贡献可以总结如下：

1. 为了缓解在高剪枝率下严重的视觉信息损失，作者提出利用图像描述自适应地补充丢失的信息。受益于自监督学习，ACCM能够高效地恢复丢失的视觉信息，而无需任何人工或自动标注。
1. 作者的ACCM方法引入了两个新设计的模块：轻量级标题模型和选择器。标题模型在用户指令的指导下生成与问题相关的描述。选择器进一步从多个候选中识别出上下文合适的标题。
1. 作者在多个基准数据集上进行了全面的评估。实验结果表明，ACCM显著优于现有方法，具有更低的FLOPs（例如，以6.5%更少的FLOPs比当前最优方法提高了20.6%）。

2 相关工作

2.1 大型视觉语言模型

大语言模型（LLMs）的最新进展促进了大型视觉语言模型（LVLMs）的发展，这些模型能够对图像、视频和音频进行跨模态推理。早期的模型如CLIP [34] 实现了视觉与语言的对齐，而后续系统如Flamingo [2]、BLIP-2 [19]、LLaVA [19] 和 MiniGPT-4 [56] 引入了机制（例如Q-Formers、线性投影）以更高效地弥合模态差距。然而，由于视觉 Token 数量庞大以及自注意力开销随输入长度呈平方增长，高计算成本仍然是一个挑战。此外，多项研究 [9, 52] 表明视觉序列中存在大量冗余。因此，高效的 Token 压缩对于在有限资源下确保LVLMs的可扩展性至关重要。

2.2 Token剪枝方法

Token剪枝是一种通过基于上下文相关性自适应移除冗余token的关键技术，旨在提升transformer的效率。该技术在自然语言处理（NLP）和计算机视觉（CV）领域得到了广泛研究，近年来在视觉语言模型（LVLMs）中也开始受到关注。在NLP领域，Funnel-Transformer[12]和Pyramid-BERT[16]等方法通过逐步压缩序列来精简序列，而PoWER-BERT[13]则基于相似性进行token剪枝。在CV领域，ToMe[4]通过软匹配合并相似的token，PPT[47]在一个整体框架内统一了剪枝和合并过程，Zero-TPrune[46]则采用PageRank算法进行token剪枝。

在LVLMs领域，token剪枝方法分为两类：一类是不修改LVLMs权重且需要重新训练的方法，另一类是修改权重且无需重新训练的方法。在前一类方法中，FastV [9] 使用平均注意力分数在第二个LLM层之后移除一半的视觉token；VTW [22] 基于KL散度丢弃特定层的token；LLaVolta [8] 通过平均池化和多阶段训练压缩视觉token。在后一类方法中，LLaVA-PruMerge [37] 通过四分位距（IQR）方法 [5] 识别关键token，并使用关键聚类进行合并；TokenPacker [20] 引入区域到点注意力模块压缩多尺度特征。然而，这些方法在高剪枝率下往往因信息丢失导致性能下降。相比之下，ACCM通过问题引导的描述模型生成的图像描述以及选择器自适应地补偿缺失的视觉信息。

3 方法

在本节中，作者首先在3.1节回顾LVLMs的架构。然后作者在3.2节介绍作者的ACCM。最后，作者在3.3节介绍ACCM的优化过程。

3.1 背景

当代视觉语言模型（LVLMs）的主流架构通常包含三个基本组件：视觉编码器、多模态连接器和大语言模型（LLM）。给定图像

，视觉编码器（例如CLIP ViT [34]）首先将

编码为视觉序列

。然后，多模态连接器（例如LLaVA-1.5 [23]中的MLP）将

投影到与LLM相同的语义空间。最后，将

与用户指令

连接后发送至LLM进行多模态理解和生成。为简化起见，本工作中省略了系统 Prompt Token 。生成过程可表述为：

其中

表示LLM的参数，

是包含

个token的答案。视觉序列

通常包含数百到数千个token，远长于

。此外，在Transformer架构[44]中，计算成本与输入序列长度的平方成正比。因此，视觉序列

严重影响了LVLMs的计算效率。

为提升LVLMs的计算效率，近期多项研究[8, 9, 20, 22, 37]揭示了视觉序列的高冗余性，并采用多种策略实现token剪枝。这些方法大致可分为两大范式：(1)基于标准的临界token选择[9, 15, 26, 37, 48]，以及(2)用于视觉序列压缩的高效模块设计[20, 33, 52]。尽管现有方法在减少视觉token冗余方面取得了进展，但在高剪枝率下（例如剪枝率超过90%）均存在严重的性能退化问题。这一现象直观上易于理解。由于严重剪枝的视觉token保留了极少的视觉信息，它们对有效的多模态感知和推理构成了显著挑战。

3.2 ACCM

为解决上述问题，作者提出了一种自适应内容补偿方法（Adaptive Content Compensation Method，ACCM），该方法可以通过图像描述自适应地补充丢失的信息。如图2所示，ACCM首先利用一个轻量级的描述模型，在用户指令的指导下生成与问题相关的描述。然后，使用一个选择器从多个候选描述中选择一个与上下文相符的描述。最后，将补充的描述与保留的视觉 Token 以及用户指令一起提供给大语言模型（LLM）。在下文中，作者将详细描述ACCM。

picture.image

3.2.1 基于问题的标题生成

给定图像

，视觉 Token 剪枝在视觉编码器将

编码为视觉序列

之后完成。遵循 [10]，作者利用

中的 [cls] Token 和用户指令

的文本嵌入来识别关键视觉 Token ，这些 Token 在剪枝后保留，并记为

。其他视觉 Token 被丢弃，并记为

。值得注意的是，其他 Token 剪枝策略也可以集成到ACCM中（例如，LLaVA-PruMerge [37]）。当剪枝率较高时，

包含丰富的视觉信息，这有助于回答用户的问题。与其他简单丢弃这些 Token 的方法不同，作者通过轻量级标题模型将

转换为简短标题。遵循 ClipCap [32]，作者构建标题模型

，该模型由图像编码器、 Projector 和语言模型组成。出于效率考虑，作者的标题模型与大多数 LVLMs 共享相同的编码器（即 CLIP 图像编码器 [34]），从而能够重用 LVLMs 的视觉 Token 。

虽然不同问题通常依赖于不同的视觉线索，但通用图像描述可能并不包含这些信息。为了通过用户指令引导

并生成与问题相关的描述，将

与

结合，并通过描述模型进行处理。考虑到生成的描述在表达和语义侧重上存在差异，且某些表述可能提供更合适的内容，作者通过特定的解码策略（例如，束搜索[28]）生成多个描述，以供后续处理。上述过程可表述为：

其中

是一个包含

个生成描述的集合，concat 表示拼接操作。在

的指导下，

中的每个描述都相应地描述了相关内容。

3.2.2 上下文适宜的标题选择

为了根据用户指令

获取上下文相关的标题，作者采用选择器

从

中进行选择。选择器由两个组件构成：来自 LongCLIP [51] 的文本编码器

和分类器

（以 Transformer 模块 [44] 的形式实例化）。

根据用户指令

和标题集

，作者首先将每个标题

与

进行拼接，形成

个问答-标题对，并通过

进行编码。利用

的摘要能力，

与

的相关性可以被整合到每一对的[EOS] Token Embedding 中。作者将其计算形式化如下：

其中

是从

个问答对中提取的 [EOS] Token 嵌入。然后使用

从

中选择最合适的描述。计算可以表示为：

其中

是一个one-hot向量，表示在集合

中选择的标题

的索引。借助选择器，作者获得一个与上下文相适应的标题，以提供更恰当和精确的内容。

最后，保留的视觉 Token

、补充的标题

和用户指令

被提供给大语言模型进行多模态理解和生成。上述生成过程可以表述为：

其中

是包含

个token的答案。利用补充说明文字，ACCM能够有效缓解严重的视觉信息损失，并在高剪枝率下提升多模态感知与推理能力。

3.3 模型优化

ACCM的最优化目标是基于对应问题生成与问题相关且在语境上恰当的描述，但由于缺乏明确的标签，这一目标具有挑战性。同时，公式4引入了一个不可微分的操作，难以进行优化。因此，作者将训练过程重新表述为一个偏好优化任务，并应用直接偏好优化（DPO）[36]来优化作者的描述模型和选择器。此外，ACCM以自监督的方式训练，无需耗时的人工标注。

3.3.1 数据构建

与传统的人类反馈强化学习（RLHF）[3, 39]不同，DPO通过成对比较数据（即正样本和负样本）重新参数化策略更新，而无需训练独立的 Reward 模型。利用其便利性，作者采用DPO来优化ACCM，鼓励模型根据问题补充更多相关且恰当的信息。

为准备正负样本，首先作者通过特定的解码策略（例如，束搜索[28]）在丢弃的 Token 和对应问题的条件下生成多个描述，构建描述集

。然后，通过比较输出

和

与LVLMs原始输出

，将

划分为正描述集

和负描述集

。为确定最能有效缓解信息损失的描述，应用Kullback-Leibler（KL）散度[38]来衡量

与

之间的距离。最后，作者获得偏好数据集

。

3.3.2优化过程。DPO[36]简化了传统强化学习的复杂策略优化过程。它通过利用隐式 Reward 结构将偏好学习转化为监督目标，实现稳定且计算高效的训练。因此，作者应用它来优化作者的描述模型

和选择器

。此外，研究表明，与原味DPO[14, 31]相比，无需参考模型也能实现相当的性能。因此，使用偏好数据集

，作者定义优化目标如下：

其中

和

分别表示

和

的输入。

根据 [14, 31] 设置为 1。得益于上述优化目标，ACCM 学习为不同问题生成适当的描述以减少在高剪枝率下的信息损失。更重要的是，ACCM冻结了 LVLMs 的权重，仅优化描述模型

和选择器

，从而大大降低了训练开销。

4 实验

4.1 基准测试和指标

作者针对一系列多模态任务进行了广泛的实验，以验证ACCM的有效性，包括视觉问答、视觉推理、幻觉评估和图像描述。作者采用的基准测试包括MME [7]。

MMBench [27]、MMVP [42]、POPE [21]、SEED-Bench [18]、GQA [17] 和 Flickr30k [50]。对于Flickr30k，作者报告CIDEr分数 [45] 作为评估指标。对于其他基准，使用官方指标。

4.2 实现细节

作者将ACCM应用于三个流行的视觉语言模型（LVLMs），包括LLaVA1.5-7B [23]、LLaVA-1.5-13B [23]和LLaVA-Next-7B [24]。所有实验中LVLMs的权重是固定的。作者根据ClipCap [32]构建了作者的标题模型，参数量为143.5M。对于选择器，作者使用LongCLIP [51]的文本编码器对问题-标题对进行编码，以有效处理长上下文。采用四层Transformer来实例化分类器。在自监督训练期间，只有标题模型的语言模型和选择器的分类器是可学习的。默认情况下，使用LLaVA-1.5-7B完成 Token 剪枝并生成输出logits。作者从LLaVA-665k数据集 [23]中随机采样40k个数据来构建偏好数据集。在推理过程中，选择器从通过波束搜索 [28]生成的三个标题中选择。遵循FastV [9]和PyramidDrop [48]，作者报告了TFLOPs和视觉 Token 的平均数量。所有实验均在单个NVIDIA A100 40G GPU上完成。

4.3 主要结果

在表1中，作者对多种流行的视觉语言模型（LVLMs）（即LLaVA-1.5-7B [23]、LLaVA-1.5-13B [23]和LLaVANeXT-7B [24]）进行了广泛的实验，并在高剪枝率（即93.5%和97%）下将ACCM与现有方法进行比较。比较方法包括FastV [9]、VTW [22]、LLaVolta [8]、SparseVLM [54]和PyramidDrop [48]，这些方法在不修改LVLM权重的情况下完成token剪枝。如表1所示，ACCM在LLaVA-1.5-7B [23]的93.5%剪枝率下，在七个基准测试中明显优于其他方法。例如，ACCM平均达到49.5%，绝对提升5.5%，同时FLOPs更低。与FastV [9]相比，ACCM获得更明显的性能提升8.8%。显著的优势表明ACCM能够有效地补充丢失的视觉信息，并缓解在各种多模态任务上的性能下降。当应用于LLaVA-1.5-13B [23]和LLaVA-NeXT-7B [24]时，ACCM保持其领先性能，展现了ACCM的有效性。具体而言，在LLaVA-NeXT-7B [24]上，ACCM的平均结果比FastV [9]高17.4%，同时FLOPs降低了22.5%。特别是在POPE [21]基准测试上，ACCM达到85.6%的F1分数，与未剪枝结果相比仅下降0.9%，同时将FLOPs从30.65T降低到4.4T。

picture.image

在表2中，作者进一步在极端剪枝率（约97%）下评估了ACCM。如表2所示，ACCM的优势变得更加明显。与PDrop（PyramidDrop）[48]相比，ACCM在LLaVA-1.5-7B [23]上获得了平均绝对提升7.8%。在LLaVA-1.5-13B [23]和LLaVANeXT-7B [24]上，ACCM分别实现了11和15个百分点的绝对性能提升。在不同高剪枝率下的持续优越性验证了ACCM在减轻视觉信息损失方面的有效性。ACCM和对比方法的效率分析可以在补充材料中找到。

picture.image

4.4 消融实验

在表3中，作者消融了ACCM的关键组件。实验在MME [7] 和POPE [21] 上使用LLaVA-1.5-7B [23] 进行。剪枝率设置为9.35%。表3的第一行报告了LLaVA-1.5-7B的原始结果。如表3第二行所示，在较高的剪枝率下应用token剪枝会导致严重的性能下降，在MME和POPE上分别下降了402.8和19.1%。如表3第三行所示，一般的图像描述可以补充丢失的信息并在一定程度上缓解性能下降，与 Baseline 相比，在MME和POPE上分别提升了23.4和3.5%。在第四行中，作者通过相应的问句引导描述模型生成相关描述，与补充一般描述相比，性能有所提升（在MME和POPE上分别提升了30.0和2.9%）。基于生成的与问题相关的描述，作者进一步使用一个选择器从多个候选中选择上下文合适的描述。如表3第五行所示，选择器进一步减轻了性能下降。与 Baseline 和使用一般描述的变体（即第三行）相比，这些改进验证了作者生成相关描述并在高剪枝率下补充适当信息以减轻性能下降的有效性。

picture.image

4.5 其他设置

在本节中，作者系统地研究了三个关键因素：(1) 对描述模型变化的鲁棒性，(2) 自监督学习中的训练数据量，以及(3) ACCM在跨模型上的泛化能力。

4.5.1 标题模型替换

为检验不同描述模型在ACCM中的影响，作者在表4中将ClipCap [32]替换为不同的描述模型UniversalCap [11]。UniversalCap能够有效利用含噪声的图像-描述对，同时不损害人类标注数据集的描述风格。与ClipCap（143.5M参数）不同，UniversalCap采用参数更少的编码器-解码器架构（作者使用参数量为105M的Tiny版本）。如表4所示，ClipCap在三个基准测试（即MME [7]、MMBench [27]和GQA [17]）上平均得分为54.5%，而UniversalCap获得54.3%，处于同一水平。不同描述模型取得的可比结果表明，ACCM是灵活且鲁棒的，不依赖于任何特定模型。

picture.image

4.5.2 训练数据规模

为探究训练数据规模在自监督学习中的影响，作者在图3中将数据量从

扩展至

。实验中采用LLaVA-1.5-7B进行训练和评估。如图3所示，扩大训练数据规模在三个基准测试中始终带来性能提升。例如，当训练数据规模从

增加到60k时，ACCM在MME [7]、MMB [27]和GQA [17]上分别实现了

、

和

的性能提升。随着训练数据的增加，标题模型在生成与问题相关的描述方面表现更佳，而选择器能够选择更合适的标题来补充丢失的信息。

picture.image

4.5.3 跨LVLMs的迁移性

为评估ACCM的可迁移性，作者使用一个LVLM进行自监督训练来训练作者的模块，并将它们直接应用于另一个LVLM，而无需额外调整。如表5所示，作者分别使用LLaVA1.5-7B [23] 和 LLaVA-NeXT-7B [24] 进行训练。从第二行可以看出，当从LLaVA-NeXT-7B迁移到LLaVA1.5-7B时，ACCM取得了相当的结果（49.8% vs. 49.0% 与无跨模型迁移的变体（即表5的第一行）。同样，当从LLaVA1.5-7B迁移到LLaVA-NeXT-7B时，性能也与非迁移变体相当（表5的第四行）。在不同LVLM上始终表现出色证明了ACCM跨模型的泛化能力。因此，作者提出的标题模型和选择器可以以即插即用的方式迁移到不同的LVLM。

picture.image

4.6 不同剪枝率下的性能表现

在图4中，作者展示了ACCM与现有方法在不同剪枝率下的性能表现。如图4所示，当剪枝率低于75%时，大多数对比方法仍能保持性能。然而，一旦剪枝率超过75%，它们的性能开始明显下降。当剪枝率超过90%后，所有对比方法都经历了性能的急剧退化。例如，FastV [9] 的性能下降了超过30%。相比之下，ACCM不仅能在较低的剪枝率下保持优异性能，而且与其他方法相比，在高剪枝率下能有效缓解性能退化（在97%的剪枝率下，比SparseVLM [54] 高出26.1%）。在不同剪枝率下始终表现出的优越性验证了ACCM的有效性。

picture.image

4.7 定性分析

为了直观展示ACCM在补充丢失信息方面的有效性，作者可视化了一些样本上的ACCM进行token剪枝的结果和补充的标题。如图5 (a)所示，在97%的剪枝率下，LVLMs完全关注于女人，忽略了她身后的保龄球，这使得推理女人的活动变得困难。而ACCM可以通过生成与问题相关的标题，有效恢复丢失的信息（即打保龄球）。在图5 (c)中，书架上摆放着各种物品，LVLMs只保留了少量视觉token而遗漏了其中一些。ACCM可以生成多个相关的描述，并选择最恰当的一个（即涵盖书架上更多物品的标题）来支持多模态感知和推理。

picture.image

5 结论

在论文中，作者介绍了自适应内容补偿方法（ACCM），旨在缓解高效LVLMs的视觉信息损失。当遇到高剪枝率时，当前的token剪枝方法由于严重的视觉信息损失而遭受严重的性能退化。为了解决这个问题，作者提出通过图像描述来自适应地补充丢失的信息。ACCM包含两个关键组件：轻量级描述模型和选择器。在用户指令的指导下，描述模型首先生成与问题相关的描述。然后选择器从多个候选中识别出最符合上下文的描述。最后，ACCM通过DPO联合优化。更重要的是，ACCM可以以自监督的方式进行优化，无需任何人工或自动化标注。在多个基准和LVLMs上的大量实验验证了ACCM的优越性，其显著超越了其他方法，并且具有更低的FLOPs。据作者所知，ACCM是首个利用图像描述来恢复token剪枝过程中丢失的视觉信息的工作，作者希望它能给社区提供新的思路。

参考

[1]. Mitigating Information Loss under High Pruning Rates for Efficient Large Vision Language Models