港中文提出少即是多，高效多模LLMs的简单但有效的令牌减少方法！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

多模态大规模语言模型(MLLMs)的快速发展在各种领域取得了显著的性能提升。然而,这种进步同时也伴随着这些模型资源消耗的大量增加。

为了解决这个紧迫问题,作者提出了一种新方法,即使用CLIP指标的标记减少(TRIM),旨在在不牺牲性能的前提下提高MLLM的效率。

受到视觉问答(VQA)任务中人类注意力模式的影响,TRIM为客户提供了一种全新的图像标记选择和减少视角。经过在12个数据集上的广泛测试,结果表明在降低计算开销的同时,保持了性能的一贯水平。

这项研究是提高MLLM效率的关键一步,有助于促进高性能模型的普及和可持续性。

1 Introduction

随着大规模语言模型（MLLM）的快速发展，它们在各种领域展现出优越甚至超人的性能。然而，这种进步伴随着这些模型消耗资源的显著增加。因此，研究社区开始更加关注开发高效的大型语言模型。

目前正在进行的努力包括开发轻量化架构来减少参数和计算复杂性，创建专门组件来优化效率并添加如局部性等特性，以及通过如视觉标记压缩等技巧增强对资源密集型任务的支持。视觉标记压缩可以减少表示视觉数据所需的标记数量，从而在不牺牲性能的前提下降低计算和内存需求。这种方法在处理高分辨率图像和视频方面尤其重要。

在MLLM时代之前，许多尝试旨在减少标记数量。例如，如MADTP（曹等人，2024）等方法被提出，但没有与大型语言模型（LLM）紧密结合。在MLLM的背景下，唯一值得注意的工作是PruMerge。然而，它仍然是一种确定哪些标记要减少的次优方法。

人类VQA任务的注意力模式，启发了作者的方法，该方法使用CLIP（Radford等，2021）表示来计算文本和图像块之间的相似性。通过作者的观察，作者发现这种相似度度量有效地识别出图像中的语义相关区域。在这一基础上，作者提出了一个创新性的方法，称为TRIM （使用CLIP度量进行标记减少）。

在此方法中，作者利用CLIP度量评估每个图像标记的重要性。作者还提出使用适当地选择适用于问句解答的图像标记的Interquartile Range (IQR) Boukerche等人（2020）得分函数。

为了弥补潜在的信息损失，所选的图像标记被用于添加一个汇总标记，该标记保留了来自未选择标记的信息。这种方法显著简化了计算过程，将图像标记数量减少约79%，处理时间减少67%，内存使用减少30%，相对基准，如图1所示。值得注意的是，在保持与原始模型性能相当的同时，它实现了效率。

picture.image

作者的贡献可以总结如下：

作者观察到CLIP度量可以有效地捕捉重要的图像标记。
通过利用CLIP度量和高斯四分位距（IQR）得分函数，作者适应性地选择对问答至关重要的图像标记，并使用汇总标记保留额外的图像信息。
在12个数据集上的广泛测试表明，作者的TRIM方法显著降低了计算开销，并保持了一致的性能。

2 Related Work

许多工作都致力于将视觉信息更好地映射到文本嵌入空间。早期的工作Alayrac等人（2022年）使用感知重采样器将视觉数据集成到语言模型的隐藏层中。一些工作Li等人（2023年）；Zhu等人（2023年）；Bai等人（2023年）；Li等人（2024年）；Jian等人（2024年）将视觉标记压缩为固定长度，并将其映射到文本空间，使用线性层。更多最近使用LLaVA架构的Liu等人（2024年）；Al等人（2024年）；Wang等人（2024年）；Zhu等人（2024年）；Chen等人（2024年）通过使用MLP层将视觉标记映射到文本空间，简化了这一过程，降低了训练参数和数据需求，因此因其在效率和简单性方面的优势而变得越来越受欢迎。

然而，由于标准CLIP Radford等人编码的高数量视觉标记，LLaVA在多图像场景中增加了计算负载。在保留视觉信息的同时压缩这些标记至关重要。尽管传统计算机视觉任务有效使用了标记的合并和裁剪（Rao等人，2021年；Meng等人，2021年），但这种方法在MLLM中尚属未经充分探索。作者的研究引入了一种基于文本和视觉标记相似度的标记减少方法，实现了与视觉标记数量显著减少相比的相似性能。

3 Method

Observations

在 Token 减少过程中，确定不同 Token 的重要性是一个挑战。人类在进行VQA任务时，根据任务描述，关注图像的特定部分，而不是对图像的每个部分给予同等关注。为了模拟这种注意力机制，作者需要在文本和图像块之间建立连接。

作者观察到CLIP模型在训练过程中，隐式地建立了这样的连接。CLIP使用对比学习损失，将匹配的文本-图像对拉得更近，将不匹配的文本-图像对推得更远。通过利用这些表示，作者可以计算并分析文本表示与图像块表示之间的相似性。如图2所示，作者发现利用文本表示，相似度度量可以有效地捕获意义相关的图像块。

picture.image

Token Reduction with TRIM

在此基础上，作者提出了一种名为TRIM（T oken R eduction using CLIP M etric）的创新性分词方法，主要分为三个步骤。

评估词元重要性。 首先，作者利用CLIP的相似度度量来评估图像词元的意义。给定文本解码器提取的文本特征表示和图像解码器提取的图像特征表示，作者计算每个图像词元和池化文本表示的余弦相似度如下：

接着，作者对计算得到的相似度应用softmax函数，得到：

这种softmax分数，,有效地衡量了每个图像词元的意义，从而构成了作者方法中词元约减的底层基础。

选择重要词元。 为了确定保留图像词元的最优数量，作者采用Shang等人（2024）所建议的IQR（Interquartile Range）方法。IQR是第三四分位数和第一四分位数之差的度量，作为统计多样性的指示器。然后，作者通过选择相似度得分超过定义为的图像词元来建立严格的相似度阈值，以确保只保留高相似度得分的最重要图像词元。

聚合未选词元。 此外，为了保留未选图像词元所固有的信息，作者计算它们的表示值的平均值，并将其表示为。此聚合词元然后被附加到选定的词元中，这是一种策略，可以有效地减轻在词元约减过程中可能产生的图像信息潜在损失。最后，作者得到约简后的图像词元序列。

4 Experiment

Experiment Setup

作者的实验设置与LLaVA 1.5一致，主要区别在于作者只在指导调优阶段使用作者的TRIM方法。这种方法确保了作者提出的方法与现有的 Baseline 进行公平比较。此外，作者在12个不同的数据集上进行评估，并将其结果与5个最先进的MLLM（机器学习与自然语言处理中的模型）和一项相关的减少词长的研究进行比较。详细的训练和评估设置请参见附录A和附录B。

Main Results

图3：TRIM和LLaVA架构概述。

TRIM涉及三个步骤：

(1) 计算文本标记和视觉标记之间的相似性；

(2) 使用异常检测算法根据这些相似性进行排名和选择重要标记；

(3) 将未选中的图像标记汇总成一个聚合标记。

picture.image

如表1所示，在尝试12个数据集后，作者发现，尽管减少了图像标记的数量至21%，但作者的方法仍保持了与LLaVA-1.5 comparable的性能水平。此外，它显著优于 previous work，如BLIP2 Li等人（2023年），Instruct-BLIP Dai等人（2023年），IDEFICS-9B (IDEFICS, 2023)，以及 Qwen-VL-Chat (Bai等人，2023 年)。

作者的方法在 SQA 和 MMB 数据集上的性能甚至超过了 LLaVA-1.5。与之前的工作PruMerge相比，尽管使用更少的图像标记，但作者的方法在标记数量（~~5%和~~20%）和模型大小（7B和13B）上都展现了卓越的性能。这在 POPE和MMB 数据集中尤为明显。

picture.image

5 Analysis

Efficiency Analysis

作者使用LLMViewer分析（Yuan等人，2024年）评估了计算效率（Yuan等人，2024年）。在典型的场景中， CLIP 模型处理的 336 x 336 像素图像产生了 576 个视觉 Token ，同时还有 40 个 Token 的文本提示。经过统计分析后，PruMerge 实现了 25% 的压缩率，将视觉 Token 减少到 144。

相比之下，作者的方法实现了 21% 的压缩率，将 Token 减少到 123。作者的方法显著加速了模型推理速度并降低了内存使用，如下表2所示。值得一提的是，生成第一个 Token 所需的时间缩短到原始时间的32.9%，从而显著加速了推理过程。

picture.image

Ablation Study

作者对TRIM方法中提出的策略进行了消融研究，结果如表3所示。首先，作者对基于CLIP度量的自动化图像标记选择过程进行分析。作者将此过程与简单的线性插值池化进行了比较，发现作者的策略能有效地捕获图像的关键信息，而不仅仅是均匀采样（对比第二和第三行）。

使用额外的聚合标记来保留足够的图像信息也取得了性能提升（对比第三和第四行）。基于TRIM策略的训练可以进一步增强结果（对比第四和第五行）。

6 Conclusion

作者研究了一种名为TRIM的创新方法，用于减少MLLMs中的图像 Token ，同时保持性能。与其他方法相比，TRIM在更少的 Token 下表现更好。

本研究标志着向资源高效的MLLMs迈出了重要的一步，并将扩展到更多种类的架构，从而在该领域进一步提升效率。

参考

[1].Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs.

港中文提出少即是多，高效多模LLMs的简单但有效的令牌减少方法 ！

1 Introduction

2 Related Work

3 Method

Observations

Token Reduction with TRIM

4 Experiment

Experiment Setup

Main Results

5 Analysis

Efficiency Analysis

Ablation Study

6 Conclusion

参考