备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
多模态大规模语言模型(MLLMs)的快速发展在各种领域取得了显著的性能提升。然而,这种进步同时也伴随着这些模型资源消耗的大量增加。
为了解决这个紧迫问题,作者提出了一种新方法,即使用CLIP指标的标记减少(TRIM),旨在在不牺牲性能的前提下提高MLLM的效率。
受到视觉问答(VQA)任务中人类注意力模式的影响,TRIM为客户提供了一种全新的图像标记选择和减少视角。经过在12个数据集上的广泛测试,结果表明在降低计算开销的同时,保持了性能的一贯水平。
这项研究是提高MLLM效率的关键一步,有助于促进高性能模型的普及和可持续性。
1 Introduction
随着大规模语言模型(MLLM)的快速发展,它们在各种领域展现出优越甚至超人的性能。然而,这种进步伴随着这些模型消耗资源的显著增加。因此,研究社区开始更加关注开发高效的大型语言模型。
目前正在进行的努力包括开发轻量化架构来减少参数和计算复杂性,创建专门组件来优化效率并添加如局部性等特性,以及通过如视觉标记压缩等技巧增强对资源密集型任务的支持。视觉标记压缩可以减少表示视觉数据所需的标记数量,从而在不牺牲性能的前提下降低计算和内存需求。这种方法在处理高分辨率图像和视频方面尤其重要。
在MLLM时代之前,许多尝试旨在减少标记数量。例如,如MADTP(曹等人,2024)等方法被提出,但没有与大型语言模型(LLM)紧密结合。在MLLM的背景下,唯一值得注意的工作是PruMerge。然而,它仍然是一种确定哪些标记要减少的次优方法。
人类VQA任务的注意力模式,启发了作者的方法,该方法使用CLIP(Radford等,2021)表示来计算文本和图像块之间的相似性。通过作者的观察,作者发现这种相似度度量有效地识别出图像中的语义相关区域。在这一基础上,作者提出了一个创新性的方法,称为TRIM (使用CLIP度量进行标记 减少)。
在此方法中,作者利用CLIP度量评估每个图像标记的重要性。作者还提出使用适当地选择适用于问句解答的图像标记的Interquartile Range (IQR) Boukerche等人(2020)得分函数。
为了弥补潜在的信息损失,所选的图像标记被用于添加一个汇总标记,该标记保留了来自未选择标记的信息。这种方法显著简化了计算过程,将图像标记数量减少约79%,处理时间减少67%,内存使用减少30%,相对基准,如图1所示。值得注意的是,在保持与原始模型性能相当的同时,它实现了效率。
作者的贡献可以总结如下:
- 作者观察到CLIP度量可以有效地捕捉重要的图像标记。
- 通过利用CLIP度量和高斯四分位距(IQR)得分函数,作者适应性地选择对问答至关重要的图像标记,并使用汇总标记保留额外的图像信息。
- 在12个数据集上的广泛测试表明,作者的TRIM方法显著降低了计算开销,并保持了一致的性能。
2 Related Work
许多工作都致力于将视觉信息更好地映射到文本嵌入空间。早期的工作Alayrac等人(2022年)使用感知重采样器将视觉数据集成到语言模型的隐藏层中。一些工作Li等人(2023年);Zhu等人(2023年);Bai等人(2023年);Li等人(2024年);Jian等人(2024年)将视觉标记压缩为固定长度,并将其映射到文本空间,使用线性层。更多最近使用LLaVA架构的Liu等人(2024年);Al等人(2024年);Wang等人(2024年);Zhu等人(2024年);Chen等人(2024年)通过使用MLP层将视觉标记映射到文本空间,简化了这一过程,降低了训练参数和数据需求,因此因其在效率和简单性方面的优势而变得越来越受欢迎。
然而,由于标准CLIP Radford等人编码的高数量视觉标记,LLaVA在多图像场景中增加了计算负载。在保留视觉信息的同时压缩这些标记至关重要。尽管传统计算机视觉任务有效使用了标记的合并和裁剪(Rao等人,2021年;Meng等人,2021年),但这种方法在MLLM中尚属未经充分探索。作者的研究引入了一种基于文本和视觉标记相似度的标记减少方法,实现了与视觉标记数量显著减少相比的相似性能。
3 Method
Observations
在 Token 减少过程中,确定不同 Token 的重要性是一个挑战。人类在进行VQA任务时,根据任务描述,关注图像的特定部分,而不是对图像的每个部分给予同等关注。为了模拟这种注意力机制,作者需要在文本和图像块之间建立连接。
作者观察到CLIP模型在训练过程中,隐式地建立了这样的连接。CLIP使用对比学习损失,将匹配的文本-图像对拉得更近,将不匹配的文本-图像对推得更远。通过利用这些表示,作者可以计算并分析文本表示与图像块表示之间的相似性。如图2所示,作者发现利用文本表示,相似度度量可以有效地捕获意义相关的图像块。
Token Reduction with TRIM
在此基础上,作者提出了一种名为TRIM(T oken R eduction using CLIP M etric)的创新性分词方法,主要分为三个步骤。
评估词元重要性。 首先,作者利用CLIP的相似度度量来评估图像词元的意义。给定文本解码器 提取的文本特征表示和图像解码器 提取的图像特征表示,作者计算每个图像词元 和池化文本表示 的余弦相似度如下:
接着,作者对计算得到的相似度应用softmax函数,得到:
这种softmax分数,,有效地衡量了每个图像词元 的意义,从而构成了作者方法中词元约减的底层基础。
选择重要词元。 为了确定保留图像词元的最优数量,作者采用Shang等人(2024)所建议的IQR(Interquartile Range)方法。IQR是第三四分位数和第一四分位数之差的度量,作为统计多样性的指示器。然后,作者通过选择相似度得分超过定义为 的图像词元来建立严格的相似度阈值,以确保只保留高相似度得分的最重要图像词元 。
聚合未选词元。 此外,为了保留未选图像词元所固有的信息,作者计算它们的表示值的平均值,并将其表示为 。此聚合词元然后被附加到选定的词元中,这是一种策略,可以有效地减轻在词元约减过程中可能产生的图像信息潜在损失。最后,作者得到约简后的图像词元序列 。
4 Experiment
Experiment Setup
作者的实验设置与LLaVA 1.5一致,主要区别在于作者只在指导调优阶段使用作者的TRIM方法。这种方法确保了作者提出的方法与现有的 Baseline 进行公平比较。此外,作者在12个不同的数据集上进行评估,并将其结果与5个最先进的MLLM(机器学习与自然语言处理中的模型)和一项相关的减少词长的研究进行比较。详细的训练和评估设置请参见附录A和附录B。
Main Results
图3:TRIM和LLaVA架构概述。
TRIM涉及三个步骤:
(1) 计算文本标记和视觉标记之间的相似性;
(2) 使用异常检测算法根据这些相似性进行排名和选择重要标记;
(3) 将未选中的图像标记汇总成一个聚合标记。
如表1所示,在尝试12个数据集后,作者发现,尽管减少了图像标记的数量至21%,但作者的方法仍保持了与LLaVA-1.5 comparable的性能水平。此外,它显著优于 previous work,如BLIP2 Li等人(2023年),Instruct-BLIP Dai等人(2023年),IDEFICS-9B (IDEFICS, 2023),以及 Qwen-VL-Chat (Bai等人,2023 年)。
作者的方法在 SQA 和 MMB 数据集上的性能甚至超过了 LLaVA-1.5。与之前的工作PruMerge相比,尽管使用更少的图像标记,但作者的方法在标记数量(5%和20%)和模型大小(7B和13B)上都展现了卓越的性能。这在 POPE和MMB 数据集中尤为明显。
5 Analysis
Efficiency Analysis
作者使用LLMViewer分析(Yuan等人,2024年)评估了计算效率(Yuan等人,2024年)。在典型的场景中, CLIP 模型处理的 336 x 336 像素图像产生了 576 个视觉 Token ,同时还有 40 个 Token 的文本提示。经过统计分析后,PruMerge 实现了 25% 的压缩率,将视觉 Token 减少到 144。
相比之下,作者的方法实现了 21% 的压缩率,将 Token 减少到 123。作者的方法显著加速了模型推理速度并降低了内存使用,如下表2所示。值得一提的是,生成第一个 Token 所需的时间缩短到原始时间的32.9%,从而显著加速了推理过程。
Ablation Study
作者对TRIM方法中提出的策略进行了消融研究,结果如表3所示。首先,作者对基于CLIP度量的自动化图像标记选择过程进行分析。作者将此过程与简单的线性插值池化进行了比较,发现作者的策略能有效地捕获图像的关键信息,而不仅仅是均匀采样(对比第二和第三行)。
使用额外的聚合标记来保留足够的图像信息也取得了性能提升(对比第三和第四行)。基于TRIM策略的训练可以进一步增强结果(对比第四和第五行)。
6 Conclusion
作者研究了一种名为TRIM的创新方法,用于减少MLLMs中的图像 Token ,同时保持性能。与其他方法相比,TRIM在更少的 Token 下表现更好。
本研究标志着向资源高效的MLLMs迈出了重要的一步,并将扩展到更多种类的架构,从而在该领域进一步提升效率。
参考
[1].Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs.