将视觉标记压缩了75%至89% ：TokenPacker 如何优化多模态大型语言模型？

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

视觉投影器在多模态大型语言模型（MLLM）中扮演着视觉编码器与大型语言模型（LLM）之间的关键桥梁角色。通常，MLLM采用简单的多层感知机（MLP）通过一对一的转换保留所有视觉上下文。

然而，视觉标记具有冗余性，在处理高分辨率图像时，其数量会显著增加，这大大降低了MLLM的效率。一些近期的研究引入了重采样器或抽象器来减少生成的视觉标记数量。

不幸的是，它们未能捕捉到更精细的细节，并削弱了MLLM的视觉推理能力。在这项工作中，作者提出了一种新颖的视觉投影器，它采用从粗到细的方案注入丰富的特性以生成简化的视觉标记。

具体来说，作者首先将视觉特征插值为低分辨率的点 Query ，提供了整体的视觉表示作为基础。然后，作者引入了一个区域到点的注入模块，该模块利用高分辨率、多级基于区域的线索作为细粒度的参考键和值，使它们能够完全被相应的局部上下文区域吸收。

这一步骤有效地更新了粗糙的点 Query ，将其转变为后续LLM推理所需的丰富 Query 。

广泛的实验表明，作者的方法将视觉标记压缩了75%至89%，同时在各种基准测试中取得了可比较甚至更好的性能，效率显著提高。

源代码可以在https://github.com/CircleRadon/TokenPacker找到。

1 Introduction

随着大型语言模型（LLM）的迅速发展，多模态大型语言模型（MLLMs）在视觉-语言理解、推理和交互能力方面取得了显著提升。这是通过将视觉编码器的嵌入投影到LLM中，使其具备对世界的视觉感知能力，其中视觉投影器在连接视觉和语言模型方面发挥着关键作用。

在MLLM框架中，LLM主导了整个计算成本，特别是由于视觉编码器与LLM相比通常要小得多。例如，广泛使用的CLIP-ViT-Large [44]拥有3亿个参数，与LLaMA [50]或Vicuna [52]这类拥有70/80亿或130亿个参数的LLM形成鲜明对比。因此，MLLMs的效率受到视觉投影器产生的视觉标记数量的显著影响。此外，视觉投影器通过将视觉特征翻译成语言模型可以解释的文本嵌入空间中的视觉标记，连接视觉和语言模型。因此，这些视觉标记的质量直接影响到MLLM的整体有效性。在这项工作中，作者旨在研究一种有效的视觉投影器，用于连接视觉编码器和LLM，同时尽可能使用更少的标记。

大多数当前工作采用线性投影器或重采样器。对于线性投影器，MLP投影[33]通过一对一的变换保留所有视觉上下文，这保留了具有冗余标记[6; 46]的详细信息。更重要的是，在处理高分辨率图像或视频时，视觉标记的数量显著增加。对于另一条研究线路，重采样器[4]或Q-Former[27]利用一组可学习的 Query 显式控制视觉标记的数量，并采用交叉注意力层从视觉特征中提取最相关的视觉线索。一些近期研究，例如Abstract 或LDP，利用卷积层鼓励视觉特征的局部交互并生成压缩标记。然而，这些方法不可避免地丢失了更精细的细节信息，牺牲了MLLM的视觉推理能力。此外，一些方法通过简单的像素Shuffle[9]或邻近拼接操作[15]直接将视觉特征从序列维度转移到通道维度以减少序列长度。尽管保留了所有信息，但这可能会破坏视觉特征本身的结构特性。

在这项工作中，作者提出了一种新型的视觉投影器，名为TokenPacker，它有效地将更精细的详细信息打包到紧凑的视觉标记表示中。作者的TokenPacker遵循从粗到精的设计，将丰富的高分辨率特性注入到粗糙的低分辨率特性中，以生成浓缩的视觉标记。具体来说，作者最初将视觉编码器的视觉特征插值作为低分辨率点 Query ，这些 Query 包含视觉线索的粗糙和整体特性。然后，作者引入了一个区域到点的注入模块，它充分利用了高分辨率、多级的CLIP特征，提供细粒度的候选键和值以供参考。在这个过程中，鼓励高分辨率视觉区域细节注入到低分辨率点 Query 中，在局部上下文区域内更新。这有效地增强了粗 Query 并将其转换为后续LLM中更丰富的 Query 。作为扩展，作者进一步提出了一种有效的动态图像切片方案，使用作者的TokenPacker进行高效的高分辨率图像理解。

作者在不同的多模态基准上进行了广泛的实验，以研究作者方法的有效性。值得注意的是，作者的TokenPacker可以在LLaVA-1.5 [33]中有效减少75%（576 vs. 144）~89%（576 vs. 64）的视觉标记，同时在使用显著更高效率的情况下实现可比较甚至更好的性能。如图1所示，作者的方法在准确性和效率方面比其他同类方法具有更大的优势。此外，作者的方法在各种各样的多模态任务上一致地提供具有竞争力的的高分辨率理解性能。

picture.image

2 Related Work

Multimodal Large Language Models (MLLMs)

图1：（左）在典型投影器上的视觉比较，包括线性MLP [33] 和 Resampler [4]。作者的方法在一个局部上下文区域内挖掘多级特征。（右）与现有方法的准确度与效率（TPS）比较。作者的TokenPacker与其他对应方法相比显示出更有利的性能。准确度在六个基准测试中取平均值（见表1）。

picture.image

大型语言模型（LLM）因其在各种语言任务上的出色能力而引起了广泛关注，如问答和文本生成。这种关注为近期多模态大型语言模型（MLLM）[61]的发展奠定了基础，这些模型将LLM与视觉编码器结合，实现对多模态内容更加丰富的理解和感知。像CLIP [44]这样的创新模型显著缩小了语言处理与视觉任务之间的差距，推动了跨模态应用的发展。早期的努力，如Flamingo [2] 和 BLIP-2 [27]，利用大量的图像-文本对数据集来改进跨模态对齐，极大地提高了学习效率。这种提升在MLLM领域代表了一个显著的进展，通过融合文本和图像，扩大了应用范围。在近年来，各种MLLM越来越受到重视。值得注意的开源例子包括LLaVA系列[35; 33; 34]，MiniGPT-4 [63]，Qwen-VL [4]，CogVLM [53]，Shikra [8]，InternLM-XComposer [14]以及其它模型[10; 39]。专有商业MLLM的出现标志着该领域的重大转变，正如OpenAI的GPT-4V [43]和谷歌的Gemini系列[48; 45]所展示的。这些进展凸显了MLLM在领域内的多样性和扩展性，对AGI的景象产生了显著影响。

Visual Projector in MLLMs

视觉投影器在连接视觉和语言模型方面扮演着基本角色，它将来自视觉编码器的视觉信号与LLM空间对齐。当前的方法主要可以分为两类。一类是通过MLP的线性投影[35; 33]。MLP投影可以通过一对一的转换保留所有的视觉上下文，从而保留了带有冗余标记[6; 46]的详细信息。这种方法的一个关键问题是视觉标记数量的显著增加，尤其是在处理高分辨率图像或视频时。为了解决这个问题，另一条研究线路专注于减少视觉标记以提高MLLM的效率。Resampler[4]或Q-Former[27]使用可学习的 Query 显式地控制视觉标记的数量，并通过交叉注意力层强制从视觉特征中提取最相关的视觉线索。一些近期的工作，例如Abstractor[7]和LDP[11; 12]，采用卷积层鼓励视觉特征的局部交互并生成压缩的标记。然而，这些方法不可避免地省略了细微的详细信息，从而妥协了MLLM的视觉推理能力。此外，一些工作直接通过简单的像素Shuffle[9]或邻近连接[15]操作将视觉特征从长度维度转移到通道维度以减少视觉标记的数量。尽管保留了所有信息，但这可能会破坏视觉特征本身的内在特性。最近的研究[41]对常用的投影器进行了实证研究，结论是它们的类型影响可以忽略不计。与这些发现相对比，本文介绍了一种新颖有效的视觉投影器，名为TokenPacker。

High-Resolution Understanding with MLLMs

大多数多模态语言模型通常采用CLIP-ViT [44]作为视觉编码器来捕捉视觉信息。然而，视觉编码器受到低分辨率输入的限制，例如224×224或336×336，这阻碍了多模态语言模型有效处理需要更细粒度细节的任务，如密集OCR、人群计数和小物体视觉定位。为了克服这一限制，一系列方法直接采用能够有效支持高分辨率输入的视觉编码器，如SAM编码器[24]或ConvNeXt[38]，以捕捉更精细的视觉线索。与这些方法不同，采用切块策略将高分辨率图像分割成多个图像块。然后分别处理这些图像块，以获得整个高分辨率图像的视觉嵌入。一些研究[32; 30]首先将输入图像调整到可访问的大小，并采用滑动窗口将图像分割成统一大小的块（例如224×224）。尽管这些方法将原始分辨率改变为固定的正方形大小，但这可能导致视觉内容的模糊或失真。为了缓解这个问题，几项研究利用与输入图像相似的宽高比进行缩放，而不是坚持固定的正方形比例。

3 Method

在本节中，作者首先回顾了标准的MLLM的整体框架，该框架为给定的多模态输入生成遵循指令的响应（第3.1节）。然后，作者介绍了名为TokenPacker的有效视觉投影器，它是专为桥接视觉编码器与LLM而设计的，用于生成后续LLM处理的紧凑视觉标记表示（第3.2节）。最后，作者提出了一种动态图像切片方案，支持任何宽高比的输入图像，并且填充内容最小。通过整合TokenPaker，作者的方法可以实现精细的高分辨率图像理解，同时显著提高计算效率（第3.3节）。

Revisiting Multimodal Large Language Models (MLLMs)

多模态语言模型（MLLMs）的目标是开发一个复杂的模型，该模型能够根据给定的指令，在接收视觉和文本数据的多模态输入下生成响应。MLLMs通常由三个关键组成部分组成：1）视觉编码器：它将输入图像转换为一组独特的视觉嵌入。它通常使用广泛使用的CLIP-ViT-L/14作为其主干网络， Patch 大小为14，表示视觉嵌入的数量。2）视觉投影器：这个组件将视觉嵌入转换为文本嵌入空间中的视觉标记，其维度适合后续的语言模型。3）大型语言模型（LLM）：它接收视觉标记和文本标记，并递归地生成连贯的响应。对于长度为的响应序列，可以计算生成上下文目标答案的概率为：

$p(\mathbf{Y}|\mathbf{T}\_{v},\mathbf{T}\_{t})=\prod\_{i=1}^{L}p(y\_{i}|\mathbf{T} \_{v},\mathbf{T}\_{t,<i},\mathbf{y}\_{<i}). \tag{1}$ <="" p="">

在这个典型的MLLM框架中，计算和内存需求主要由大型语言模型以及其大量的参数决定。应强调的是，LLM 的计算开销通常与其输入标记数量的二次增长有关。这突显了输入标记数量对整个框架效率的重要影响。视觉投影器接收个视觉嵌入并将它们转换为个视觉标记。因此，减少视觉标记的数量是提高LLM效率的关键方法，即 $M<n$ 。< p=""></n$。<>

TokenPacker: an Efficient Visual Projector

视觉投影器在将个视觉嵌入转换为个视觉标记，并在喂入LLM之前起着至关重要的作用。如图2所示，作者引入了一个有效的视觉投影器，名为TokenPacker，它尽可能地使用少量标记将视觉编码器与语言模型连接起来。作者的TokenPacker架构是用一个由粗到精的框架设计的。

picture.image

具体来说，作者在基于CLIP的视觉编码器中最后一个Transformer层之前，通过双线性插值和一个缩放因子将视觉特征下采样为低分辨率视觉嵌入，其中。因此，视觉标记的数量可以通过下采样比率来控制。低分辨率可以被视为原始高分辨率视觉特征粗糙表示，其中低分辨率的每个像素对应于高分辨率中的一个特定的()子区域。随后，作者构建点-区域对，即中的每个像素到中的子区域，旨在将高分辨率子区域的详细信息注入到每个具有粗糙表示的像素中。为了完成这个过程，作者设计了一个注入模块，有效地执行区域到点的信息注入，以增强和更新低分辨率表示。

特别是，作者将低分辨率作为基于点的 Query ，以及作为基于区域的候选键和值进行参考。通过一个MLP层后的点对区域交叉注意力操作来执行区域到点的信息注入，使低分辨率 Query 完全吸收细粒度的键和值，并更新为紧凑且增强的视觉标记。此外，作者利用多级视觉特征作为更丰富的参考键和值。如先前工作[23]所证明的，CLIP编码器的不同层次显示出对不同模式的偏差。浅层特征包含详细的低级信息，而深层特征在语义理解方面更胜一筹。多级区域到点注入过程鼓励从多个层次将丰富的高分辨率信息注入到低分辨率 Query 中，足以作为视觉标记。因此，作者的方法能够生成更优的视觉标记，同时将视觉标记的总数减少到视觉嵌入的。

High-Resolution Image Understanding with TokenPacker

为了支持高效的高分辨率图像理解，作者进一步开发了使用TokenPacker的有效图像裁剪方法。受到先前工作[56]的启发，作者关注保持宽高比的切片方案，以避免由于调整大小操作导致的视觉内容的变形和失真。与先前的方法[56; 34; 16; 9]不同，作者建议采用动态图像切片方案，尽可能最小化填充，以保持任何宽高比，确保分割的网格最大程度地填充原始图像内容。

最初，作者指定一组网格集合，用于输入图像的各种分区配置。这里，和分别是网格的行数和列数，表示允许的最大网格数。为了获得给定图像的最优网格配置，作者主要考虑三个关键因素：1) 保持图像的原始宽高比以避免失真；2) 最小化填充比例，使大部分网格被原始图像内容占据；3) 在满足前两个条件的选项中，选择与图像分辨率对齐程度最高的配置。

为了满足上述条件，作者定义了填充分数和重叠分数如下：

其中是两个比例中的最小值，即。具体来说，和。表示每个网格的大小，作者使用CLIP-ViT-L/14作为视觉编码器时设置为336。相应地，适用于图像的网格可以通过以下方式确定，

图3：使用作者的TokenPacker进行高效高分辨率图像理解的流程。

picture.image

如图3所示，作者可以通过适当的配置获取不同大小的图像网格进行切片。然后，作者按比例调整原始图像大小，并将剩余部分用零填充。为了保持原始图像的完整性，作者还整合了按宽高比保持大小调整的原始图像，以提供宏观概览，如之前的工作[56; 33]所述。在这些图像块的特征提取之后，作者的TokenPacker为每个分割的网格生成了紧凑的视觉标记，并根据其原始排列合并为一个视觉标记序列。此外，作者在每个网格之间引入逗号(',')，并在图像网格的每一行的末尾呈现一个换行('\n')标记，以清晰表达图像的2D结构信息，避免在LLM中的歧义。

4 Experiments

在本节中，作者首先介绍实验设置的细节。然后，在多个多模态测试平台上将作者的方法与现有领先方法进行基准测试。本节末尾，将呈现消融分析及定性结果。

Implementation Details

在本工作中，作者在LLaVA-1.5 [33] 的基础上实现作者的方法。具体来说，作者使用了CLIP-ViT-L/14-336px [44] 作为视觉编码器，默认分辨率为336×336，并采用了Vicuna-7/13B模型 [62] 作为大型语言模型（LLM）。作者执行了一个两阶段训练范式，包括预训练阶段和指令微调阶段。为了确保训练的效率，作者在两个阶段中保持视觉编码器不变，同时专注于优化作者提出的TokenPacker。同时，LLM的优化仅在指令微调阶段进行。作者在TokenPacker中调整下采样比率以控制生成的视觉标记的数量。在针对高分辨率图像的动态切片方案中，作者将或设定用于模型训练和评估，以支持一系列分辨率，例如，等。在方程式4中，作者默认将。与文献[33]一样，作者利用AdamW优化器和余弦学习率计划对所有模型进行了一轮训练。作者为预训练阶段和指令微调阶段设置的学习率分别为和。模型是在8 × NVIDIA A100 GPU上进行训练的。

Datasets and Benchmarks

为了进行公平的比较，作者首先在CC-595K数据集[35]上进行了实验，以训练作者的TokenPacker，以便在第一阶段执行模态对齐。在第二阶段，作者遵循LLaVA-1.5[33]的做法，使用656K混合数据集[35]进行指令调整。为了达到具有竞争力的性能，作者随后采用了更多高质量的训练样本，这些样本按照Mini-Gemini[28]的组织方式，第一阶段约120万，第二阶段约150万。此外，作者进行了一系列广泛的评估，以评估作者提出的模型在多模态理解和推理能力方面，所使用的基准测试包括：

通用视觉问题回答基准，如VQA[17]，GQA[20]，VizWiz[18]；
与OCR相关的基准，如VQA(TextVQA)[47]，OCRBench(OCRB)[37]和DocumentVQA(DocVQA)[40]；
类似POPE[29]的幻觉基准；
综合基准，如MMBench[36]，MM-Vet[58]和MMMU[60]。

Main Results

普通分辨率。作者首先在普通分辨率设置下研究所提出的TokenPacker的有效性，使用的数据与LLaVA-1.5 [33]中的数据相同。作者将作者的方法与之前领先的方法进行比较，包括MobileVLM V2 [12]，Shikra [8]，IDEFICS [21]，Qwen-VL [4]和InstructBLIP [13]，LLaVA-PruMerge [46]使用较少的视觉标记。采用了六个流行的基准测试，包括综合MMBench和MM-Vet，以及通用的与VQA相关的VizWiz，VQA，GQA和幻觉POPE，以进行全面性能评估。如表1所示，作者的方法在MMBench，VizWiz和POPE基准上分别展示了卓越的性能。与 Baseline LLaVA-1.5模型相比，作者提出的TokenPacker作为视觉投影器，将视觉标记减少了75%（从576减少到144），同时在使用Vicuna-7B/13B LLMs时，MMBench的性能指标提升了+0.8%/+0.3%，VizWiz的两个指标均提升了+2.0%，POPE提升了+1.1%/+1.5%。尽管在如VQA和GQA等图像问答基准上的性能略有下降，但作者的方法仍然在使用Vicuna-7B和Vicuna-13B模型时，相对于LLaVA-1.5 [33]全面带来了平均性能的提升，分别提高了+0.8%和+0.1%，而吞吐量大约是5倍（见表3了解详情）。此外，无论它们访问更多训练数据，作者的方法在大多数基准上超过了以前的方法，如Qwen-VL-Chat [4]，InstructBLIP [13]和MobileVLM V2 [12]。

picture.image

进一步地，作者将作者的方法与之前使用较少视觉标记的领先方法进行了比较。特别是，作者将标记数量分别设置为64（576的11%）和36（576的6%）。可以看出，作者的方法在三个基准上以较大幅度超过了这些方法。例如，作者观察到与最近的LLaVA-PruMerge [46]使用Vicuna-13B相比，在MMBench上达到了+3.9%，在VQA上达到了+3.5%。这些结果证实了作者的TokenPacker的有效性，强调了它在提升视觉标记表示和整体性能方面的优势影响。

高分辨率。作者将TokenPacker和动态图像切片方案等方法应用于LLaVA-1.5（命名为LLaVA-TokenPacker-HD）以执行高分辨率图像理解。在模型训练中，使用了Mini-Gemini [28]中组织的2.7M数据。作者设置和以支持最大输入分辨率为10881088和13441344。

下采样比率被设置为、或，以控制从每个图像块导出的视觉标记的数量。作者将作者的方法与现有的高分辨率多模态语言模型（MLLM）方法进行比较，例如 OtterHD [26]，SPHINX-2k [32]，UReader [56]，Monkey [30] 以及最近的 LLaVA-UHD [55]，LLaVA-NeXT [34]，Mini-Gemini-HD [28]。表2在九个流行基准测试上报告了比较结果，包括与OCR相关的VQA，OCRB和DocVQA，

picture.image

LLaVA综合MMB、MMMU和MME以及通用的VQA相关VQA、VizWiz和POPE基准测试。可以看出，当使用Vicuna-13B作为LLM，输入分辨率设置为13441344，大约有1393个视觉标记时，作者的方法在VQA上达到了70.6%的OCR相关性能，在OCRBench上达到了521，在DocVQA上达到了70.0%。这些有希望的结果可以归因于高分辨率图像使具有更多视觉标记的MLLM能够精确识别复杂的细粒度光学字符或目标。然而，对于MMMU和MME这样的综合基准测试，作者的方法在较低分辨率10881088下展现出最佳性能。此外，即使大约只有619个视觉标记，作者的方法在MMB、MMMU、MME和VizWiz上分别获得了第二佳的成绩，分别为69.9%、38.2%、1577/353和61.0%。这些结果证明，减少标记数量的MLLM在综合基准测试和VQA相关任务上仍然能提供强大的性能。

这些结果证明了在多种多模态任务中利用原生高分辨率图像的关键有效性，并突显了作者提出的TokenPacker的有效性。图4展示了在代表性场景中的定性比较。

picture.image

Ablation Results

作者进一步深入进行消融研究，以分析作者方法中每个组件的有效性。所有消融实验都是采用Vicuna-7B作为LLM（大型语言模型）以及与LLaVA-1.5 [33]相同的数据进行模型训练。

不同的视觉投影器。首先，作者在LLaVA-1.5的基础上，将作者提出的TokenPacker与包括Resampler [4]、C-Abstractor [7]、Pixel-Shuffle [9]以及最近的LDP-v2 [12]在内的各种先前视觉投影器进行比较。作者用各种投影器替换原始的MLP，并保持相同的设置以进行公平的比较。为了反映推理速度，作者采用每秒 Token 数（TPS）指标来评估LLM的吞吐量。表3报告了比较结果。与MLP投影器相比，所有其他视觉投影器有效地减少了视觉 Token 的数量，并且在推理速度上有显著的提升（大约5 对比 25 TPS）。作者的视觉投影器在仅用144个 Token 的情况下，相对于使用576个 Token 的MLP实现了平均性能提升+0.8%。特别是在MM-Vet [58]、POPE [29]和VizWiz [18]基准测试中，作者的方法分别比基于MLP的方法性能提高了+1.9%、+1.1%和+2.0%。与其他方法相比，作者的方法超过了先前最佳方法LDP-v2 [12]达+1.6%。在64个 Token 的场景中，作者的方法达到了61.9%的平均性能，与基于MLP的方法相当（61.9% 对比 62.0%），并且比LDP-v2 [12]高出+1.3%。这些结果证明了与先前方法相比，TokenPacker的有效性。

不同的图像切片方案。然后，作者将作者的动态图像切片方案与现有针对高分辨率图像的方法进行了比较。在这里，作者列举了之前研究中的两种典型方法。第一种是在LLaVA-1.5-HD [33]中提出的。它首先将原始图像调整为固定的大分辨率（例如672×672），然后将图像划分为较小的图像块。为了简洁起见，作者将这种方法称为"FixedSplit"。第二种是UReader [56]中提出的形状自适应裁剪方案。这个模块也考虑了保留图像的分辨率，裁剪网格适应输入图像的宽高比。然而，在小规模调整大小时，仍然存在不考虑填充数量的情况。作者为了明确起见，将这种方法称为"AdaptiveSplit"。为了便于公平比较，作者通过采用作者的TokenPacker作为视觉投影器重新实现了这两种方法。如表4所示，作者提出的动态图像切片方案在大多数基准测试中优于之前的方法。特别是对于与OCR相关的基准测试，如VQA、OCRBench，包括AdaptiveSplit [56]和作者方法的保持比例的方法，分别超过FixedSplit +1.0%/+1.6%和+5/+9。

逐组件分析。表5报告了作者的方法的逐组件实验结果。首先，作者直接使用视觉编码器中的2×下采样特征图作为低分辨率视觉嵌入，以馈送MLP投影器，产生144个视觉标记。作者将此作为 Baseline 方法，在VQA、GQA和VQA基准上分别实现了76.4%、60.3%和55.3%的准确率。

picture.image

图4：代表性场景的定性比较。作者的方法（144个标记）能够正确处理内容细节，并促进高效的图像理解。此外，作者的高分辨率方法能够捕捉到比原始LLaVA-1.5更精细的元素。

作者随后添加了作者的注入模块，它将高分辨率特征注入到待提高的低分辨率 Query 中。注入模块分别比 Baseline 方法获得了+1.1%、+1.3%和+1.2%的性能提升。随后，当作者改变（） Query 从低分辨率特征图到一个可学习的 Query 时，性能分别下降了-1.4%、-1.8%和-1.3%。结果表明，下采样的低分辨率特征图提供了吸收更精细的高分辨率特征的基础。作者进一步采用多级视觉特征作为注入模块中的综合参考键和值，而不是单一 Level 的特征。这分别带来了+0.4%、+0.3%和+0.7%的改进。最后，作者增加了针对高分辨率图像理解的照片切片方案，模型分别获得了+2.0%、+1.3%和+6.8%的改进。当作者移除（-）分隔符标记，即逗号（', '）和换行符（'\n'）时，结果显示性能分别下降了-3.3%、-2.1%和-5.7%。这些结果证明了在图像切片方案中保持2D图像结构信息的重要性。

结论和局限性

在本工作中，作者为MLLM提出了一种新颖的视觉投影器，名为TokenPacker。作者的方法遵循从粗到精的设计，有效地将丰富的高分辨率图像特征浓缩为紧凑的视觉标记。

作为扩展，作者进一步提出了一种有效的动态图像分割方案，以执行高效的高分辨率图像理解。作者在不同的基准上进行了广泛的实验，以验证作者方法的有效性。值得注意的是，作者的TokenPacker可以有效地将LLaVA-1.5中的视觉标记减少75%89%，并且在显著提高效率的同时保持相当或更好的性能。

局限性。作者的TokenPacker通过将视觉标记压缩高达89%提供了值得称赞的性能，但并非完全没有损失。具体来说，当减少到32（6%）或更少的标记时，性能明显下降。作者致力于推进作者的研究，以开发具有非常少标记的更复杂的视觉投影器，以便在MLLM中进行高效的视觉理解。

参考

[1].TokenPacker:

点击上方卡片，关注「AI视界引擎」公众号

将视觉标记压缩了75%至89% ：TokenPacker 如何优化多模态大型语言模型 ？

1 Introduction

2 Related Work

Multimodal Large Language Models (MLLMs)

Visual Projector in MLLMs

High-Resolution Understanding with MLLMs

3 Method

Revisiting Multimodal Large Language Models (MLLMs)

TokenPacker: an Efficient Visual Projector

High-Resolution Image Understanding with TokenPacker

4 Experiments

Implementation Details

Datasets and Benchmarks

Main Results

Ablation Results

结论和局限性

参考