轻量级视频压缩（LVC）：以最小成本迁移长视频理解能力，解决VLMs采样问题并提升多模型性能！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

长视频理解是一项复杂的任务，需要同时具备空间细节和时间感知能力。虽然视觉语言模型（VisionLanguage Models, VLMs）通过多帧输入获得了帧级理解能力，但由于Sparse采样策略，它们存在信息损失的问题。相比之下，视频大语言模型（Video Large Language Models, Video-LLMs）能够捕捉视觉特征中的时间关系，但受限于高质量视频-文本数据集的稀缺性。

为了以最小的数据和计算成本将长视频理解能力迁移到VLMs，作者提出了轻量级视频压缩（Lightweight Video Compression, LVC），这是一种采用 Query -注意力视频压缩机制的新型方法，有效解决了VLMs中的Sparse采样问题。通过仅使用10k对短视频-文本数据进行训练，LVC显著提升了VLMs的时间推理能力。

大量实验表明，LVC在各种模型（包括InternVL2系列和Phi-3.5-Vision）上均提供了持续的性能提升。值得注意的是，InternVL2-40B-LVC在长视频理解基准MLVU和Video-MME上的得分分别为68.2和65.9，相对提升分别为4.6%和7.7%。

引言

大语言模型（LLMs）的快速发展推动了视频理解研究范式的转变，从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中：在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型（VLMs）。

视频语言模型Video-LLMs建立了视频文本对齐[15, 35]，将序列帧特征投影到LLM的文本空间。尽管Video-LLMs通过视频预训练展现出卓越的时间感知能力，但它们的实际应用面临两个关键 Bottleneck ：高质量视频文本数据集的有限可用性[31, 32]以及高昂的计算成本。相比之下，通过将时间采样帧处理为离散的视觉输入，视觉语言模型VLMs在短视频理解任务中表现出惊人的能力[5, 20, 50]。它们强大的空间推理能力源自大型图像文本数据集，使其在时间 Anchor 定[13, 15, 35]和视频描述[6, 27]等任务中能够匹配甚至超越专门的视频架构。

然而，Sparse采样策略在处理长视频时面临挑战。LLM的有限上下文长度限制了采样帧的数量，导致显著的信息损失，并损害了捕捉视频细粒度细节的能力。为解决这一问题，Video-LLMs引入了记忆模块[14, 40]或压缩模块[35, 48]。然而，这些方法大多严重依赖大规模预训练或微调，未能有效利用现有VLMs的能力。

作者的核心见解是，当前的视觉语言模型（VLMs）已经具备视频任务所需的帧级理解能力，但Sparse采样策略无法提供足够的感知信息和时序建模能力。包含足够运动线索的短视频片段建立了一个时序基准，使模型能够获取时序感知。这种时序知识可以随后迁移到长视频理解中，从而在不依赖大规模预训练的情况下提供一种稳健的解决方案。

基于这一见解，作者提出了轻量级视频压缩（LVC），该技术引入了新颖的无参数 Query -注意力视频压缩机制。该机制将离散采样特征转换为连续动态表示。在输入 Query 的引导下，LVC从长视频中提取关键信息，在抑制无关细节的同时提供更完整的视频表示。通过仅训练VLMs的对齐层（约1000万个参数），LVC成功地将VLMs演变为视频理解模型，充分利用了VLMs的能力。

LVC增强的VLMs在长视频理解基准测试MLVU和Video-MME上实现了持续相对改进。与依赖数百万图像-文本对和数十万个视频-文本对进行预训练的Video-LLMs[15, 39]甚至更多[7]相比，LVC仅需10k视频对。

此外，InternVL2-8B-LVC可以在单个H100-80G GPU上5小时内完成训练，为高性能视频理解模型提供了一条低成本且高效的路径。总之，作者的主要贡献如下：

无参数 Query 注意力视频压缩。作者提出了一种基于 Query 引导的视频动态表示方法，该方法增强了视频语言模型（VLMs）的时间感知能力。这是一种即插即用方法，适用于将视频处理为图像帧序列的任何VLMs。

一种轻量级长视频理解框架。作者提出了一种将视觉语言模型（VLMs）转换为视频模型的轻量级框架。通过仅使用10k个短视频训练对齐层，VLMs的帧级图像-文本理解能力被充分利用于长视频理解任务。

LVC增强模型。作者引入了InternVL2-8B/26B/40B-LVC和Phi-3.5-Vision-LVC（4B），持续提升VLMs在零样本长视频理解基准测试MLVU和Video-MME上的性能。具体而言，InternVL2-40B-LVC在这些基准测试上取得了68.2和65.9的分数，相对提升分别为14.6%和7.7%。值得注意的是，InternVL2-40B-LVC在MLVU上超越了GPT-4o。

相关工作

2.1. 视觉语言模型

视觉语言模型旨在利用视觉模态的信息执行基于语言的任务。早期的视觉语言模型[34]采用对比学习来对齐视觉和语言嵌入。随着大语言模型的快速发展，视觉语言模型进化为利用大语言模型的能力来处理复杂的视觉语言任务。这些模型主要由三个主要组件构成：视觉编码器、模态对齐模块以及大语言模型主干结构，例如[9, 42]。模态对齐策略范围从简单的线性投影[25, 44, 56]到更复杂的方法，如具有可学习 Query 的Q-Former模块[19]或交叉注意力机制[2, 45]。这些模型通常在大量的图像文本语料库上进行大规模预训练和指令微调[21, 25]，在各种视觉语言基准测试中展现出强大的性能。此外，[8, 44]统一了单图像、多图像和视频数据，在多模态任务中取得了显著改进。

2.2. 视频大语言模型

随着大语言模型（LLMs）迅速成为研究热点，许多研究将LLMs与视觉编码器相结合，利用LLMs的语言理解和生成能力处理视频任务。早期研究，如[20]，采用视频Transformer作为编码器，随后通过Q-Former压缩视频特征。后来，视频LLMs倾向于使用预训练的视觉编码器处理固定数量的采样帧。[31, 32]采用冻结的视觉Transformer，而[23]利用[55]对视觉特征进行预对齐。随后，视频LLMs结合压缩模块在LLMs的上下文长度内处理更多输入帧。[3, 51]使用池化方法压缩视觉 Token ，[35]采用双层Q-Former，[16]应用时空聚类。随着压缩模块设计的演进，[39]引入视觉摘要 Token ，而[30]实施先缩放再压缩的策略。这些方法依赖于大规模视频数据集以及压缩模块、对齐层和LLMs的多阶段训练，以牺牲训练和数据成本为代价换取性能。

2.3. 长视频理解

长视频理解面临挑战，因为高信息密度与LLMs有限的上下文窗口相冲突。一种方法是分层处理。[24]使用场景检测对视频进行剪辑，然后采用GPT4V理解片段级视频。[46, 49]展示了基于 Agent 的框架，其中LLMs通过动态调用和输出合成策略性地协调视觉模型。[36, 47]通过自适应的基于树的视频表示促进LLM对长视频的推理。

另一种方法是专注于长视频表示。[14, 40]采用记忆机制迭代存储和检索视频帧特征。[22]使用上下文注意力用两个不同的 Token 表示每一帧，而[48]应用了 Token 合并模块。[28]逐步提高分辨率和输入帧以适应长视频。分层方法在设计上通常较为复杂，且未能充分利用视频表示信息，而数据驱动的Video-LLMs依赖于高质量的视文字对进行训练，这在规模上难以获取。

方法

3.1. 视频理解问题表述

Video-LLMs密集采样 $M$ 帧，并应用特征变换以确保视觉特征符合LLM主干网络的输入约束。帧数 $M$ 可设置为64、128或256等值[18, 29, 52]，这使得Video-LLMs能够相比于VLMs捕获更多的时序信息。然而，由于采样的 $M$ 帧需要经过特征变换以匹配LLM主干网络的输入要求，这要求对压缩模块、对齐层以及LLM本身进行联合训练。

与其使用长视频文本对数据进行整体模型训练，它采用了一种无参数的压缩机制，将特征转换为与真实帧结构高度相似的形式——包括形状和token ConCat （包括特殊字符）。这些压缩后的特征被称为伪图像帧，它们不依赖于大规模数据驱动的预训练或微调。

3.2. 模型架构

LVC旨在以低训练成本扩展VLM以实现长视频理解。如图2(c)所示，整体架构通过视觉编码器、无参数压缩模块、对齐层和LLM主干结构整合多帧时序信息。LVC引入更密集的帧采样以捕获细粒度时序信息，然后通过无参数压缩模块将其压缩为"伪图像"。

picture.image 与图2(a)(b)中展示的VLM和VideoLLM的预训练范式不同，唯一可训练的组件是对齐层，该层将压缩特征投影到LLM主干机的文本空间中。这种设计使得经过充分预训练的VLM能够快速适应长视频输入，无需微调LLM主干机，从而在参数效率和时序感知能力方面均取得显著效果。

在计算复杂度方面，llm-LVC_2504仅增加了视觉编码器的计算量，同时保持LLM端的处理不变，为长视频理解提供了一种新颖的解决方案。

3.3. 将 Query 注入视频压缩

密集采样帧通常包含冗余信息，直接将真实帧特征按顺序连接将远超LLM输入限制。为此，作者提出了Query-Attention视频压缩机制，该机制利用文本模态保留视频理解所需的关键信息。

该过程使模型能够自适应地调整窗口中每个 Token 的重要性，根据其与 Query 的相关性调节帧特征，从而提高模型捕获和处理时间依赖性的能力。

此外，作者观察到多头机制在压缩过程中引入了更多的多模态权重信息。作者完整的压缩机制的伪代码在补充材料中提供。

实验

4.1. 数据集和基准测试

Video-ChatGPT [32] 是一个常用于通用视频理解任务的指令微调数据集，包含13,303个视频和100,010个视频文本对，采用人工辅助和半自动方法进行标注。视频的平均时长为117秒（短视频）。在作者的实验中，随机选取了10,000对作为子集 Video-ChatGPT-10K 来训练VLMs的对齐层。对数据进行的消融研究表明，LVC不是一种数据驱动方法，这显著地将其与预训练范式区分开来。

MLVU [54] 是一个多任务长视频理解基准。作者在多项选择题 $(M L V U\_{M})$ 上评估 LVC。视频的平均长度约为 15 分钟，范围从 3 分钟到 2 小时。LVC 在七个子任务上均取得了全面提升，包括动作顺序、动作计数、主题推理、异常识别、情节问答、自我推理和针式问答。

Video-MME [12] 包含900个视频和2700个高质量的选择题标注，包括短视频（0-2分钟）、中等视频（4-15分钟）和长视频（30-60分钟）。作者在使用LVC增强前后对VLMs进行评估，且不使用字幕，因为采样视频帧比VLMs的输入帧包含更多字幕，从而确保了公平的比较。

4.2. 实验设置

作者在Video-ChatGPT10K数据集上进行了所有实验，该数据集对于两个基准测试都是零样本的。考虑到平均持续时间

Video-ChatGPT-10K子集时长不足两分钟，作者将每视频采样帧数固定为64（约0.5 fps）。压缩后，伪图像帧数设置为2、4、8和16，使作者能够全面评估不同模型在不同输入帧数下的性能。

作者通过仅训练模型的对齐层进行所有实验，具体的训练参数和总参数数量详见表1。从数据和参数的角度来看，LVC是一种轻量级方法。此外，由于它不微调LLM，LVC仍然是一种即插即用的方法，确保与各种VLM架构的兼容性。

picture.image

4.3. InternVL2系列结果

LVC方法通过引入额外的视觉信息，以极低成本提升了InternVL2模型系列的长期视频理解能力。在MLVU基准测试中，三种模型规模分别实现了相对提升9.6%、6.1%和14.6%。在Video-MME基准测试中，相对提升分别为2.6%、5.9%和7.7%。值得注意的是，InternVL2-8B-LVC表现优于InternVL2-40B/76B模型，而InternVL2-40B-LVC在MLVU基准测试中超越了GPT-4o。
InternVL2-40B-LVC在两个基准测试及其各自子任务中均实现了持续改进。这可归因于其更大的规模和更高质量的预训练数据。LVC通过结合更密集的视觉输入，有效解决了VLMs在时间推理中的信息Sparse性问题。
LVC在MLVU上的性能优于Video-MME可能归因于训练数据的长度有限。训练过程中采样的帧数不足以代表5ideo-MME中的小时长视频。相比之下，MLVU视频的时长方差较小，主要在5至15分钟之间，这使得64帧采样能更有效地代表这些视频。

picture.image 据作者所知，LVC是首个用于提升长视频理解能力的VLM增强方法，为与Video-LLMs不同的新型研究方向奠定了基础。其核心贡献在于利用VLM的高质量预训练来提升时序推理能力，而无需进行大量视频特定的预训练。

LVC 保留了伪图像帧格式，包括视觉特征维度和特殊 Token 。由于沿 Token 维度的窗口策略允许

4.4. 输入帧分析

LVC方法在不同压缩率下为不同尺度的InternVL2提供了稳定的性能提升，在MLVU上观察到的改进更为显著。具体而言，InternVL2-40B在帧率 $scriptstyle=2/4$ 时分别实现了 $27.9\%$ 和 $24.7\%$ 的相对性能提升。
LVC的性能提升随着压缩率的增加而变得更加显著。这是因为输入帧减少，VLMs可用的信息量也随之减少。另一方面，这也突显了LVC即使在高压缩率下也能保留更多信息的能力。
随着输入帧数的增加，使用LVC增强的模型性能提升变得更加平缓。例如，在帧数等于4/8/16时，InternVL2模型之间的性能差异相对较小。这展示了LVC的潜力，因为它即使只有较少的输入帧也能提供丰富且有效的信息。

通过 Query -注意力机制聚合相似token，压缩视频特征与真实图像帧保持紧密对齐。因此，视觉语言模型仅通过对齐层即可学习伪图像帧的视觉表征。

总之，LVC是在有限计算资源下提升VLMs的一种极具前景的方法。通过高效地表示伪图像帧，它提供了长视频理解所需的视觉信息

在VLMs中的参与。

4.5. 消融实验

数据消融：表4展示了数据消融研究的结果，其中作者比较了在Video-ChatGPT-10K上训练的InternVL2系列模型有和没有LVC的性能。通过对比Origin和Trained，作者可以得出结论，LVC方法并非通过在视频数据上进行训练来提升性能，而是通过其增强的表示机制。

picture.image Video-ChatGPT-10K的主要作用是帮助增强模型理解伪图像帧表示，因为该模型在预训练过程中并未与压缩视觉特征对齐。

数据规模消融实验：作者在Video-ChatGPT10k数据集上添加了InternVL2-8B在不同步骤的性能表现，如图4所示。作者可以得出结论，LVC仅使用小规模数据集（约1000步）即可实现相当好的性能，表明其适应速度快。在1000步之后，长视频理解能力增长缓慢。

picture.image 作者使用10k数据集作为性能与训练成本之间平衡的选择，同时也便于在不同模型和压缩率之间进行对比实验。

组件消融：表5展示了组件消融研究，其中作者分别移除了QueryAttention Video Compression机制本身以及内部的多头机制。前者等同于平均池化。基于结果，作者可以得出以下结论：

Query 提供多模态信息，并在LVC的视频压缩过程中发挥指导作用。
多头机制增加了权重数量，从每个窗口一个权重变为每个窗口多个权重，对应于注意力头的数量。更细粒度的加权与性能呈正相关。

3 即使移除某些组件，使用LVC增强的模型在长视频理解任务中仍能取得比原始模型更好的性能。这是因为LVC的核心优势在于弥补VLMs中信息损失，而VLMs依赖于Sparse采样的帧作为多图像输入。

4.6. Phi-3.5-Vision上的结果

作者选择了一个小规模模型 Phi-3.5-Vision (4B) [1]，并在使用LVC方法增强前后评估其性能。结果如图5所示。

picture.image 然而，由于数据集质量低或数据与模型之间存在不兼容性，直接训练模型导致在两个基准测试中均出现性能下降。这种现象在InternVL2中也观察到。

从图中可以看出，LVC在MLVU上实现了持续改进，平均提升幅度为5.4。同样，在Video-MME上，排除数据影响后，LVC也表现出持续改进的趋势，平均提升幅度为2.5。这证实了LVC对其他VLM的可扩展性。

讨论与未来工作

作者提出的LVC方法的核心思想是使VLM能够处理更丰富、连续的视频内容表示。通过引入 Query 注意力视频压缩机制，并将压缩特征表示为伪图像帧，作者有效地减少了与传统依赖大规模预训练和微调的Video-LLMs相比的数据需求和训练参数。

与视频LLMs相比，作者的实验结果初步证明了另一种研究方向的效力——通过轻量级压缩增强VLMs。此外，通过密集采样引入额外信息，LVC可以在不修改LLM主干的情况下增强更强大VLMs的时间感知能力，从而提供灵活性和适应性。对LLMs的零修改方面使得LVC能够轻松应用于需要长视频理解的不同架构和任务。作者设想了LVC的几种扩展方式：

自适应采样与压缩：根据视频长度和内容动态确定采样率和压缩率，优化信息保留与计算成本之间的权衡。
High-Level压缩机制：研究更复杂的策略，如分层压缩或更鲁棒的相似性度量，以进一步提高压缩效率。
多重对齐层：为处理不同视频长度或内容类型分配特定的对齐层，可能提高跨各种场景的泛化能力。
结论

作者提出了LVC，并设计了一种有效的Query-Attention视频压缩机制，以弥补由Sparse采样在视频语言模型（VLMs）中造成的信息损失。与常见的视频LLMs不同，LVC在数据和训练参数方面都非常轻量级。通过仅训练对齐层，LVC可以轻松扩展到其他VLMs。

大量实验证明了LVC的优越性，为增强长视频理解任务中的VLMs提供了一种新的研究方向。

未来，作者将继续扩展LVC，以提高其实际应用能力。

轻量级视频压缩（LVC）：以最小成本迁移长视频理解能力，解决VLMs采样问题并提升多模型性能 ！