新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！ - 文章 - 开发者社区

picture.image

视频描绘了一个在夜晚走在街上的女性。她穿着黑色皮夹克和太阳镜，并携带一个黑色手提包。街道是湿的，表明刚刚下过雨。背景中还有其他人，但他们并非视频的焦点。这位女性似乎是主角，她在有目的地行走。视频的整体氛围是黑暗和情绪化。

视觉语言预训练已显著提升了广泛图像语言应用的表现。然而，针对视频相关任务的预训练过程需要特别大的计算和数据资源，这阻碍了视频语言模型的发展。

本文研究了一种简单、高效且资源轻量级的方法，用于将现有的图像语言预训练模型适应于密集视频理解。作者的初步实验表明，直接在视频数据集上用多帧作为输入微调预训练的图像语言模型会导致性能饱和甚至下降。

作者进一步的研究发现，这主要归因于学习到的高范数视觉特征的偏差。受这一发现的启发，作者提出了一种简单而有效的池化策略，沿着时间维度平滑特征分布，从而减少极端特征的主导影响。新的模型称为池化LLaVA，简称PLLaVA。

PLLaVA在现代基准数据集上为视频问答和字幕任务实现了最新的最佳性能。值得注意的是，在最近流行的Video ChatGPT基准测试中，PLLaVA在五个评估维度上平均得分为3.48分之5，超过了之前GPT4V（IG-VLM）的SOTA结果9%。

在最新的多选题基准MVBench上，PLLaVA在20个子任务上平均达到了58.1%的准确率，比GPT4V（IG-VLM）高出14.5%。

代码可在https://github.com/magic-research/PLLaVA获取。

1 Introduction

多模态大型语言模型（MLLMs）在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似，最近的视频理解模型也探索了类似的流程，在大规模视频-文本数据上对LLMs进行微调。然而，这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。

对于图像MLLM适应的直观方法是编码多个视频帧到特征序列，并直接将它们输入MLLMs中，因为大型语言模型（LLMs）天生适合处理序列特征，并且已被证明能够理解时间信息。

然而，作者通过这种方式将图像MLLMs扩展到视频数据时，实证发现了两个技术挑战。首先，与零样本应用相比，在视频数据上训练图像MLLM并不总是能提高性能，反而使性能容易受到询问提示变化的影响。

其次，增加语言模型组件的大小并不改善视频理解性能。这两个观察结果是反直觉的，因为扩大模型规模和将模型暴露于更多下游数据通常被认为对模型性能有益。

然后，作者进行了一系列研究以调查这两个观察结果的根本原因。对于第一个问题，作者发现这主要是由于图像编码器编码的信息有限。在LLaVA 上用4帧输入进行实验时，作者实验性地发现，如图3所示，在微调过程中，一些视觉特征 Token 的范数明显大于其他 Token 。这些 Token 导致质量较低的短文本描述。

如图2所示，随着更多样本的训练，4帧模型倾向于生成较短的文本。作者推测，由于自注意力过程中的softmax计算，大范数特征获得了全局视频信息，从而抑制了其他 Token 的范数。这导致生成的描述变短。更糟糕的是，如果提示模板发生变化，学习的MLLMs将完全崩溃，导致描述非常短，甚至没有回应。作者观察到，添加更多视频帧可以减轻大多数 Token 的抑制。然而，这将导致内存消耗显著增加。

picture.image

因此，在帧数和计算成本之间存在一种权衡。直观的方法是对视频帧进行下采样。然而，像在VideoChatGPT [30]中所做的那样，直接平均空间和时间维度会丢失太多的空间信息，并且在训练数据集缩放时也无法达到最佳性能。因此，目标是找到每个帧的最小空间分辨率，使其不会降低缩放曲线的性能。为了实现这一点，作者采用了一种池化[15]操作来探索最佳设置，使其不会降低增加时间感受野的好处。池化操作的影响如图7所示。

picture.image

对于第二个观察到的现象，作者认为一个主要原因是与图像数据集相比，视频数据集的质量较差。具体来说，许多视频数据集采用问答格式，而且视频的描述可能很短。因此，当模型从视频数据集中学习时间描述时，其他指标（如物体和空间关系）的描述会退化。模型越强大，输出退化得越快。作者没有构建高质量的视频数据集，而是选择探索架构和优化算法，以便在从视频数据集中学习时间信息时更好地保留在图像数据集中学到的信息。为了实现这一点，作者利用了权重融合的技巧。作者设置了两组权重：一组来自图像预训练，一组来自视频数据集微调。训练后，作者搜索图像基础模型权重和视频基础模型权重的最佳组合，希望组合模型能从两个数据集中受益。本文将这个过程称为后训练优化，其影响如图5所示。

picture.image

作者对直接将图像大型多模态模型应用于视频任务进行了彻底的初步研究，并发现了几种失败模式。然后作者引入了一种简单而优雅但非常有效的池化策略，它系统地实现了训练效率与字幕准确度之间的最佳平衡。作者提出了一种后训练模型合并方法，可以有效地减少大型语言模型在多模态微调过程中遗忘现象。通过这种方法，作者能够获得一个拥有34B语言模型的大型视频多模态模型，而无需额外创建高质量的数据集。作者进行了广泛的实验来验证所提出模型的优越性，并在各种视频理解基准测试中取得了新的最先进成果，尤其是在具有密集字幕的视频字幕任务上。通过Pool-LLaVA，作者对来自Panda-70M的前100万个视频数据进行了重新字幕标注，生成了高密度且准确的双语字幕。

2 Related Works

图2：4-Frame和PLLaVA生成文本长度分布的直方图。x轴为文本长度，y轴表示文本长度的计数。在更多的训练步骤和分布外提示下，4-Frame生成了较短的文本，而PLLaVA在这两种情况下保持一致。

视频多模态大型语言模型视频多模态模型处理视频输入并根据用户命令生成回应。通常，它们采用一个可学习的接口，包括投影网络[30; 22; 19]，跨模态注意力[17; 18]或模态感知器[45; 32; 12]。这些接口在将视频的空间时间动态与大型语言模型（LLM）的处理能力融合方面发挥了关键作用，通过将视频内容转换成LLM能够熟练分析的 token 序列。BLIP [16] 通过整合冻结的视觉编码器与BLIP来提高视频处理效率，只有新添加的Q-Former是可学习的，这标志着一项重要的里程碑。它在视频问答（VQA）中展示了卓越的零样本能力，超过了当时现有技术。扩展其前驱者的创新，Video-ChatGPT [30] 引入了视频指令调整的开创性方法，并创建了一个高质量教学数据集。这一举措为通过视频基于文本生成基准评估模型设立了新标准。VideoChat [17] 利用跨注意力机制巧妙地压缩视频token，将用户 Query 与对话上下文对齐，以增强模型的解释能力。在这些进展的基础上，VideoChat2 [18] 采用多阶段引导技术改进方法，专注于模态对齐和指令调整，并为指令驱动任务积累了高质量视频数据的强大集合。VILA [23] 提出了更先进的训练方法。进一步整合模态，Video-LLaVA [22] 利用了一个可适应图像和视频的预对齐编码器，促进了共享投影，并使图像和视频相关任务的协同训练成为可能。CAT [41] 引入了视频和音频以进一步增强理解。

长视频因其固有的高计算复杂性和大量内存需求而带来重大挑战。使用视频标记来处理长视频的整个范围，在有效联合捕捉空间细节和时间动态方面存在困难。为此，视频语言模型（Video MLLMs）采用了复杂的时间建模技术，以更高效地应对这些挑战。《MovieChat》[32] 在 Transformer 中实施了一种新颖的基于记忆的机制，策略性地组合相似帧以减少计算负载和内存占用。《Chat-UniVi》[12] 首次采用了一种协调处理图像和视频的方法，通过动态标记合并创新性地压缩空间和时间标记，并使用k-NN算法提高效率。《LLaMA-VID》[19] 创新地采用了双标记方法，通过将上下文和内容标记分离，有效地压缩视频表示，从而实现了更高效的压缩。《VTimeLLM》[10] 通过引入一个新的问答数据集来强调视频的边界。《Vista-LLaMA》[29] 在此基础上推出了EDVT-Attention和顺序视觉投影仪，精心策划视觉标记并压缩时间标记，然后通过Q-former机制逐步将它们融合。为了进一步优化对长视频的处理，某些模型强调选择性地处理关键帧，从而减少所需视频帧的数量并简化整体计算需求。

流水线式视频理解利用视频多模态语言模型（Video MLLM）框架，出现了一种新颖的方法，该方法通过多阶段视频模态转换过程，将预存在的视频模型与大型语言模型（LLMs）相结合。这种方法包括将视频内容转化为文本叙述，通常是通过使用预训练的视频语言模型（VideoLMs），在最后阶段与LLM整合。通过将视频封装为文本标记，它利用了LLM在处理文本数据方面的熟练度，从而允许通过这些精心制作的描述来解释时间序列。VideoChat-Text [17] 能有效地将视频流转化为全面的文本描述，囊括了多种视频元素。同时，LLoVi [44] 揭晓了一种高效、以LLM为中心的框架，专为处理跨越长视频时长的问题而设计。在这里，视频字幕代理将视频转录为详细的文本描述，然后LLM对这些描述进行提炼，以增强对长时长视频的理解。尽管上述方法主要将视频转化为文本以供LLM处理，但LLM同时也在探索其通过程序生成来辅助视频分析的能力。ViperGPT [34] 是一个开创性的例子，它利用能生成代码的LLM，包括GPT-3 Codex [4]。它有效地使用了一个面向文本 Query 的视觉模块API，并编制出检查图像或视频内容的程序，为这些 Query 提供有根据的响应。同样，ProViQ [5] 利用LLM编写Python脚本，在零样本视频 Query 的背景下执行多阶段程序推理，处理这些脚本以确定提出问题的解决方案。

3 Method & Analysis

在本节中，作者将首先介绍在将图像MLLM扩展到视频领域时遇到的一些挑战，这些挑战来自于作者全面的实验和分析。接着，作者将提出这些挑战的相应解决方案，形成PLLaVA的整体框架。

Failure Cases Analysis for Applying Image MLLMs

作者首先探索了一种直接将图像MLLMs（多语言学习模型）适应到视频领域的方法：分别用图像编码器编码选定的视频帧，并将这些帧特征拼接起来作为图像MLLMs的输入。这样做是为了利用LLMs（大型语言模型）解释编码视频帧中时间信息的能力。

作者将这种方法称为_n-frame_。具体来说，对于给定的一组视频帧序列，作者通过在CLIP-ViT [31]模型中预训练的视觉编码器获得每个帧的特征，编码后的帧特征表示为。_n-frame_方法的公式如下：

其中是文本输入，r是输出文本。然而，在作者尝试用这种方式训练MLLM的过程中，作者遇到了两个问题，这些问题阻碍了作者实现最佳性能模型的努力。

第一个观察是，用_n-frame_训练的模型在处理生成任务时可能对提示模式非常敏感。图3展示了这种现象。作者将提示分为两类：分布内（IND）和分布外（OOD）。在图的左侧，当在训练使用的提示模式（IND）下生成时，尽管模型倾向于在训练更多数据样本时生成更短的文本，但它仍能生成关于视频的不错描述。然而，如果作者用OOD提示来提示模型，即作者仅改变对话中两个角色的标签，生成的响应质量就会急剧下降。在训练了3750步的模型下，生成的内容长度正常。但对于训练了7500步的模型，生成变短，而在11250步时甚至没有响应。这个例子展示了_n-frame_方法的脆弱性。

主导 Token 。鉴于上述_n-frame_模型的脆弱性，作者继续分析模型在训练初期和完全训练后的变化。通过可视化在不同训练阶段训练的模型中视觉 Token 的范数，作者观察到随着训练样本的增加，出现主导 Token （具有高范数）的趋势，如图3中的直方图所示。此外，当使用更多数据训练时，双塔分布要宽得多。因此，作者推测这些主导 Token 与在OOD提示下生成退化的可能性之间存在一种合理的关联。第4.4节中将通过比较_n-frame_和提出的PLLaVA的分布进一步验证这一猜想。

基于上述现象，可以推理出将图像MMLMs用于视频并寻求从视频数据样本的扩展中受益可能会带来一个挑战性问题。作者在图4中展示了_n-frame_方法在不同训练样本下的性能曲线。代表_n-frame_性能趋势的蓝色曲线在IND提示下保持停滞，在训练样本超过0.48M后，在OOD提示下性能大幅下降。在Video-ChatGPT [30]的实验发现中也观察到了类似的模式，具体见表1。Video-ChatGPT [30]引入了一种独特的池化策略，涉及在时序维度以及空间维度上平均视觉特征，拼接后得到视觉特征。然后这个特征被输入到LLMs以生成相应的响应。表1的前两列展示了作者使用他们的10万视频-文本数据集复现Video-ChatGPT的情况，而第三列显示了在引入VideoChat2 [18]的额外训练视频数据样本后，模型性能的显著恶化。因此，确定模型有效利用不断增长数据量的策略仍然是一个关键问题。

picture.image

Model Scaling Degradation

表1：视频-ChatGPT [30] 在数据扩展方面失败。

作者对当前视频模型的调查发现，增加模型大小通常并不会在大多数模型上带来显著的性能提升。作者在图5中绘制了最近的工作 IG-VLM [14] 和作者尝试的性能。当应用 LLaVA-Next [25] 的7B、13B和34B模型时，IG-VLM 几乎没有差异。在作者尝试的使用池化特征的情况（图5的第一列），LLaVA-Next 34B 的性能甚至比其13B LLaVA-Next 模型还要差。对于 IG-VLM，输入视频帧被组合成一个受限于分辨率的网格视图图像，导致扩展能力不理想。至于作者的尝试，作者发现随着 MLLM 模型中 LLMs 的大小增加，生成趋向于更短。因此，作者将退化归咎于视频-文本数据对的的质量，这破坏了 MLLM 模型中 LLMs 的生成能力。

PLLaVA

动机：作者最初在_n-frame_ 和 VideoChatGPT [30] 上的尝试揭示了将以图像为中心的多语言学习模型（MLLMs）适应视频领域的复杂性，并遇到了数据缩放问题。前者由于内存限制引入了少量的帧，而后者通过池化策略压缩了超过100帧的信息。然而，这两种情况都产生了相似的结果。

鉴于时间信息的必要性以及处理非常长视频输入到MLLMs的禁止成本，池化是一种直观且简单的方式来满足这两个要求。上述两个问题可能源于帧信息的不足和对帧特征的错误处理。因此，在本文中，作者深入研究了MLLMs中用于视频特征的池化策略。

定义：作者将视频特征的池化过程形式化如下，模型结构如图6所示。在将视频帧输入到CLIP-ViT模型和多模态投影器后，作者得到了一个编码的视频特征用于视频输入。这个特征随后通过一个无参数的Adaptive Structure Pooling模块，并缩减到更小的尺寸。给定期望的特征维度，该过程被公式化为：

picture.image

这些特征随后与文本输入嵌入 ConCat ，并输入到LLM以生成响应。作者还包括一个LoRA [9] 模块以适应LLM到视频相关生成任务。总之，将要更新的权重是多模态投影器和LLM LoRA。

在这个框架内，作者通过网格搜索分析研究了池化的影响。作者的发现表明，在空间维度上的池化能产生有利的结果，而时间维度上的池化与性能下降有关。为了彻底探索作者的搜索过程以及这一结论背后的理由，请参考第4.2节。

Post Optimization

关于与模型规模扩展相关的性能下降问题，这种退化可能源于在低质量的视频-文本数据样本上训练导致的语言熟练度降低。为了缓解这一问题，作者提出了一个针对视频MLLM参数的后训练优化方法。该方法涉及将已在视频数据上训练的语言模型（LLM）与基础图像MLLM的原始LLM进行融合。对于具有LLM参数的预训练MLLM和给定的输入，可以通过以下方式获得经过LoRA微调的LLM的输出隐藏状态：

其中是用于适配的可学习低秩参数，用于缩放学习到的低秩权重。

在作者的后训练优化过程中，作者通过在推理时改变的值来调整原始LLM和训练后的LLM（包含LoRA权重）之间的混合比例。作者的实验表明，较低的值可以显著提高生成性能。

4 Experiments

第四部分实验开始

Experiment Setting

数据和评估作者利用教学视频到文本数据集，将图像MLM的能力扩展到处理视频输入。训练数据来源于VideoChat2数据集[18]，该数据集包含了各种视频理解任务的数据，包括27k用于对话的数据，结合了VideoChat[17]和Video-ChatGPT[30]，8万分类数据来自Kinetics[13]和ShthSthV2[6]，45万标题数据来自Webvid[2]，YouCook2[47]，TextVR[37]和VideoChat，1.17万推理数据来自NextQA[38]和CLEVRER[42]，以及109K问答数据，这些数据来自Webvid，TGIF[20]和Ego4D[7]，总计78.3万教学调优数据。

作者使用以下视频到文本基准来评估作者训练的模型。首先，开放式的视频问答（Video Question Answer，VideoQA）包括MSVD-QA[39]，MSRVTT-QA[39]，ActivityQA[43]和TGIF QA[20]。这些问答基准中的回答通常由单个单词组成。作者使用GPT-3.5来评估模型回应的准确性（准确度，答案为真/假）和质量（分数，从0到5）。此外，作者还采用了由VideoChatGPT[30]引入的视频生成性能基准（称为VCG分数）。

这些基准通常涉及较长的答案，涵盖视频理解的五个方面：信息的正确性（CI），细节导向（DO），上下文理解（CU），时间理解（TU）和一致性（CO）。生成部分也使用GPT-3.5模型进行评估。此外，作者还使用了多选题问答基准MVBench[18]，它包括20项要求对视频进行细致的时间理解的任务。这个基准不需要由GPT-3.5模型进行评估。

模型和实施细节PLLaVA建立在图像MLLMs，LLaVA Next[26, 25]模型7B，13B和34B之上。作者使用他们在Hugging Face库1中提供的预训练权重，并集成一个自适应池化模块，在将输入视觉特征传递给LLM生成组件之前降低特征维度。对于池化层，作者统一选择16帧作为输入，并将目标池化形状设置为，其中对应于LLM的输入维度。在训练过程中，作者采用128的批处理大小和2e-5的学习率，采用余弦调度器和0.03的预热比。所有报告的结果都是在训练6250步后评估的模型。对于评估，作者在所有基准上采用GPT-3.5-turbo-0125模型。### 池化操作设计的影响

考虑到在Video-ChatGPT中采用的在时序和空间维度上的完全池化性能不佳，以及直接_n帧_方法中的限制信息，作者进一步在此探索池化策略的影响。

池化层设计池化可以在时序和空间上完成。在本部分中，作者旨在找出两个问题的答案：

哪个维度更适合进行池化以节省计算成本；
沿着该维度的最大压缩比是多少。为了实现这一点，作者基于不同的时序和空间维度通过池化操作控制的LLaVA-1.5 7B模型绘制了一条模型曲线。

具体来说，对于空间维度，作者选择了一个具有形状（4,24,24,）的输入视频特征，其中4是帧数（时序维度），24×24是帧特征的原始空间维度，是每个视觉 Token 的嵌入维度。目标空间形状是在1到24之间均匀间隔选择的，得到一组空间形状{}。这些空间池化形状的MVBench和VCG Score性能分别如图7(a)和7(b)所示。观察到将空间维度减少50%不会降低模型性能。进一步减少空间维度会导致性能显著下降。考虑到计算开销与性能之间的权衡，12×12可以作为目标空间维度。

作者进一步在时序维度上进行实验。在空间维度固定为12的情况下，选择了几个目标池化形状，包括（4,12,12）、（8,12,12）和（16,12,12）。作者研究当改变输入视频帧数时池化性能的趋势，这表明了池化的下采样率。例如，从（64,24,24）到（4,12,12）的池化意味着每16帧融合一次，那么下采样率应该是6.25%。所有产生的模型曲线如图7(c)和7(d)所示。与空间池化不同，模型性能对时序池化很敏感。如图7(c)和7(d)所示，所有线条在下采样率较低时性能更好。换句话说，_沿时序维度进行池化总是会降低模型性能_。

作者发现，在更多的视频帧上进行池化不仅提高了模型的效率，还使模型对用户 Query 更加健壮。在作者的实验中，作者用两组提示评估了在不同训练迭代下的模型。例如，在评估过程中，作者将角色标签从'USER'变为'Human'，结果如图3所示。该图显示，与显示主导token的4帧方法相比，通过池化操作学习的视觉特征规范在不同训练迭代下表现出一致分布。这也反映在模型响应中，池化方法给出了一致良好的文本响应，而4帧方法随着训练的进行，给出的文本响应越来越短，甚至在使用分布外的提示时没有响应。这个结论可以通过图2进一步验证。引入池化后，无论使用什么提示，或者学到了多少训练样本，池化方法的文本生成长度都是一致的。作者将生成稳定性归功于池化的平滑能力，它消除了主导高范数token的影响。从数学证明的角度进行更严谨的分析，作者将其留作未来的工作。

Qualitative Results

表2展示了在视频问答任务上的结果。PLLaVA 34B在MSVD、MSRVTT、ActivityNet和TGIF的准确性和得分指标上显著超过了所有现有方法。与GPT-4V相比，PLLaVA 34B在这四个基准上分别实现了3.6、4.9、3.9和15.3的改进幅度。具有7B和13B模型大小的PLLaVA在得分指标上也超过了所有 Baseline 。这些结果不仅证明了作者模型在执行视频问答方面的能力，也突显了作者在扩大模型规模时池化策略的优势。

picture.image

PLLaVA还在平均VCG得分上取得了最新的技术水平。7B、13B和34B版本在相同LLM尺寸的最好对手中均表现出色，分别提高了2.9%、7.1%和12.6%。值得注意的是，与之前的SOTA相比，PLLaVA在CI（信息的正确性）、DO（细节导向）和CU（上下文理解）方面的表现更佳，34B版本分别超过了5.8%、6.7%和9.2%。这些结果表明，PLLaVA在详细视频字幕生成方面具有巨大潜力。至于TU（时间理解），PLLaVA 34B比其公平对手IG-VLM LLaVA 34B高出6%。与那些利用专门的视频编码器VideoChat2或更复杂的帧组合方法Chat-Univ的模型相比，PLLaVA通过改进池化策略或融合更好的视觉编码器仍有提升空间。CO（一致性）衡量的是模型在遇到导致相似答案的不同问题时生成的一致性。与除IG-VLM以外的 Baseline 相比，作者的模型在一致性方面表现得更好。

MVBench是一个全面视频理解基准，关注于需要多帧整体理解的问题。如表3所示，PLLaVA在20项任务上的平均表现超过了之前的SOTA VideoChat2，提高了13.7%。如果作者深入到MVBench的每个方面，作者的方法在17个任务上表现非常出色，这表明作者的模型在准确理解视频的许多细粒度细节方面具有优势。然而，作者也注意到作者模型的某些方面仍需要改进，比如CI（反事实推理）和OS（目标Shuffle）。CI用于预测如果发生某个事件可能会发生什么，而OS用于定位遮挡游戏中的目标最终位置。这两个方面需要强大的推理能力和想象力来回答。VideoChat2使用专门的视频编码器在大规模视频数据上进行预训练，并使用视频和图像推理数据进行微调，因此在这些方面表现更好。### 分析

picture.image

作者的PLLaVA是一个简单且参数高效的将图像MLLMs适应到视频领域的方法。作者还提供了一种将模型扩大规模的可行方法，作者发现这在其他方法（如ChatUniv [12]和IG-VLM [14]）中难以实现。以下，作者进一步提供了一些关于池化形状的解释及其对LoRA权重在不同任务上影响的分析。

时间或空间池化？在4.2节中，作者说明了时间池化和空间池化的影响，结论是沿时间维度的池化与保留原始帧数相比，一致地导致性能下降。作者将这一现象归因于对标记特征的干扰。在图像MLLMs中，特征是通过CLiP-ViT模型从图像/视频帧中导出的，该模型为每个图像/视频帧生成嵌入的 Patch ，从而得到形状为的视频特征。池化改变了（时间）、（高度）和（宽度）的维度。与沿空间维度（在单个图像/帧上进行局部池化，改变和）的池化相比，沿时间维度（改变）的池化可能会改变原始帧特征的风险。为了验证这一猜想，作者在图8中可视化了空间和时间标记邻居之间的相似性对于一个视频特征。两个子图显示了空间邻居之间的相似性显著高于时间邻居。这一观察支持了时间池化可能导致原始标记特征失真的潜在可能性。

picture.image

LLM模型旨在理解序列。即使在没有对时间信息聚合进行预处理的情况下，它们也能建模时间关系。

图像？视频？还是两者兼有？训练后的优化被定义为将图像MLLM的LLM参数与从视频样本中学习到的LLM的LoRA权重相结合。合适的融合比例可能对提升在低质量视频-文本样本上训练的模型性能非常有效。在这里，作者讨论不同融合比例选择对理解性能的影响。如图9所示，x轴表示LoRA的alpha值。\begin{table}

picture.image

此外，从这两个图表中可以明显看出，结合视频和图像权重比在极端值0和32的情况下能带来更好的性能。

Case Studies

除了这些定量结果外，作者还定性地研究了PLLaVA模型的视频理解能力。作者在图10中展示了几个标题示例。根据视频片段，与IG-VLM相比，PLLaVA 34B对视频的识别更为详细，包括主角所穿的衣服、环境，甚至是视频中的某些文字。此外，如图10(b)所示，PLLaVA更能正确理解视频内容，其中人们是在打羽毛球而不是排球。IG-VLM犯下的这些错误可能是由于在方法设计中将帧拼接成网格视图时降低了分辨率所致。在帧编码之后进行池化减少了维度，从而导致了较少的信息丢失。

picture.image

Dense Recaption

鉴于PLLaVA的标题生成能力，作者进一步测试了其接收任务，并贡献了一个包含1K个视频的Inter4K[33]标题数据集。一个示例展示在图11中。与Open-Sora GPT-4 Pipeline 相比，作者的模型捕捉到了更好的标题细节，并且在视频中突出了运动信息，这表明PLLaVA有望为视频生成社区做出贡献。

picture.image

参考

[1].PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning.

​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制 ！

1 Introduction

2 Related Works

3 Method & Analysis

4 Experiments

参考

新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！