西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究！ - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

得益于大型语言模型（LLMs）的兴起，大规模视觉语言模型（LVLMs）已成为一个重要的发展趋势，它成功地弥合了图像和文本之间的鸿沟。然而，视频使得LVLMs难以有效地发挥作用，因为语言和空间-时间数据结构之间的关系非常复杂。

最近，大规模视频语言模型（LVidLMs）将静态视觉数据（如图像）的特征映射到语言特征的潜在空间，通过通用的多模态任务充分利用了LLMs的能力。在本论文中，作者探索了一种同时考虑空间和时间维度的精细对齐方法，即通过物体轨迹进行不同模态的对齐。

因此，作者提出了一种新颖的LVidLM，名叫PiTe ，它展示了良好的可应用模型特性。

为了实现细粒度的视频-语言对齐，作者编辑了一个多模态预训练数据集PiTe-143k，该数据集为所有个体物体提供了像素 Level 的运动轨迹信息，这些物体出现在视频中并在标题中提及，这是通过作者的自动标注 Pipeline 实现的。

同时，PiTe在众多视频相关多模态任务上展示了令人瞩目的能力，通过大幅超越最先进的方法。

1 Introduction

大型语言模型（LLMs）在AI领域迅速获得了 popularity ，展示了惊人的在各种自然语言任务上的能力。LLMs 强大的语言理解能力促使研究行人探索其在解决更广泛跨领域的任务中的实用性。因此，越来越多的研究专注于开发全面的 Large Visual-Language Models（LVLMs）以解决零样本设置下的视觉相关任务，特别是在视频理解方面。通用 Large Video-Language Models（LVidLMs）的追求将面临长期挑战。在此过程中，实现 LLMs 中固有的杰出理解、推理和生成能力的有效利用至关重要。

解决这一问题的一个潜在途径是将视觉特征与语言特征的潜在空间对齐。为此，现有的 LVidLMs 应用大规模的常规提示调优 [46, 48, 19, 26, 19]。然而，传统的问答训练范式主要是帮助 LLMs 从空间角度理解视觉数据，在捕捉时间动态和空间一致关系方面存在挑战。因此，仅依赖提示调优不能实现全面视频理解，因为这涉及到复杂的空间-temporal 数据结构。需要对空间和时间维度进行对齐。提供更细粒度的跨模态对齐指导将显著增强 LVidLMs 理解视频的能力。

为此，作者提出了一种名为 PiTe 的新颖 LVidLM，它使用轨迹在像素 Level 精细对齐视频和语言特征，同时考虑空间和时间维度，如图0(a) 所示。通过要求模型预测图像中提及的单个物体的轨迹，它可以通过挖掘视频上下文在时间维度上的影响，并增强基于证据的像素级文本到像素的细粒度对齐的学习。

由于没有现成的带有物体运动轨迹的视频-语言数据集，作者通过自动化标注 Pipeline 整理了一个大规模的视频-语言数据集 PiTe-143k。如图0(b) 所示，所提出的 PiTe 显著提高了 LVidLM 理解视频的能力，使其在零样本条件下的问答、时间定位和密集描述生成任务中表现出色。

总的来说，本文的主要贡献如下：

作者通过自动化标注 Pipeline 创建了一个包含所有物体轨迹的大规模视频-语言数据集 PiTe-143k。

作者提出了一种名为 PiTe 的新颖 LVidLM，该模型使用轨迹在空间和时间维度上对齐视频和语言特征。

在众多数据集上进行了大量的实验结果和分析，展示了 PiTe 在零样本视频问答、时间定位和密集描述生成任务中的优势。

2 Related Work

Large Language Models

近年来，诸如GPT-1 [32]，BERT [7]，GPT-2 [33]，和T5 [34]等先驱的的基础语言模型为自然语言处理(NLP)领域奠定了基础，而GPT-3 [4]的创纪录规模参数扩展至1750亿大小的模型参数，实现了令人瞩目的零样本学习性能。此外，关于扩展定律的研究 [14]使语言模型朝向更大规模的拓展。因此，受到InstructGPT [29]和ChatGPT [28]通过强化学习结合人类反馈的训练（RLHF）基于GPT-3所取得成功的推动，大语言模型（LLMs）在自然语言理解、逻辑推理和生成领域的影响日益扩大。GPT的成功为构建LLMs提供了有前景的途径。基于GPT-3的RLHF训练的多个开源LLM已提出，其性能相似，包括OPT [49]，BLOOM [36]，GLM [9]，LLaMA [37、38]，和Vicuna [5]。

作者的调查深入挖掘了超越语言模式限制的LLMs的惊人语言理解和零样本泛化能力。具体而言，作者着眼于将这些能力扩展到多模态场景，从而探索它们在处理不同模式信息跨多种模态的潜力。

Large Visual-Language Models

LLM的激增已经引领了自然语言处理任务的重大进步，同时也引发了开发大型视觉语言模型（LVLMs）的兴趣。为了构建一个将视觉信息与视觉语言任务统一处理的统一的LLM，仍然是LVLMs最迫切的需求之一。Flamingo [1] 和 OpenFlamingo [3] 通过交叉注意力机制将视觉信息融合到中间嵌入，从而将冻结的LLM进行训练，并与数十亿图像文本对齐，以连接视觉和语言模式。类似地，BLIP-2 [18] 引入了 Q-Former 的概念，以更有效地将视觉特征与语言空间对齐。此外，MiniGPT-4 [52] 通过只用一个投影层进一步微调更详细的图像描述，大幅提高了可用性，并与冻结的视觉编码器与冻结的LLM对齐，以及LLAva系列的简单使用多层感知（MLP）替代 Q-Former 以及两阶段的指令调优来增强这个过程。最后，PixelLLM [42] 通过在图像描述中的每个单词的位置坐标作为不同模态之间的联系，强调模型在目标检测任务中的性能，以增强视觉数据的表现。作者的主要关注点是将LLM的出色语言理解能力转移到分析视频中动态、连续的视觉数据，而不是静态视觉数据，如图像。

Large Video-Language Models

最近，为了将LVLMs的任务处理能力转移到视频模式中，已经做出了许多努力，导致了大型视频语言模型（LVidLMs）的出现，如VideoChat [19]，Video-LLaMA [46]，和Video-ChatGPT [26]。以前的研究已经证明了LLMs在视频内容上能够执行各种任务，通过一个两阶段的训练过程，受到用户指示的引导。这些研究是将静态视觉特征与LLMs配对，然后在由GPT或人类标注的数据集上进行指令调优。尽管在视频理解方面有效，但这些模型缺乏细粒度的时空建模，这使得它们无法详细理解或定位物体在特定的细节或特定时段。作者提出了一种在像素级跨空间和时间维度进行新颖的细粒度对齐策略，以增强LLMs全面分析视频内容的能力，从而帮助更好地理解呈现的视觉信息。

3 PiTe-143k Dataset

为促进像素 Level 的细粒度多模态对齐研究，作者提出了一个大规模的视频-语言数据集 PiTe-143k。该数据集填补了现有资源中的一个重要空白，提供了具有视频指令的广泛物体运动轨迹，此前在现成的数据集中尚不可得。PiTe-143k基于InternVid-10M-FLT [13, 40]构建，其中每个实例都包含整个视频及其多个片段描述，带有开始停止时间戳。如表1所示，PiTe-143k包括343,930个事件片段和1,020万个物体的运动轨迹，这些物体在视觉和文本模态中都出现了。为了便于达成这一目标，作者为PiTe-143k建立了自动标注 Pipeline ，推动了LVidLMs在像素级视频理解方面的进步。

picture.image

PiTe-143k的自动标注 Pipeline 包括两个主要阶段，如图2所示：（1）第一阶段涉及名词短语提取和指代表达式分割，从而在事件描述中的所有个人目标生成帧内的目标 Mask ；（2）第二阶段侧重于点跟踪，以捕获第一阶段中获得的 Mask 对应的移动轨迹。

picture.image

Referring Expression Segmentation

第一阶段的目标是构建视频与语言之间的密切、细粒度联系。为此，作者从字幕中提取所有的名词短语，并在视频中找到相应的目标。

在开始阶段，作者使用构词法解析 SuPar [50, 51] 对语言进行提取名词短语，如图3所示。值得注意的是，为了在下一步中通过最简单、最直接的语言指令，作者只从最低层提取名词短语。例如，在图2(a)中，作者考虑了两个名词短语_a pen_和_a white table_，但由于前者词组的组合复杂度，作者不考虑其父节点表示的_a pen on a white table_。接下来，作者利用 GLaMM [35]，第一个可以无缝生成与相应目标分割 Mask 相交的自然语言回复的 LVLM，来获取视频第一帧中基于文本的引用表达的对应分割 Mask 。在这样具有挑战性的情况下，作者忽略名词短语的轨迹信息。尽管存在这种局限性，但是在大规模预训练数据的帮助下，其对整体性能的影响可以忽略不计。同时，利用 LLMs 出色的语言理解能力，GLaMM 能够有效地过滤掉无效的引用表达，如图2(b)所示的不合法目标引用 front 。

Point Tracking

在第二阶段，作者的目标是将前一个阶段构建的连接转移到视频中，从而扩展视频与图像相比具有的特殊时间维度。为此，作者跟踪每个剪辑中的所有单个目标，以获取其轨迹，轨迹表示视频与语言在空间和时间维度之间的连接。

图2：PiTe-143k的自动标注流程。图中的视频样本展现了视频开始和结束的两个事件。通过SuPar [50, 51]提取名词短语的过程如图3所示。

第二阶段始于作者使用DOT [17]，这是一个简单且有效的方法跟踪点以恢复任何场景中任何点的轨迹，每个剪辑捕捉任何点的第一帧的轨迹。根据作者的观察，每段剪辑的标题主要描述简短的视频内容，因此大多数标题对应于唯一的场景剪辑，这使得作者可以跟踪第一帧中识别出的物体。随后，根据第一阶段获得的物体分割 Mask 过滤轨迹。到目前为止，作者已经得到了每个剪辑中每个视频中所有物体的轨迹，通过轨迹从空间和时间维度创建视频与语言之间的连接，视频中的轨迹表示物体的存在，轨迹的值表示物体在视频中的位置。最后，作者使用k-means++ [2]聚类算法将轨迹压缩为三个关键点，有效地降低了计算需求。这种方法基于三个点可以充分捕获物体的典型几何形状，在精度和计算效率之间实现平衡。此外，作者在各种关键跟踪点上进行了性能比较分析，如第5.3节所述。

4 PiTe

在本节中，作者提出了一种新颖的大视频-语言模型（LVidLM） PiTe ，该模型通过在空间和时间维度上的运动轨迹将视频与语言对齐。图4 说明了 PiTe 的概述。

picture.image

Architecture

PiTe是由以下几个部分组成：一个基于Vision Transformer (ViT)的图像编码器来编码视频帧，一个将视觉特征映射到LLM语义空间的视觉 Adapter （实现为一个线性投影层），LLM Vicuna v1.5，以及在单独的训练阶段使用一个定位投影器或轨迹投影器来引导LLM理解视觉信息的线性投影。

图像编码器 。原始视频数据可以表示为多个帧，如（帧高度宽度通道）。根据[22, 26, 46]的前期研究，作者采用源自CLIP的ViT-L/14[8]预训练模型作为图像编码器ViT来编码视觉数据。对于视频，作者均匀采样帧，并通过图像编码器ViT编码第帧：

其中表示图像编码器ViT中的Patches数量。

**视觉 Adapter **。一个简单的投影器使得LLM更多地学习处理视觉输入，从而提高泛化能力[20]。因此，作者将图像编码器ViT的全球化特征作为第帧的表示，并应用一个线性投影层将帧特征映射到LLM的词嵌入空间：

随后，一序列帧标记变成LLM可以理解输入，表示LLM的隐藏维度。

图3展示了Noun Phrase (NP)提取的成分分析器的两个样本。

4.1.2 Large Language Model.

图4: PiTe框架视频语言对齐的示意图。

作者首先将视频进行标记化并编码到帧标记，然后将其与文本标记连接，并以输入传递给LLM，在这个过程中，作者将视觉输入视为外语。基于这一点，LLM可以进一步将输入序列编码以理解视频和文本，然后利用自动回归解码进行推理和生成响应：

Training Strategy

对于 PiTe 模型训练，作者考虑一种三阶段的指令调优流程：

（1）第一阶段围绕使用图像-标题对训练改编；

（2）第二阶段专注于通过轨迹对视频和语言特征对齐；

（3）第三阶段专注于通过高质量对话指令调优，以增强模型对人类指令的理解。

4.2.1 Stage 1: Referring Expression Localization.

最初阶段的目标是训练一个视觉 Adapter ，将视觉特征与LLM的语义空间对齐。为此，作者使用包含有关于给定图像的人类标注者叙述的标注以及标注者叙述期间注意力的鼠标轨迹的定位叙述数据集[30]，这给出了叙述句子中所有单词的同步位置。人类跨模态注意力可以作为训练作者的模型的条件，从而桥接视觉和语言。

在这个训练阶段，图像而不是视频只有一个视觉标记。这可以用于在空间上对齐视觉和语言，而无需考虑时间信息。为了使用相同的语言特征进行定位，作者简单地并行添加一个多层感知（MLP）作为定位投影器，该投影器将语言特征映射到二维位置：

（

）

其中表示文本标记的预测坐标。

总的来说，第一阶段的训练目标是计算标准的标签平滑交叉熵损失以训练描述符输出，以及计算回归损失以训练定位输出：

其中是生成的序列长度，表示位置的 GT 值，表示交叉熵函数。为了提高训练效率，作者利用LoRA[12] fine-tuning LLM。

4.2.2 Stage 2: Pixel-Temporal Alignment.

在第一阶段之后，LLM模型已经擅长理解视觉信息。在第二阶段，作者目标训练LLM理解视频中的连续帧。为了实现这个目标，作者构建了一个详细的物体跟踪数据集PiTe-143k，如第3节所述，该数据集使用轨迹作为条件，在空间和时间维度上实现视觉和语言的桥梁。因此，像素 Level 的对齐指导提高了模型在视频中的细粒度理解可靠性以及整体可用性。

与第一阶段相似，作者利用MLP作为轨迹投影器将语言特征映射到二维位置：

其中表示轨迹矩阵在个点上的帧内的文本标记的坐标。在这里，表示用于模型跟踪的个点上标记的坐标在帧的坐标。

总体而言，第二阶段的训练目标是使用标准标签平滑交叉熵损失训练生成输出，并使用回归损失作为轨迹输出的条件：

其中是生成轨迹所需模型的点数，表示视觉嵌入的序列。作者将第1阶段训练的LoRA与原始模型合并，并引入了一个新的LoRA模块。

值得注意的是，作者在前一个阶段训练的局部化投影器用于初始化轨迹投影器。

具体来说，作者定义了局部化投影器的权重和轨迹投影器的权重分别为和，其中表示 LM 输出中每个标记对应的特征向量数量，表示每个标记的特征维度。局部化投影器将输入图像上的每个标记的二维坐标映射到 LM 输出的二维坐标空间，而轨迹投影器输出二维坐标，但对于个点，每个时间步生成帧，因此每个点的时间轴坐标要乘以。

对于每个时间和空间帧，局部化投影器初始化轨迹投影器的参数如下：

picture.image

这里表示矩阵在维度一维的连接。

不仅局限于轨迹，作者的模型可以识别生成文本中的时间边界。具体来说，作者将生成文本构建为 ...，从 s 到 e 或从 s 到 e，... 以帮助模型在时间维度上学习。其中 ... 包含事件描述，s 和 e 分别对应事件的开始和结束时间戳对应的帧索引。这种方法进一步增强了模型对时间边界的理解 [13]。

与初始训练阶段不同，不是所有生成的单词都与轨迹关联。在物体缺乏轨迹或随时间消失时，作者统一为其分配地面的真实坐标，以表示其不存在。

第三阶段：视频问答。 在第二阶段之后，作者将高质量的对话数据 Valley [25] 和 Video-ChatGPT [26] 结合一个循环用于指令调优，使得模型能够遵循人类指令以实现视频理解的更准确和泛化能力。

第三阶段的训练目标是通过标准标签平滑交叉熵损失计算得到（用于自回归生成）：

如同阶段2，作者将阶段1和阶段2训练的LoRA与原始模型合并，并引入一个新的LoRA模块。

5 Experiments

实验部分第一章的开端。

Experimental Setup

任务，数据集和评估指标 。作者在三个任务上对LVidLMs的视频理解能力进行了定量评估：

(1) 视频问答：这一任务评估了LVidLMs在了解视频内容基础上回答各种问题的全面视频理解能力。作者在三个数据集上执行此任务，分别是：MSVD-QA [41]，MSRVTT-QA [43]，和ActivityNet-QA [45]。视频理解的评估流程遵循Video-ChatGPT [26]，并使用GPT-Assistant [28]评估准确率和评分。

(2) 视频时间定位：这一任务评估了LVidLMs分辨出描述视频剪辑对应的片段的起始和结束时间戳的能力。此任务要求模型有效地把握视频的时序方面。作者在ActivityNet Captions数据集[15]上进行此任务，并计算模型生成的时间段与真实时间段的交并集（IoU）。

作者报告平均IoU（mIoU）和@1召回率（Recall@1）、IoU（R@m）指标，其中m值设定为{0.3,0.5,0.7}。(3) 视频密集型字幕生成：这一任务要求模型在理解视频的空间和时间维度的同时，生成所有视频中描绘的事件及其相应的开始和结束时间戳。

作者将在ActivityNet Captions数据集[15]上进行此任务，首先报告SODA_c[10]，然后根据生成的的事件与真实匹配对在0.3、0.5、0.7、0.9不同IoU阈值下的CIDEr [39]和METEOR [16]的平均值进行分析。在本篇论文中，所有实验都是在零样本设置下进行的，所有评估指标的较高值表示优越的性能。

5.1.3 Implementation Details.

在本文中，作者采用Vicuna v1.5 [5]作为语言模型，在两个尺度上训练PiTe 模型：7B和13B。得益于LoRA [12]的效率，用单个Nvidia 8-A100（80GB VRAM）节点大约10小时即可完成7B模型的训练，而13B模型则需要约17小时。表2中展示了更多的超参数设置。

picture.image

主要结果

表3和4分别展示了PiTe 模型在众多视频理解数据集上与最新状态的 Baseline 对比性能。

picture.image

5.2.1 Question Answering.

如表3所示， PiTe 在所有数据集的所有指标上，始终优于最新的纯指令调优 Baseline ，表现出显著的提升。与每个数据集的顶级 Baseline 相比， PiTe 在平均问答准确性方面取得了显著的提升，最大增幅达到 4.8，平均增幅达 3.7。例如， PiTe 与 Video-ChatGPT [26] 在 MSVD-QA 数据集 [41] 上的准确率有很大的提升，从 64.9 提升到 68.4。这些结果表明了 PiTe 在视频理解方面的熟练程度，以及根据给出的指令提供上下文相关回答的能力。

5.2.2 Temporal Grounding.

如图4所示， PiTe 在视频时间定位任务中的所有指标上都达到了 state-of-the-art 的性能，与 Video-ChatGPT [26] 相比，其 mIoU 提高了 18.9 到 22.0。这明确表明，轨迹对齐对 LVidLMs 在时间维捕捉事件的能力有显著提升。在轨迹矩阵的时间维中引入物体轨迹，为模型提供了对时间事件边界的精确理解，从而为准确的事件定位奠定了坚实的基础。

5.2.2 Dense Captioning.

表4中列出的密集描述任务的结果显示，与所有最先进 Baseline 相比，PiTe 始终取得了明显的性能提升。值得注意的是，与[26]中的Video-ChatGPT相比，CIDEr指标（[39]）提高了15.9。这强调了通过轨迹在空间和时间维度进行细粒度对齐的重要性，这意味着PiTe具备更广义和详细的表示，从而提供更复杂的事件描述和准确的事件时间边界。

picture.image

Analysis

分析部分的开始。

5.3.1 Ablation Study.

如图5所示，作者在以下设置中对MVSD-QA [41]进行消融实验以验证提出的贡献对问题回答任务的个体影响，并对ActivityNet Captions [15]进行消融实验以验证在时间定位中的局部对齐策略的效果：

（1）w/o initialize ：作者移除了使用局部定位投影器权重来初始化轨迹投影器的初始化策略；

（2）w/o trajectory ：作者弃用了通过轨迹实现的微细对齐策略。

picture.image

通过表5的实验结果，作者可以观察到以下几点：

（1）消除了PiTe 中的轨迹投影器初始化策略，会降低模型的推理能力和时间边界意识。然而，在密集标题生成任务中的性能保持一致。这一观察表明，在轨迹引导训练下，模型在理解视觉内容方面依然具有基本能力。

（2）去掉轨迹引导训练几乎消除了PiTe 的所有能力，包括在密集标题生成任务中的性能。

（3）在时间定位中没有轨迹引导训练的情况下，PiTe 的表现优于轨迹引导训练中没有初始化轨迹投影器权重的局部对齐策略。这种结果突显了在没有初始化轨迹投影器权重的预训练局部定位投影器的轨迹引导训练中的困难，因为参数的不稳定性会阻止模型准确感知视觉时间信息。

picture.image

5.3.2 Exhibition.

为了更好地展示PiTe 的视频对话性能，作者提供一个定性示例，如图5a所示。图上上半部分所示的示例说明了PiTe 不仅能对指令 Query 提供精确的响应，而且还能通过提供更详细、准确的视频信息来增强输出。图下部分所示的示例突显了模型在理解指令和捕捉事件方面的熟练程度，从而使得在视频的100帧采样限制下，能够精确划分视频中的时间边界。

5.3.2 Impact of Tracking Point Quantity.

在图4(b)中，作者在集合{1,3,5}中调整跟踪点数量P。密集描述性任务的效率倾向于随着跟踪点数量的增加而提高。然而，作者观察到时间定位任务在初始阶段取得了显著的改进，然后迅速下降。跟踪点数量较少时，无法准确捕捉目标的形状，从而阻碍了模型在像素级跨模态对齐指导方面的性能。相反，更多数量的点可以提高模型对纯视觉信息的理解；然而，这也引入了噪声，使得训练更具挑战性。总体而言，可能不同任务的最佳P值不同，作者设定P=3，因为它在多个任务上都能够保持性能的稳定。

6 Conclusion

在本文中，专注于通过整合不同模态之间的基于轨迹的对齐来增强大型视频-语言模型（LVidLMs）的性能。为了在空间和时间维度上实现视频和语言之间的细粒度对齐，首先使用一个完全自动化的注释流水线创建了一个综合的多模态对象跟踪数据集PiTe-143k。

这个数据集旨在解决缺乏包含多对象移动轨迹的大规模视频-语言数据集的问题。

随后，介绍了一种新颖的Pixel-Temporal（PiTe）对齐策略，该策略利用轨迹引导的预训练来解决LVidLMs固有的挑战。

通过比较分析，在零样本设置下评估了PiTe与最先进模型和有竞争力的基线模型在各种任务上的表现，包括问答、时间定位和密集字幕，展示了PiTe在更复杂的事件描述和准确的事件时间边界方面的优越性能。

参考

[1].PiTe: Pixel-Temporal Alignment for.

西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究 ！

1 Introduction

2 Related Work

Large Language Models

Large Visual-Language Models

Large Video-Language Models

3 PiTe-143k Dataset

Referring Expression Segmentation

Point Tracking

4 PiTe

Architecture

4.1.2 Large Language Model.

Training Strategy

4.2.1 Stage 1: Referring Expression Localization.

4.2.2 Stage 2: Pixel-Temporal Alignment.

5 Experiments

Experimental Setup

5.1.3 Implementation Details.

5.2.1 Question Answering.

5.2.2 Temporal Grounding.

5.2.2 Dense Captioning.

Analysis

5.3.1 Ablation Study.

5.3.2 Exhibition.

5.3.2 Impact of Tracking Point Quantity.

6 Conclusion

参考

西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究！