VTD-CLIP革新视频识别 | 视觉动态对齐文本+置信度加权，多数据集性能碾压传统时序建模方案 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

视觉-语言模型连接了视觉和语言理解，并在视频识别任务中显示出强大的能力。现有方法主要依赖于参数高效的图像-文本预训练模型的微调，但由于时间建模不足，它们通常在可解释性和泛化能力方面存在局限。

为了解决这些问题，作者提出了一种简单而有效的视频到文本离散化框架。VTD-CLIP利用冻结的文本编码器，由于多模态预训练中视觉和文本嵌入之间存在多对一的对比对齐，从视频类别标签构建视觉代码簿。这个代码簿通过特征查找将时序视觉数据有效地转换为文本 Token ，并通过显式的视频建模提供可解释的视频表示。然后，为了增强对无关或噪声帧的鲁棒性，作者引入了一个置信度感知融合模块，通过代码簿评估关键帧的语义相关性来动态加权关键帧。

此外，VTD-CLIP还结合了可学习的文本 Prompt 来进行自适应代码簿更新。在HMDB-51、UCF101、SSv2和Kinetics-400上的大量实验验证了VTD-CLIP的优势，实现了比最先进方法更具竞争力的改进。

代码: https://github.com/isxinxin/VTD-CLIP

引言

大规模视觉-语言模型[3]，在庞大的图像-文本对数据集上预训练，在视觉和语言模态对齐[19]、增强机器理解和实现视觉内容的人性化描述生成[32, 82]方面取得了显著进展。这些模型在各种任务中展现了广泛的应用潜力，包括图像标题生成[5, 46]、视觉问答[1, 9, 79]、图像-文本检索[14, 40, 44]和多模态生成[65, 75, 83]。鉴于这些成就，研究行人正在积极探索将此类模型适应于时间结构化的视频数据[71, 76, 84]的方法。

虽然图像-文本对齐取得了突破性的成功，但将这一范式直接扩展到视频-文本对齐面临着关键挑战[26, 34, 41]。首先，训练有效的视频-文本对齐模型需要比图像-文本预训练指数级更大的成对训练数据，这种资源密集型的需求是不切实际的。尽管参数高效的微调方法减少了数据依赖，但它们通常通过过度拟合有限的特定任务数据来牺牲泛化能力，从而丢弃了从大规模预训练继承而来的鲁棒跨模态对齐[71, 76, 84]。这引发了一个重要问题：作者如何利用图像-文本对齐模型来理解视频，同时不牺牲它们的泛化优势？

一个最优框架应保留预训练视觉-语言模型的核心理构架，同时利用其固有的泛化能力[24]，保持从大规模多模态预训练中获得的零样本性能[56]。在实践中，这可以通过Sparse关键帧摘要来实现，通过选择代表性帧来编码视频的核心内容[78]。这种策略消除了大规模视频-文本对齐预训练，同时支持高效的帧级特征提取[30, 53, 77]。此外，最近的研究表明，简单的时序聚合，如帧级特征的平均池化，可以在基准测试中达到有竞争力的性能[8, 22, 69]。这一发现也证明了视频语义的帧主导性质：在现实场景中，一小部分帧就足以代表整个视频的意义[28, 53]，从而消除了对复杂时序建模的需求[13, 18]。因此，作者决心通过使用关键帧摘要来扩展图像-文本范式，以实现视频理解。

众所周知，视频语义类别与其主要内容之间存在关联，这促使作者利用预训练的文本类别作为视频摘要和关键帧选择的原型[89, 90]。然而，由于GT视频类别通常无法提前获得，作者需要一个伪标签机制来推理视频语义[72, 74]。为了简化，可以使用CLIP[19]对齐的图像-文本嵌入空间对视频帧进行聚类，并将每个帧分配给最相似的文本语义类别。因此，通过将视频内容离散化为文本伪标签，作者引导关键帧选择向具有高语义置信度的帧发展，同时抑制模糊或不相关的帧[71]。图1比较了不同的方法。VTD-CLIP不仅消除了计算密集型的时间建模带来的时间依赖性，还保留了零样本泛化能力。

picture.image

简而言之，作者提出了一种名为VTD-CLIP的视频到文本离散化框架，该框架通过将视觉内容离散化为具有语义意义的文本对齐 Token 来提升视频表示。具体来说，作者利用CLIP的冻结文本编码器作为语义代码本学习器，其中预定义的类别特定文本嵌入作为代码本元素。对于每一帧，作者提取视觉嵌入并将其量化到最接近的文本代码本元素，通过最大相似度得到离散的帧级嵌入。然后，作者通过多数投票将帧级嵌入转换为离散的视频嵌入，优先考虑频繁出现或占主导地位的语义类别。接下来，作者为每一帧计算一个置信度分数。最后，作者使用置信度感知融合将离散的视频嵌入与原始帧嵌入融合。

VTD-CLIP的贡献可以概括为以下三个方面：

• 作者提出了一种简单而有效的框架，通过将视觉内容离散化为与文本对齐的语义嵌入来增强视频表示。
• 作者利用文本编码器作为视觉代码簿学习器，得益于视觉-语言对齐，通过最近邻查找将每个帧量化为代码簿元素，并通过帧投票推导出离散特征。
• 作者在四个基准数据集上评估了所VTD-CLIP，实验结果表明，该方法在现有方法中具有非常竞争力的性能。

相关工作

视觉-语言模型。自CLIP [48, 50, 67] 问世以来，视觉-语言模型取得了巨大进展。鉴于其强大的零样本性能，近期的研究工作集中在高效地微调CLIP以用于视频分析 [52, 62, 66]。现有方法大致可分为两类 [35, 59]，包括基于 Prompt 和基于 Adapter 的方法 [73, 88]。第一类方法中的典型代表包括ActionCLIP [63]、ViFi-CLIP [53] 和VitaCLIP [68]。例如，Wang等人 [63] 提出了一个预训练、 Prompt 和微调的范式。Rasheed等人 [53] 完全微调了CLIP编码器。Wasim等人 [68] 向CLIP编码器引入了多个 Prompt Token 。对于第二类方法，代表性方法包括XCLIP [47]、VideoPrompt [26] 和EVL [38]。Ni等人 [47] 采用了跨帧通信和多帧集成。Ju等人 [26] 和Lin等人 [38] 通过轻量级Transformer对时间信息进行编码。Wu等人 [70] 使用预训练的语言模型创建语义目标。Qing等人 [49] 解耦了空间和时间信息。Lin等人 [37] 提出了一种使用GPT-3 [7] 的无监督方法。Kahatapitiya1等人 [27] 优先考虑文本增强而非视觉知识。Chen等人 [11] 增强文本知识以提高视频泛化性。

离散表示学习。离散 Token 化器在视觉-语言模型中至关重要，它通过将多模态数据桥接到具有增强零样本泛化能力的统一表示中 [39]。例如，Van等人 [61] 首创了神经向量量化技术用于离散潜在空间学习。Razavi等人 [54] 通过多级分层VQ-VAE扩展了这一技术。Vahdat等人 [60] 使用重要性加权的下界进行训练，与传统证据下界方法不同。Esser等人 [17] 结合了CNN的归纳偏差和Transformer的表达能力。Ramesh等人 [51] 通过自回归联合 Token 建模进行跨模态对齐。Bao等人 [6] 通过 Mask 图像建模预测离散视觉 Token 。离散方法面临代码簿坍塌的问题，其中扩展代码簿的元素多样性会减少。虽然Mentzer等人 [45] 使用边界函数将每个特征通道四舍五入为整数，但作者提出了一种替代方法，该方法利用文本编码器作为代码簿学习器，并通过文本 Prompt 更新代码簿。

提出方法

picture.image

如图2所示，VTD-CLIP通过三个模块扩展了CLIP的泛化能力：

1. 通过冻结的图像编码器

和文本编码器

进行跨模态特征提取，用于帧特征

和文本特征

； 2. 2. 视频到文本的离散化处理，用于视频离散特征

； 3. 3. 基于置信度的融合处理，用于视频特征

。

3.1 特征提取

给定输入视频 V = {It}，其中 It ∈ Rhxwx3，VTD-CLIP首先将 ν 分成 T 个均匀的时间段，并在每个时间段中随机采样一帧。然后，这些帧被输入到

中，该函数将每一帧分解为

个非重叠的

块。遵循先前的方法 [25, 85]，作者还将可学习的视觉 Prompt 注入到块序列中，以缓解帧-文本模态语义差距。

表示第

个帧输入，

是其总块，

是可训练的 Prompt Token ，其中

。作者根据以下方程推导出第

个帧特征

：

3.2 视频到文本离散化

通过利用大规模对比预训练中的视觉-语言对齐，作者将文本编码器重新定位为视觉代码簿学习器，其中文本类别嵌入形成视频理解的原型。

文本语义原型。作者使用冻结的文本编码器

提取文本类别嵌入。

表示与第

个文本嵌入

对应的第

个类别标签，这些类别嵌入被视为视频内容提取中的视觉原型。然后，作者通过收集这些原型

来初始化视觉码本，其中

表示类别数量。视频帧通过将它们的视觉特征

𝔁

映射到最近的码本元素来进行量化，如下所示：

表示第

个样本在

维空间中的映射，

定义为在集合

中寻找与

距离最小的

，即：

其中，

表示

和

之间的距离。

是离散特征。虽然式(4)类似于VQ-VAE [61]的矢量量化公式，但VTD-CLIP在三个方面有所不同：

• 代码簿稳定性与崩溃。从零开始训练的VQVAE的代码簿仍然容易发生代码簿崩溃，陷入主导元素 [16]。但是，作者的基于文本的代码簿

通过冻结的文本编码器给出，并保留了语义结构。

• 固定超参数。VQ-VAE需要手动调整代码本大小

，该参数对数据集复杂度敏感，然而，VTD-CLIP将

缩放以匹配语义类别的数量。

• 动态适应性。虽然VQ-VAE的码本在训练后保持静态，VTD-CLIP支持由 Prompt 驱动的更新[80]。作者将详细阐述它们之间的差异。

因此，作者的代码簿可以提供一个固定且视觉对齐的替代方案。得益于 Prompt 学习[80]，作者可以通过使用文本 Prompt 动态更新代码簿。

代码簿更新与 Prompt 。文本编码器接收一组结构化的模板 Token ，例如，“

的一张照片”，其中类 Token 表示数据集中的分类标签。这些 Token 通过冻结的文本编码器

投影到语义嵌入空间。遵循

框架 [87]，作者构建了一个自适应代码簿，该代码簿在保持跨模态一致性的同时，动态地对齐视觉内容与原型。

作者定义

为类别数量。令

表示第

个可学习的文本 Prompt ，其维度与冻结文本编码器的输入 Token 维度相匹配。每个 Prompt 由16个可学习 Token 参数化，并通过标准高斯分布初始化。虽然文本编码器同时输出 Token 级嵌入和全局 CLS 嵌入，但作者仅利用后者作为跨模态对齐的文本表示，从而得到视觉语义代码簿

，其中每个元素对应于特定类别 Prompt 的 CLS 嵌入。

通过最近邻进行硬分配。VTD-CLIP采用硬分配而非软加权来生成帧级伪标签。一方面，每个帧特征被映射到文本空间中其最近邻的类别原型。这消除了视觉上相似类别之间的混淆解释，例如“跑步”与“快走”，强制实施类别决策边界以减少标签模糊性。另一方面，与目标文本原型高度相似的帧被保留为重要内容，而低相似度的片段，如背景或不相关内容，则自动排除。这种跨模态硬分配自适应地关注关键帧，无需显式的时间建模，有效地抑制了冗余信息。

形式上，给定帧特征

和由文本派生的代码簿

，作者计算跨模态亲和度矩阵

，其中

表示嵌入空间中的余弦相似度，

是

的一个元素。对于粗粒度的帧到文本对齐，作者根据公式(4)中显示的最大亲和度在代码簿

中进行搜索，并将第 t 个帧分配给文本原型 Ckt*。

这项艰巨的任务通过仅保留每个帧的主导语义对应关系来生成Sparse性。这种Sparse性抑制了噪声或模糊的语义映射，同时保持了可解释的选择。

原型袋视频类别。作者通过Sparse相关性聚合计算语义原型激活。给定二值 Mask

，其中

表示第

个帧被通过式(6)中的硬分配分配到第

个文本原型。然后选择视频原型为，

和

分别表示

和

的第

列向量，

表示Hadamard积，

指的是最活跃的文本原型。

对每个帧执行onehot但不可微分的原型选择，而

通过视觉-文本对齐强度对原型进行加权。最终的视频表示

继承了最活跃原型的语义嵌入，即 v = Ckmax'

3.3. 置信度感知融合

传统方法采用简单的时序池化，例如平均池化，来融合帧特征[31, 81]。然而，这些方法往往受到无关帧的时间冗余和低质量帧的噪声传播的影响。最近的研究引入了帧过滤技术来增强序列的连贯性和视觉吸引力[43]。不同之处在于，VTD-CLIP提出了基于文本对齐相似度的置信度感知融合，如图（3）所示，该方法可以动态地根据文本对齐相似度对帧进行加权。

具体而言，给定从视频到文本的离散化

，作者将离散视频特征融合为：

交叉注意力层将

与

集成，而 Shortcut 保留了时空细节。

对于每个视频帧，作者首先从视频到文本的离散化模块中获取与对应文本原型相关的帧文本相关性

，其中

由公式(7)推导得出。然后，作者通过温度缩放softmax函数以

为参数对置信度得分进行归一化，并通过聚合置信度加权的特征来获得最终的视频嵌入。形式上，视频嵌入可以表示为：

作者通过交叉熵损失在批次中最大化视频表示与 GT 文本嵌入之间的跨模态对齐，从而得到目标函数。

实验

4.1 实验设置

数据集 。作者在四个数据集上进行了实验，包括HMDB-51 [29]、UCF-101 [57]、SomethingSomething

(SSv2) [20]和Kinetics-400 (K-400) [10]。

• HMDB-51包含51个动作类别中的6,849个视频片段，每个类别至少有101个视频片段。
• UCF-101提供了13,320个视频序列，涵盖101个动作类别，每个类别至少包含100个视频。

包含220,847个视频序列，来自174个动作类别，其中训练集包含168,913个，验证集包含24,777个，测试集包含27,157个，特别关注物体交互和用法案例。

-400 包含400个动作类别，大约有306,245个视频片段。该数据集分为训练集240,000个，验证集20,000个，测试集40,000个。

实现细节 。VTD-CLIP采用了冻结的CLIP模型，以ViT-B/16作为文本和视觉编码器的 Backbone 网络。作者通过在HMDB-51、UCF101、SSv2和

-400上进行的零样本实验，以及HMDB51、UCF-101和

上的少样本实验，评估了VTD-CLIP的一般化能力。作者使用了8个NVIDIA A100 GPU，每个GPU的批处理大小为8。对于K-400数据集，作者使用了Adam优化器，权重衰减为0.00o1，学习率为0.004；对于其他数据集，学习率为0.0004。

4.2 主要结果

全监督视频识别 。作者在

上进行了全监督实验，以验证所提出方法的有效性。如表1所示，VTD-CLIP在与大多数基于CLIP的方法的竞争中表现良好，除了TokenLearner-L/10，它使用了一个大型ViT主干和全微调。计算量为194 GFLOPs，VTD-CLIP比XCLIP显著轻量。

picture.image

B/16 (287 GFLOPs) 和 ActionCLIP-B/16 (563 GFLOPs)。虽然 MoTED-B/16 通过使用更少的帧实现了强大的结果，但VTD-CLIP在减少冗余的同时避免了过度的计算。通过将特征映射到文本对齐的空间，VTD-CLIP 为模型大小和训练成本至关重要的场景提供了一种轻量级的替代方案。

零样本视频识别 。为了评估VTD-CLIP的一般化能力，作者建立了非重叠的基础类别和新型类别用于评估，确保

。对于每个数据集，作者将类别随机分为两组，各占50%：50%作为基础类别，剩余50%作为新型类别。作者通过基础类别训练VTD-CLIP，并在新型类别上验证其零样本能力。如表2所示，VTD-CLIP在基础和新型设置中均优于比较方法。值得注意的是，作者在识别新型类别上相对于其他方法实现了显著的性能提升，分别为6.0%，3.2%，1.1%和0.5%。视觉特征与文本原型的强对齐可以减少对基础类别的过拟合。在

和

数据集上的小幅度提升显示出视频推理和复杂语义理解中持续的挑战。

picture.image

少样本视频识别 。为了评估VTD-CLIP在有限数据条件下的有效性和泛化能力，作者在不同的样本设置下进行了实验。如表3所示，随着视频数量的增加，VTD-CLIP的准确率逐渐提高。随着视觉数据的增多，文本特征的贡献逐渐减少，以目标为中心的方法OST[11]等逐渐赶上。此外，即使在有限的样本情况下，VTD-CLIP也显示出显著的改进，这表明引入补充的离散文本特征可以增强模型泛化能力并减少对视觉样本数量的依赖。

picture.image

4.3 消融研究

组件分析。为了验证各个组件的贡献，作者在HMDB-51和UCF-101数据集上进行了消融实验。如表6所示，视频到文本的离散化和置信度融合共同提升了模型性能。VTD生成文本对齐的特征，使得CAF能够计算更可靠的置信度分数，而CAF确保VTD专注于语义丰富的片段，从而细化文本帧对齐。它们的协作提高了VTD-CLIP的确切性，证实了这两个组件都是有效且必要的。

picture.image

时间融合机制分析 。作者进行了消融实验，以评估不同时间融合策略的影响，包括具有4层网络结构的RNN [23]、LSTM [21]和Seq Transformer [15]。表4展示了在

上的4-shot学习结果。VTD-CLIP在Vanilla CLIP和VTD-CLIP框架中优于所有策略，而平均池化实现了第二好的性能。由于RNN在建模长距离时间依赖性方面的能力有限，因此在视频任务中表现不佳。置信分数来自帧-文本相似度，并通过使用文本引导的语义来抑制冗余帧。

为了探索不同特征的影响，作者对特征聚合进行了消融研究。作者推导出融合特征

、帧特征

和离散特征

，以进行置信度感知的最终视频特征融合。表7显示，结合离散特征和帧特征的双流聚合策略显著实现了最佳性能。没有视觉信息的离散特征显著低于帧特征。仅视觉特征可能会由于跨模态匹配不佳而与文本描述不匹配。作者假设离散特征保留了High-Level动作语义，而帧特征提供了空间细节。融合特征平衡了抽象和详细信息。

picture.image

Prompt 分析 。为了研究不同代码簿的影响，作者比较了三种代码簿变体：1）一个具有可学习文本 Prompt 的动态代码簿，通过反向传播进行微调，2）一个使用固定模板的静态代码簿，以及3）一个使用原始类别标签的代码簿。表5显示，具有可学习 Prompt 的动态代码簿实现了更高的准确率，因为可学习 Prompt 允许动态调整文本嵌入以与视觉特征对齐。原始标签缺乏足够的上下文，而固定模板对视频理解存在欠拟合问题。

picture.image

代码簿增强分析 。作者通过使用GPT 4.0 [2]生成图4中的详细类别描述来研究代码簿增强的影响。表8展示了在UCF-101上的实验结果。GPT生成的描述通过增加更多细节可以提升性能。然而，对于强大的模型，GPT的冗长或嘈杂描述会破坏过度对齐的文本帧特征。因此，只有在文本补充增强视觉语义时，才应利用外部知识，例如GPT。

picture.image

帧数分析 。为了评估所选帧量在置信度感知融合中的影响，作者在4-shot设置下进行了消融研究。作者选择置信度感知融合中相似度最高的前

帧。如图6所示，在HMDB-51和UCF-101上的结果表明，在帧数较低时，可能会遗漏重要信息，导致性能下降。当帧数达到一定阈值后，模型性能趋于稳定，因为额外帧的引入带来的回报逐渐减少。

picture.image

4.4 可视化

作者通过可视化图5中的代码簿展示了VTD-CLIP的定性结果。与静态代码簿相比，动态机制实现了视频帧与文本描述之间的更好对齐，同时展示了帧级判别能力的提升。此外，作者的置信度感知加权策略有效地为关键帧（红色方框）分配了更高的置信度，同时自适应地降低错位段（蓝色方框）和冗余但正确分类的帧（绿色方框）的权重。这种动态机制通过选择性的权重增强了识别精度，并通过抑制特征冗余来提升效果。

picture.image

结论

本文提出了一种简单而有效的视频理解视频到文本离散化框架。作者将文本编码器重新定义为可训练的码本学习器，其中可学习的 Prompt 允许自适应码本更新。然后，作者将帧特征离散化为文本原型，并通过置信度评分获得离散视频特征。最后，作者将离散特征和帧特征进行整合以实现特征融合和识别。实验结果表明，VTD-CLIP在性能上与最先进的方法具有竞争力。

局限性及未来工作：目前，作者仅探索基于关键帧的视频摘要以适应图像-文本模型，但时间建模对于交互或运动等任务至关重要。在未来工作中，作者将设计一个框架以利用视频镜头来处理动态视觉线索。

参考

[1]. VTD-CLIP: Video-to-Text Discretization via Prompting CLIP

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image