浙大提出 OmniCLIP ，提升视觉语言模型的视频理解能力！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

近年的视觉语言模型（VLMs，如CLIP）在视频识别领域取得了巨大进步。尽管这些模型中的强视觉 Backbone 可以提取空间特征，但它们在捕捉和集成空间-时间特征方面仍存在缺陷，这对于视频识别至关重要。

在本论文中，作者提出了一种名为OmniCLIP的工具，它通过专注于学习涵盖空间、时间和动态空间-时间尺度的综合特征（作者称之为omni-scale特征）来适应CLIP进行视频识别。这通过设计包括并行时间 Adapter （PTA）的空间-时间块来实现，从而实现高效的时序建模。

此外，作者引入了一个自提示生成器（SPG）模块来捕捉动态目标的空间特征。PTA和SPG之间的协同作用使得OmniCLIP能够识别帧与帧之间的变化的空间信息，并在时间上评估目标的尺度。作者在有监督的视频识别、少样本视频识别和零样本识别等任务中进行了广泛的实验。

结果表明，作者的方法的有效性，特别是OmniCLIP在16样本设置的HMDB51上取得了74.30%的Top-1正确率，甚至超过了最近的MotionPrompt方法，即使使用了全部的训练数据。

代码可以在https://github.com/XiaoBuL/OmniCLIP中找到。

1 Introduction

随着大规模互联网视频数据的激增，视频识别[1, 2, 17]越来越关键。最近，图像文本预训练模型，如CLIP[29]和[14]已经展示出在下游图像任务[30, 46]中的显著能力，这是因为它具有强大的空间特征提取和开放词汇功能。然而，开发一个类似的视频模型需要大量的计算资源。因此，越来越多的人倾向于将预训练的图像文本模型像CLIP[26, 27, 40]适配到视频识别。然而，CLIP的设计天然针对静态图像与文本的组合，与视频的动态性相矛盾，为视频识别带来两个主要挑战。

第一个挑战是动态目标跟踪，如图[1]（a）所示。这需要模型不仅要在视频的每个帧中识别物体，还要理解一系列帧之间的时间顺序。然而，CLIP作为静态图像文本模型，在处理视频识别方面存在困难，因为它在跟踪物体运动和帧连续性方面表现不佳。第二个挑战涉及到处理视频的连续性。视频，如仍然图像，在时间上演变，改变物体和场景特征。模型需要在识别物体时考虑到这一点，考虑它们在视频中的大小、外观和行为的变化，如图[1]（b）所示。因此，为了解决由视频的动态性所引发的各种挑战，必须在CLIP中集成跨帧的时间信息以提高其捕捉运动轨迹和帧连接的能力。

2 Related Works

视频识别

视频识别是视频领域的一个重要任务。视频识别技术的演进已经取得了显著的进步，从手工制作的基于特征的方法[18, 20, 35]，CNN方法[11, 5, 7]到现有的高性能Transformer方法[1, 2, 24]。然而，由于视频数据的大量性，从头训练视频模型成本高昂且耗时。在这种情况下，预训练视觉模型[8, 29]的出现引起了高度重视，并逐渐成为视频识别任务中图像 Backbone [45, 27]的首选。

视觉语言模型

在各种各样的预训练模型[15, 12]中，像CLIP[29]和ALIGN[14]这样的视觉语言模型在各种下游任务[46, 34, 23]上表现出良好的性能。CLIP以对比的方式通过网络规模的图像文本对有效地将图像和文本表示联系起来。由于视觉语言预训练范式的显著成功，一些研究[44, 13]开始利用视频文本对进行视频语言模型的预训练。OmniVL[36]引入了一个统一的视觉语言对比(UniVLC)损失，目的是在模型预训练过程中最大限度地利用来自不同模态的信息。虽然这些模型表现出出色的性能，但它们的预训练过程通常需要大量的资源。因此，利用图像为基础的视觉语言模型进行视频应用的方法已越来越受欢迎，因为它们提供了一种高效且经济的替代方法。

适应CLIP进行视频识别

为了克服资源的限制，将预训练好的图像模型（如CLIP）适配到视频任务上可以提供一种高效且有效的方法。这种高效适配过程的关键方面是时空模型。一些工作[42, 43, 38, 26]完全基于CLIP Backbone 结构进行了视频特定结构的适配。ActionCLIP[38]在帧和视频 Level 建模多个时间层次的信息，而X-CLIP[26]引入了一种跨帧注意力机制来调制时空信息。OpenVCLIP[41]是为解决开放词汇零样本任务[25]而设计的，涉及微调CLIP模型的所有参数。其他人利用PEFT，例如，适配结构或可学习的提示，将时间学习能力注入到CLIP。EVL[22]利用轻量级Transformer解码器来捕获帧之间的时间交互，而ST-Adapter[27]采用具有3D卷积的高效 Adapter 同时学习时空表示。Vita-CLIP[40]引入了三种类型的提示来增强时间建模。提示型和适配型方法在进行CLIP模型的视频识别时可以更节省资源。在本工作中，作者也采用PEFT的方式将CLIP模型进行迁移到视频识别，并通过一个设计良好的时间 Adapter 和动态空间-时间特征精炼来捕获全范围特征。与TimeSformer[3]和X-CLIP[26]等其他研究，作者的研究重点在于将原始CLIP块中的空间信息与基于时间注意力机制推导出的时间信息无缝集成在一起。这种集成是并行进行的，使得作者的工作在现有文献中具有重要意义。

3 Method

Architecture Overview

图2：与最近的微调CLIP相比的短视频识别。S和T分别表示空间建模和时间建模。

picture.image

(a)ST-Adapter。(b)EVL。(c) OmniCLIP (Ours)动态并行地融合了空间-时间信息。(d)在SSv2数据集上的性能比较。

OmniCLIP是为了在视频识别中处理动态遮挡和时间变化而设计的，将空间-时间特征融合在一起，以获取全面、多尺度的洞察。它主要由视频编码器θ_{V}和文本编码器θ_{T}组成。视频编码器包含两个主要组件：并行时间 Adapter (PTA) 和自提示生成器 (SPG)。此外，通过利用预训练的图像-文本对齐，OmniCLIP使用了特定于视频的处理文本特征来提高零样本泛化能力和视频-文本对齐。

视频编码器θ_{V} 由L个空间-时间块组成，这些块对于提取omni-scale视频特征至关重要，如图3所示。每个块结合了一个使用CLIP预训练权重固定训练的空间ViT层和一个运动捕捉（即，主动训练的视频编码器）组件。给定一个视频，其中包含帧，则对于每个帧（其中）分成K个非重叠的正方形贴片大小为 using一个ViT架构[8]，其中总共的贴片数量K是。每个贴片最初被嵌入到-维特征，其中表示贴片数量。接下来，加入了分类 Token ，使其成为。处理空间-时间块的输入，通过增加位置编码{PE_{i}}{i=1}^{N}和时间编码{TE{i}}_{i=1}^{T}并形成：

后续，一个自提示生成器（SPG）模块提取多分辨率视频信息，开始于自分辨率提示。首先是视频输入，随后通过将提示与输入拼接在一起得到 augmented 视频输入，即。空间 Visual Transformer 层（VT）和时间适应器接收相同的输入，即。然后，可以得到第 i 层的空间输出。

同时，使用一个可学习的时间适应器提取时间线索，如下所示：

然后，一个简单的融合模块将时间线索和空间线索融合起来：

其中是可学习因子，用于平衡两个项目。最后，将 transformer 层最后一个类的标记投影到潜在空间，并用线性层进行转换，得到最终的帧 Level 表示。然后，将聚合的视频 Level 表示公式化：

其中是多头自注意力层，表示平均池化操作。

总体上，PTA 模块用于时间建模，SPG 用于空间细化。这两种模块的结合使 OmniCLIP 能够有效地提取用于视频识别的全尺度空间-时间特征。

文本编码器θ_{T} 包括多个Transformer模块 [33]，在训练过程中始终保持不变。给定一个视频标签和类别名称 "[CLS]"，作者使用预定义的模板 "一个[CLS]行动的视频" 来创建描述：。然后，作者使用文本编码器从文本中提取特征：。遵循 [26] 的方法，作者进一步用视频特定的提示来丰富文本特征。

Self-Prompt Generator

[46] 已在迁移学习VLMs中广泛研究提示学习。“作者的工作中，作者引入了一个独特的提示设计，旨在增强视频空间提取的代表性。这一想法源于视频内部目标分辨率的差异，在不同视角下的视频中。” 因此，捕获不同目标分辨率的特征信息具有相当大的重要性。

为了解决这个问题，作者提出了一种自提示增加强度学习器（SPG）。具体而言，SPG最初使用平均池化对视频输入进行下采样，得到下采样视频特征。然后，这些特征经过一个投影器进行空间映射：

其中，投影器由两个层次的MLP组成。因此，自提示生成器（SPG）可以通过学习固定大小的 ViT 块以增强视频中的空间特征提取。

Parallel Temporal Adapter

如图3所示：（a）作者提出的OmniCLIP框架；（b）PTA建立时间建模；（c）SPG增强空间表示。PTA和SPG的结合进一步提高了空间-时间全范围学习。

为了将基于图像的模型应用到视频识别中，以前的工作 [27, 40, 22] 通常通过加入 Adapter 或提示来捕捉帧间的时间信息。然而，序列 Adapter 结构 [27] 会导致高计算成本，因为存在梯度反向传播。时间融合机制 [22] 严重依赖于空间视觉 Backbone 的表现。作者的主要目标是构建一个能独立提取时间线索的高效时间 Adapter ，并增强原始空间 Backbone 的表示，通过双方向交互 。

为此，作者提出了通过并行时间 Adapter （PTA）构建时间信息的方法。具体来说，PTA由一个可调整的自注意层组成，用于聚合个连续帧中的相同空间位置，其外层是瓶颈结构，包括下层和上层投影。对于第i层的视觉标记，其中为批量大小，为帧数，为 patch 数量，为特征维度，PTA 首先将视觉标记移动到，然后可以提取时间知识：

其中，Down投影器将形状调整后的视觉标记投影到低维空间中，用于计算运动信息；而Up投影器则恢复精炼的时间视觉特征。注意，PTA 模块包含自注意力层，它们与 ViT [8] Backbone 中的注意力块具有相同的结构，而权重则是随机初始化且可调整的。通过将时间维度的相同位置连接起来，PTA 可以有效地捕捉视频中的时间线索。

请注意，PTA的输入包含自提示，这是由SPG模块（见公式6）衍生出来的，它捕捉了多分辨率信息。因此，PTA利用了的时间方面，积累了大规模的空间信息。结合SPG和PTA，OmniCLIP可以访问帧间更广泛的 spatial window，并逐步整合空间-temporal information。

Training Objectives

一旦作者得到视频样本的视频特征表示和类别的描述文本特征表示,作者计算它们的余弦相似度分数来量化地测量它们的语义相似性，即

其中表示内积运算。整个模型是在同一类别下优化视觉-文本语义相似度，而在不同类别下最小化语义相似度。因此，目标函数可以表示为：

其中SM表示softmax函数,表示的唯一类别标签,表示语义相似度向量，其中每个元素表示与候选类别中一个类别之间的语义相似度得分。

4 Experiments

在本节中，作者将通过将其应用到三个不同的视频识别设置（有监督学习、少样本学习和零样本学习）来评估作者方法的有效性。

数据集详情。 以下是作者实验中使用的视频数据集：

Kinetics-400 (K400)。 包含超过230,000个10秒视频片段，来源于YouTube，共有400个类别。
Something-Something V2 (SSv2)。 覆盖174个动作类别。其标准划分是168,913的训练视频，24,777的验证视频和27,157的测试视频。
HMDB51 包含7,000个视频和51个类别。其标准划分是，在3570个视频中进行训练，在另外1530个视频中进行评估。
UCF-101 包含13,000个视频，涵盖101个类别。其标准划分是，在9,537个视频中进行训练，在左边的3,783个视频中进行评估。

实现详情。 表1概述了有监督视频识别的实现具体细节。对于少样本识别 ，根据[26]，作者在HMDB51和UCF101数据集上保持批量大小为8，训练帧数为32。对于零样本识别 ，作者首先使用K400数据集，使用10个周期和32帧进行训练，然后评估其在HMDB51和UCF101测试集上的性能。所有实验均使用8块NVIDIA 24G 3090 GPU执行。

picture.image

Results of Supervised Video Recognition.

数据集和实现细节

作者在四个基准测试集上评估作者的方法：Kinetics-400（K400）[17]，Something-Something V2（SSv2）[10]，HMDB51 [19]，和 UCF101 [31]。在进行的所有实验中，模型总共进行50个epoch的训练。具体而言，对于K400和SSv2数据集，学习率分别设置为2e-3和3.5e-3。此外，作者使用AdamW优化器并结合余弦退火策略来优化作者的模型。除非另有说明，输入样本包括8帧。为了评估目的，作者采用监督设置，并使用4个时域视图和3个空间视图，每个视图包含8帧。

Table 1：在监督设置下OmniCLIP的实现细节。

在K400数据集上的结果

在表2中，作者对各种竞争者和作者的OmniCLIP在K400数据集上的表现进行了全面的比较分析，并评估了它们在几个关键方面的性能。作者的OmniCLIP在Top-1和Top-5准确率方面表现出最佳性能，分别为84.1%和96.7%。与最相关的基于CLIP的竞争者相比，例如ActionCLIP [38]，X-CLIP [26] Vita-CLIP [40]，和M2-CLIP [37]，OmniCLIP展示了优越的性能，在Top-1和Top-5准确率上分别比第二好的竞争者高出0.3%和0.4%。值得注意的是，这些改进在K400视频数据集的规模上尤为突出。此外，OmniCLIP在资源效率方面表现出色，实现了最小为130 GFLOPs，突显了其实现准确度和计算成本之间的平衡的能力。这使作者的方法成为资源受限环境的理想选择。此外，OmniCLIP展示了其适应性和灵活性，通过在SSV2数据集上处理16帧，使其Top-1精度提高了0.3%，但计算成本增加到255 GFLOPs。尽管如此，OmniCLIP仍然显著低于ST-Adapter，突显了在不同的资源约束下，OmniCLIP的灵活性。总之，OmniCLIP在K400数据集上提供了高准确度和低计算成本之间的出色平衡，使其成为有效视频识别任务的理想选择。

picture.image

在SSV2数据集上的结果

SSV2有更多的时间顺序信息且动作描述更为详细。作者选择最近的9个竞争对手进行比较。比较结果如下图所示。图3。作者在固定类ifier的条件下训练视频编码器，以遵循以前的工作[32]。作者的OmniCLIP在SSV2数据集上展现出异常的表现，Top-1精度达到67.0%，同时保持128 GFLOPs的低成本。这种令人印象深刻的效率突显了OmniCLIP有效地捕捉动态视频表示的能力。与ST-Adapter [27]相比，虽然达到了更高的准确度67.1%，但计算成本显著更高，达到489 GFLOPs。OmniCLIP显然在平衡准确度和计算效率方面优于ST-Adapter。此外，OmniCLIP展现了出色的适应性，在SSV2数据集上处理16帧后，其Top-1精度提高到67.3%，但计算成本增加到255 GFLOPs。尽管如此，OmniCLIP仍然显著低于ST-Adapter，突显了在不同的资源约束下，OmniCLIP的灵活性。总之，OmniCLIP在SSV2数据集上提供了高准确度和低计算成本之间的出色平衡，使其成为高效视频识别任务的理想选择。

表4：在HMDB51和UCF101数据集上进行有监督视频识别的比较。表示使用发布代码实现的结果。最好的结果以粗体表示。

picture.image

HMDGB51和UCF101的结果 。表格4比较了五个竞争者和作者的OmniCLIP在HMDGB51和UCF101数据集上的性能。值得注意的是，除了I3D之外，所有方法都是基于ViT-B/16架构。OmniCLIP在两个数据集上的Top-1和Top-5指标都始终优于现有竞争对手。在HMDGB51数据集中，OmniCLIP实现了Top-1的76.64%准确率和Top-5的95.89%准确率。这分别比第二好的方法MotionPrompt在Top-1和Top-5准确率上高出3.74%和2.69%。这进一步加强了作者的方法在捕捉和表示这个具有挑战性的数据集的人类动作细节方面的优越性。同样，在UCF101数据集上，OmniCLIP达到了最高的已报道Top-1准确率96.30%，并以新的基准Top-5准确率99.56%刷新了纪录。

Results of Few-Shot Classification.

数据集和实现细节 。遵循[26]的研究，作者对HMDB51和UCF101数据集进行了少样本实验。对于每个类别，作者随机选择K个实例用于模型训练，并使用测试集进行评估。

性能。表5展示了作者的OmniCLIP在HMDB51和UCF101数据集上与五个竞争对手的对比结果。值得注意的是，随着K（每个类别标记样本的数量）的变化，OmniCLIP始终展现了竞争力的性能，特别是在K设置为2和4时，OmniCLIP达到了最佳的第二名成绩。更为重要的是，随着K的增加，OmniCLIP的优势越来越明显。具体来说，在K = 8和K = 16时，OmniCLIP在HMDB51数据集上的Top-1准确率分别达到了67.3%和74.4%，比第二名分别高出3.3%和9.8%。在UCF101数据集上，OmniCLIP保持了优势，在K = 8和K = 16时，分别达到了91.5%和95.1%的优异准确率，比第二名分别高出2.4%和3.5%。值得注意的是，在K = 16时，OmniCLIP甚至超过了在HMDB51数据集上使用全部训练数据训练的模型（如表4所示。这充分说明了作者的OmniCLIP方法在有效捕捉有限的标记数据时具有出色的鲁棒性和效率。

picture.image

Results of Zero-Shot Classification.

数据集和实现细节 参照文献[26]，作者首先在K400上训练作者的模型，然后在两个数据集上评估零样本迁移学习能力：HMDB51和UCF101。作者遵循文献[47]并报告测试集的三部分平均Top-1准确率和标准偏差。

表现表6展示了作者的零样本实验结果。从结果中，OmniCLIP表现出色。在UCF101数据集上，OmniCLIP实现了卓越的平均Top-1准确率73.2%，比纯CLIP模型显著高出10.0%。此外，OmniCLIP在HMDB51数据集上表现最佳，实现了51.3%的Top-1准确率。这进一步强调了作者的方法在处理多种视频识别任务时的泛化性。然而，需要指出的是，OmniCLIP在UCF101数据集上的性能略逊于一些其他方法。作者归因为数据集对外观和物体存在较强的偏差，这可能限制了作者在捕捉时间信息和依赖性方面的有效性。然而，在作者遇到更关键的时间线索的数据集上，如HMDB51，OmniCLIP的表现依然出色，证明了其优势。

picture.image

Further Analysis

为了评估OmniCLIP内的每个组件的贡献，作者在K400-tiny（原始K400的一半较小版本）和HMDB51数据集上进行了消融研究。此外，作者还提供了可视化图像供进一步观察。

不同模块的影响 。表7呈现了并行时间 Adapter （PTA）和自行提示生成器（SPG）的效果对比。仅集成PTA会导致性能显著提高，在K400-tiny上达到76.40%，在HMDB51上达到75.23%。同样，如果独立实施SPG，结果也会得到提升，在K400-tiny上达到73.20%，在HMDB51上达到71.34%。当PTA和SPG同时使用时，最显著的改进会出现，最终结果在K400-tiny上达到77.20%，在HMDB51上达到76.64%。这表明了融合时间、空间和动态空间-时间全方位特性的协同作用。

picture.image

表6比较了在两个HMDB51 和UCF101 数据集上的零样本性能（以%表示）。最佳结果以粗体标记。

图4：在样本视频上的注意力图，包括原始帧（第一行）、与原始CLIP对应的注意力图（第二行）和与作者的OmniCLIP对应的注意力图（最后一行）。显示的动作如“猛击”、“从某物背后推出某物”和“弹奏竖琴”。

picture.image

时间比例的影响 。时间比例指的是在公式7中使用的Down投影器所使用的时间压缩比，它对视频识别的效率起着关键作用。表8提供了在不同时间调整率下，这些率如何影响识别性能的全面分析。作者的发现表明，1/4的比例产生最佳结果，在K400-tiny上达到77.20%，在HMDB51上达到76.64%。当比例偏离这个最优值时，要么向低值（1/8），要么向高值（1/2，1）移动，作者会观察到性能下降。这表明保持平衡的时间比例对于实现最佳识别结果至关重要。作者假设，过于复杂的时间模块可能导致过拟合，从而降低整体性能。

picture.image

自提示的影响 。表9说明了各种提示生成方法对视频识别性能的影响。Avg.方法使用平均池化， Max.方法使用最大池化进行提示生成。此外，将Projector 集成在提示中代表了一种先进的提示细化机制，通过学习机制实现。发现无论是Avg.还是 Max.池化都能够独立地产生强大的结果，分别获得Top-1精度75.65%和75.10%。这反映了它们在捕捉关键视频内容特征方面的有效性。此外，将可学习的Projector与Avg 和Max 相结合，进一步提高了它们的性能。作者假设，Avg.更适合捕捉平滑且更具代表性的空间特征，这对视频识别至关重要，而 Max**则相反。总的来说，自提示可以有效地与冻结的视觉特征集成，从而灵活地捕捉空间线索。

picture.image

ViT-B/16模型中的不同时间插件位置的影响 。作者探索了将ViT-B/16模型的视觉分支中的并行时间插件的放置位置，该模型被分为12个块，这些块被分组为四组，每组包含三个块。通过战略性地在不同的组中放置时间插件，作者评估了其位置如何影响模型的性能，这一点在表10中有详细说明。将插件插入第一个组（块1-3）可以获得显著改善，性能得分达到K400-tiny上的75.20%和HMDB51上的74.35%。值得注意的是，当将时间插件扩展到所有四个组时，OmniCLIP获得其最佳性能，相较于原始CLIP模型在K400-tiny和HMDB51上分别提高了25.60%和35.74%。这强调了时间插件在视觉分支中的分布对视频识别的重要性，展示了捕捉时间线索的增强效果。

picture.image

视觉化。 图4说明了OmniCLIP的视觉注意力。视频是从各种数据集中的样本，比较的是最后的[CLS]标记的注意力图。结果表明，与纯CLIP相比，OmniCLIP倾向于关注移动目标(如_面包，手)和重要性更高的识别目标(如_胡琴)，而纯CLIP在跨帧的多目标和背景中感到困惑。

不同的时间块组合。 在这个实验中，作者评估了各种将时间块集成的方法，包括级联连接（图5（a））、注意并行连接（图5（b））和作者提出的并行时间块 Adapter （图5（c））。值得注意的是，级联 Adapter 的变体可以被视为一种专门的时间块 Adapter 形式，利用3D卷积捕获空间-时间信息。这些方法的结果汇总在表11中。尽管级联和注意并行框架在时间建模和空间建模方面证明了他们的能力，导致在HMDB51和UCF101数据集上的性能提高，但作者的提出的并行时间块 Adapter 仍超过了这些策略。考虑到级联架构的相对较高的计算成本，作者可以自信地断定，作者的提出的并行时间块 Adapter 不仅在性能上超越了其他集成方法，而且提供了更高的效率。

picture.image

5 Conclusion

在本文中，作者提出了一种创新方法OmniCLIP，该方法通过结合空间、时间和动态空间-时间的全范围特征来适应CLIP模型进行视频识别。作者设计了一种并行时间适应器（PTA），以建立有效的时空建模，从而填补了纯CLIP模型在视频处理方面的一个重要空白。

此外，作者还开发了一种自提示生成模块（SPG），用于精细处理视频的空间尺度特征。PTA和SPG的协同作用使得OmniCLIP能够有效地捕捉动态空间-时间特征。在各种基准测试的实验评估中，OmniCLIP在学习全范围视频特征方面表现出色，尤其在一些少样本视频识别场景中取得了显著的改进。

参考

[1].OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

浙大提出 OmniCLIP ， 提升视觉语言模型的视频理解能力 ！

1 Introduction

2 Related Works

3 Method

Architecture Overview

Self-Prompt Generator

Parallel Temporal Adapter

Training Objectives

4 Experiments

Results of Supervised Video Recognition.

Results of Few-Shot Classification.

Results of Zero-Shot Classification.

Further Analysis

5 Conclusion

参考