CLIP-VAD:利用视觉-语言模型进行语音活动检测 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

语音活动检测（VAD）是自动确定一个人是否在说话并识别他们说话的时间在音频视觉数据中的过程。传统上，这个任务是通过处理音频信号或视觉数据，或者通过融合或联合学习将两者结合来解决的。

在作者的研究中，作者受到了视觉语言模型的最近进展的启发，引入了一种利用对比语言图像预训练（CLIP）模型的新方法。

CLIP视觉编码器分析由个人上半身组成的视频片段，而文本编码器通过 Prompt 工程自动生成的文本描述来处理文本。

然后，通过深度神经网络将这些编码器的嵌入进行融合以执行VAD。作者对三个VAD基准测试的实验分析表明，与现有的视觉VAD方法相比，作者的方法具有优越的性能。

值得注意的是，尽管作者的方法很简单，不需要在广泛的音频视觉数据集上进行预训练，但它在音频视觉方法中仍超过了几个方法。

unset

unset1. Introductionunset

unset

在作者的网络中，称为 CLIP-VAD ，视觉编码器处理包含上半身图像的视频段，而文本编码器处理由视觉语言模型提供的文本描述。这些编码器产生嵌入，然后通过深度神经网络 ConCat 和融合以执行VAD任务。尽管作者的方法在本质上不是多模态的，因为作者的重点仅限于包含上半身帧的视频段，但是值得注意的是，视觉语言模型能够解释不仅仅是手臂姿势等身体动作，还能够解释面部活动。另一方面，作者提出的架构是多模态的，包括视觉和文本线索。据作者所知，这是首次使用文本数据进行VAD。

CLIP-VAD在三个VAD基准测试上进行测试，与所有SOTA视觉VAD方法相比表现出优越的性能。尽管它没有预在大规模音频视觉VAD数据集上进行训练，但它仍然取得了令人鼓舞的结果，实现了与或优于几项SOTA音频视觉VAD方法的性能水平。这进一步证明了作者的模型，该模型直接在视觉VAD基准测试上进行训练和测试的有效性。

作者的研究的主要贡献和发现可以总结如下：

作者介绍了一种新颖的视觉语言预训练方法，有效利用了该技术。据作者所知，这是首次采用CLIP [33]进行视觉语言活动检测。因此，作者证明了作者的模型CLIP-VAD在视觉活动检测方面超过了最先进的视觉活动检测方法，证实了文本描述和视觉特征的联合学习具有实用价值。
这是首次尝试利用 Prompt 工程化的VLMs进行VAD（语音活动检测）和生成与个人说话活动相对应的文本描述，其输入为上半身图像。尽管独立的VLM模型在VAD任务上可能无法与作者的CLIP-VAD相媲美，但其文本描述有助于提高CLIP-VAD对空间-时间上半身特征的利用率，从而提升CLIP-VAD的性能。
通过广泛的实验，作者证明了作者方法在视觉方法以及单独的VLM之上表现更好。此外，作者的CLIP-VAD在采用比它们更简单的流水线且无需预训练音频视觉数据的情况下，始终能够实现与或超过视听领域的最先进水平的结果。

unset

unset2. Related Workunset

unset

在本节中，作者概述了关于语音活动检测（VAD）的现有文献，并总结了对比语言图像预训练（CLIP）的各种应用。此外，作者阐述了在VAD背景下使用CLIP和视觉语言模型（VLMs）的理由。

Voice Activity Detection

早期的研究主要通过音频信号处理来解决VAD（语音活动检测）任务，这在广泛的文献中都有所体现，例如[29, 30, 32]。然而，在实际场景中，声音可能同时从多个扬声器发出，而且这些扬声器距离较近，因此基于音频的VAD具有挑战性。

特别是，随着卷积神经网络（CNNs）的进步，视觉信息也已被集成到基于音频的VAD中，从而发展出几种采用音频和视觉线索的多模态VAD方法。这些研究，也被称为音频-视觉VAD（也称为音频-视觉活动说话人检测），通常考虑音频和视觉数据之间的时间依赖性。这涉及应用循环神经网络（RNN）[48, 49]，门控循环单元（GRU）[34]，长短期记忆（LSTM）[40, 42]，和Transformer Layer[50]。当充分利用跨模态同步信息时，音频-视觉VAD可以实现高度成功的性能[58, 61]。然而，许多现有工作都依赖于分别编码音频和视频的单模态特征，限制了跨模态同步信息的利用。例如，在提取视觉特征时，一些研究使用3D CNN从视频中捕获时间依赖性[22, 50]。

相反，对于音频特征，CNN通常与对数梅尔或短时傅里叶变换（STFT）谱图作为输入[50]，或直接应用于音频波形[22]。此外，在许多研究中，视觉信息主要被用来将活动说话人与语音链接起来，反映了一种不充分利用视觉数据的方法[14]。值得注意的是，音频-视觉VAD技术利用个体的 Head 剪裁来提取视觉特征，有时专注于唇部动作[6, 9]。然而，这种方法对于正面面部图像特别有效。

另一方面，许多方法仅依赖视觉数据来解决VAD问题。这些视觉VAD方法可以分为两组：一组是分析面部线索，如面部特征；另一组是考虑身体线索，包括手势、 Head 动作和上半身动作。有趣的是，尽管一些视觉VAD研究在缺乏音频的情况下表现出比几音频视觉方法更好的性能，但仍有待改进。总的来说，视觉VAD研究提供了一个重要的选择，尤其是在由于功能、法律或道德限制无法获取音频信号的场景中。

在本研究中，受到视觉语言模型（VLMs）在各种视觉识别任务中取得改进的启发，作者提出了一种结合视觉和文本模态的方法来解决语音暂停（VAD）任务。为此，作者特别利用了CLIP [33]，而文本输入是通过 Prompt 工程产生的。据作者所知，这是首次利用视频片段和相关生成的文本在CLIP框架中进行VAD的工作。所提出的架构比同时应用语音增强[58]或进行长期话者内部上下文处理[50]要简单得多。此外，作者不需要使用[61]中在大规模VAD数据集上预训练的权重。

Clip

VLM 处理图像及其相应的文本描述，学习将两种模态的信息联系起来。模型的视觉部分通常从图像中捕获空间特征，而语言模型则编码文本中的信息。CLIP（对比语言-图像预训练）是这个领域最突出的模型之一。CLIP 的使用包括零样本分类和下游任务的微调，如中的各种论文所示。与常用的下游任务（如图像分类 [45; 60] 和图像分割 [26; 55]）不同，CLIP 也用于各种应用，如图像增强 [23]，单目深度估计 [2]，文本到形状生成 [35]，图像处理 [21]，医学图像处理 [26]，异常检测 [52]，注视估计 [7]，情感识别 [5; 12; 53] 等。

最近的研究，如[5]，强调了CLIP在提取面部图像和表情特征方面的强大能力，这既通过微调也通过零样本学习实现。此外，作者对其他VLMs的研究，尤其是LLaVA-13B [24; 25]，揭示了这些模型在描述说话个体方面的潜力（参见第4节的结果）。作者观察到，LLaVA-13B在关注手势、面部表情和口型方面表现出熟练程度。此外，[57]中呈现的研究为LLaVA在面部情感识别方面的有效性提供了有力的证据。所有这些发现都增强了作者使用LLaVA通过 Prompt 工程与CLIP相结合实现VAD的信心。

unset

unset3. Proposed Method: Clip-VADunset

unset

CLIP-VAD 的结构如图1 所示。它包含视觉和文本两个部分，主要利用 CLIP 架构 [33]。作者的方法包括捕捉个体上半身的短视频片段，以及通过 Prompt 工程提取与之相关的文本描述，这些描述了他们的发言状态。目标是利用捕捉时间信息的视频嵌入和文本嵌入来加强神经网络，判断所描绘的个体是否在发言。

picture.image

Preliminaries

对比语言图像预训练（CLIP）[33]采用了一个双编码器框架，包括一个视觉编码器和一个文本编码器。将输入图像划分为一系列固定大小的 Patch 。这些 Patch 与一个可学习的类 Token 相结合，被转换到统一的视觉语言嵌入空间，得到最终视觉特征，其中表示特征的维数。另一方面，将文本输入（例如 Prompt ）转换为文本嵌入，并使用可学习的类 Token 增加它们，以创建输入特征矩阵。

这个矩阵然后被处理以提取文本特征。通过旨在最大化匹配文本图像对之间的相似度，并最小化未匹配对之间的相似度，CLIP使用对比损失函数进行训练。CLIP使用文本 Prompt 生成特定文本特征，并计算预测值，通过计算图像特征到特征的距离：

picture.image

τ 是温度参数，控制概率分布的规模或平滑性。

Formal description

给定一个包含帧的视频片段和 VAD 标签 ，作者首先对输入进行预处理，以增强预训练 CLIP 模型的利用率。因此，输入帧被重新缩放到与 CLIP 的视觉编码器期望的输入大小相匹配，它可以是 Transformer 或 Residual Network。这些缩放后的帧被嵌入到一个视觉 Token 集合中，其中是 Token 的数量，是每个 Token 的维度。然后，作者计算这些嵌入的平均值，得到一个在时间通道上具有维度的张量。

视频片段的中心帧，用表示，用于为CLIP的文本编码器生成文本输入。采用 Prompt 工程，将与 Prompt 配对，并提供给视觉语言模型（VLM） 以生成文本响应。这些响应然后被传递给CLIP的文本编码器，结果得到文本 Token ，其中被复制以达到的大小。最后，将视觉和文本嵌入连接起来，作为输入提供给融合模型 ，用于将整个视频片段分类为是否说话。

FN 设计为两种模型之一：多层感知机（MLP）表示为或 Transformer 表示为，注意，根据训练数据的规模，一个模型可能优于另一个模型。下一节中的实证证据表明，通常需要比更多的训练数据才能实现更好的性能。包括一个归一化层来处理输入，该输入被转换为三个分支，即、和。用自注意力层描述的多头自注意力被定义为，其中，其中表示特征维度，是转置操作。输出被传递给 VAD 的分类头。另一方面，由多个密集层组成，包括输入层、多个隐藏层和输出层。每个神经元应用一个激活函数到其输入的加权和，引入非线性到网络中，使其能够学习数据中的复杂模式。

Implementation Details

输入包括10帧的个体上半身帧，每个帧共享相同的真实标签，如[37; 38]所述。在训练过程中，如果没有与前10帧共享真实数据的视频段，那么在重复剩余帧直到获得10帧的视频段之前，剩余的帧将被重复。

作者使用预训练的CLIP模型进行了实验，包括 Residual Networks和Vision Transformers（ViT），分别对应ResNet101和ViT-B/16。这些模型都包括一个视觉编码器和一个文本编码器，以及一个预处理函数和一个分词器。预处理函数负责将图像调整为视觉编码器接受的格式，而分词器将文本分割为适合输入到文本编码器的 Token [33]。

在中的每个帧都经过重新缩放，尺寸为224x224，以匹配CLIP视觉编码器预期的输入图像大小。然后，该帧被分割成9个非重叠的 Patch 。这两个 Patch （使作者能够捕捉局部特征）以及完整的上半身图像（使作者能够提取全局特征）被输入到视觉编码器中，产生大小为512的嵌入。因此，每个帧的输出是一个大小为10x512的向量（参见图2）。这个过程对中的每个帧重复进行，结果是总共100个大小为512的嵌入（10x10x512）。最后，在时间维度上计算平均值，将嵌入合并为一个最终大小为10x512的向量，表示整个。

picture.image

作为VLM，作者选择了LLaVA-13B [24; 25]。在作者的案例中，选择了一个由10个帧组成的V的第五帧{o_{T/2}}，并将其作为输入提供给 LLaVA-13B，同时提供一个文本 Prompt ，以生成文本回复。作者尝试了两个 Prompt ：1) 说话的人是谁？回答是“是”或“否”。2) 说话的人是谁？用几句话解释。第一个 Prompt 始终生成“是”或“否”的回复。对于第二个 Prompt ，作者将温度设置为0.2，最大 Token 数设置为50。虽然每个视频段都获得一组文本 Token ，但每个视频段内的每个帧都有视觉 Token 。为了解决这种不平衡，作者的解决方案是每个帧的文本 Token 都进行复制，使文本 Token 的数量与视觉 Token 的数量相匹配。这保留了文本信息的重要性，而没有减少其重要性。

FNT 接收输入20个 Token ：10个视觉 Token 和10个文本 Token 。它包括两个注意力头，两个线性层负责将嵌入维数从512增加到768，以及负责分类的线性层，以及两个处理分类结果以输出最终对数its的正规化层。在 FNMLP 中，有四个线性层，输入大小分别为1024，512，256和1，最后一个层对应分类层。使用ReLU作为激活函数，每个线性层后面都跟随 BatchNorm 。与 FNT 类似， FNMLP 也将连接的视觉和文本嵌入作为输入，不考虑 Token ，导致大小为1024的单个嵌入。

作者为两种模型FN T和 FNMLP**设置了不同的学习率：0.01，0.001和0.0001，权重衰减为。作者使用Adam优化器训练模型，最大训练周期为50个epoch。在训练过程中，作者使用了二进制交叉熵损失（BCEWithLogLoss）作为损失函数。根据（Chen等人，2018；Li等人，2018）中的设置，批处理大小设置为128，其中64个说话样本和64个非说话样本随机选择V段用于每个批处理。作者还采用了（Chen等人，2018；Li等人，2018）中相同的数据增强程序。

unset

unset4. Experimental Analysis & Resultsunset

unset

实验分析包括与最先进技术的比较以及消融研究，在CLIP-VAD的不同组合尝试下，同时评估VLM在视觉VAD方面的性能。为了评估目的，作者使用了三个流行的视觉VAD基准测试：哥伦比亚（Chen等人，2018年）、修改后的哥伦比亚（Zhou等人，2018年）和真实VAD（Chen等人，2018年），这些基准测试被最先进的以上半身活动为基础的视觉VAD技术所使用（参见图3）。

picture.image

陈等人（2018）的哥伦比亚数据集（Columbia dataset）包含一个87分钟的讨论会视频，其中包含多个个体说话活动标注。在哥伦比亚数据集（Chen et al., 2018）中，有大量的不说话帧，而在修改后的哥伦比亚数据集（Zhou et al., 2018）中，各个类别的分布更为平衡。这种更为平衡的分布使得评估结果更为可靠。尽管修改后的哥伦比亚数据集（Zhou et al., 2018）的训练样本比哥伦比亚数据集（Chen et al., 2018）少，但遵循SOTA，作者对哥伦比亚数据集（Chen et al., 2018）和修改后的哥伦比亚数据集（Zhou et al., 2018）进行了评估，评估目标为贝尔（Bell）、波利吉（Bollinger）、李伯曼（Lieberman）、龙（Long）和西克（Sick）。哥伦比亚数据集（Chen et al., 2018）为每位参与者的 Head 位置提供了边界框标注，但在本文中，作者使用（Zhou et al., 2018; Li et al., 2018）提供的上半身裁剪。

另一方面，实时视觉与听觉活动数据集（RealVAD dataset，Chen et al., 2018）包括一个83分钟的讨论会视频，参与者来自各种族背景，包括英国、荷兰、法国、德国、意大利、美国、墨西哥、哥伦比亚和泰国。视频使用静态固定镜头拍摄，捕捉到九位参与者的全身。参与者坐在两排，进行各种活动，导致上半身可能出现部分遮挡。

视觉VAD的标准评估设置包括 leave-one-person-out 交叉验证（即，在交叉验证的每个折叠中，测试集包含来自单个个体的数据，而训练集包含来自所有其他个体的数据）和F1分数 作为评估指标。结果以每个人的F1分数呈现，同时包括所有个体的平均值和标准差。leave-one-person-out交叉验证的应用有助于评估VAD模型在未见个体上的泛化能力，同时考虑到不同人在 Head 和身体运动模式上的变异，这被称为领域迁移问题（Chen等人，2018年）。

Ablation Study

表1和表2中分别列出了CLIP-VAD不同组合的消融研究结果。接下来，作者将详细讨论作者的发现。

picture.image

在第3.3节中，作者使用了两组 Prompt 。对于第一个 Prompt ，响应始终只导致"是"或"否"。在第二个 Prompt 中，作者旨在测试模型的表达能力，获得更复杂和多样的响应，例如“（如图4所示，通过使用LLaVA获得的）这个人没有在说话，因为他们的嘴是闭合的，嘴唇没有可见的运动。”（见图4以获取更多示例）。使用_prompt 1_，作者可以评估单独的LLaVA-13B的[24; 25] VAD性能（表1的实验1）。这种分析导致了整体性能最差，尤其是在主题Sick和Long上，F1分数低于60%。

picture.image

此外，LLaVA-13B生成的文本响应被转换为使用预训练的CLIP文本编码器ResNet-101生成的文本嵌入。对这些嵌入之间的余弦相似度进行分析发现，由第一个 Prompt 生成的文本嵌入的平均相似度超过0.9。因此，可以推理，后来利用这些嵌入作为输入的分类器可能难以区分一个人在说话和没在说话的描述之间的显著差异。因此，作者还测试了将第一个 Prompt 的结果转换为：用“the person is engaged in a conversation”替换“yes”，用“no one is talking”替换“no”，称为“固定”的标题，如表1所示。由于这种变化的后果，余弦相似度被发现为0.75，与用于多模态分类的类似方法相比，被认为有很大的差异。总之，“yes/no”标题仅用于评估LLaVA-13B的分类性能。第二个 Prompt 生成的非常变化和表达的标题被用作表1中称为“variable”的多模态模型的文本输入。此外，“fixed”标题： “the person is engaged in a conversation”和“no one is talking”被用作多模态模型的另一种文本输入。

为了测试预训练的CLIP视觉编码器ResNet101和ViT-B/16在VAD任务上的性能，作者在第3.3节中描述的MLP的设计被附加到它们之上，因为视觉编码器本身缺乏分类能力。从观察到的结果（表1中的Ex. 2 & 3）可以看出，ResNet101不仅与更复杂的ViT-B/16竞争，而且甚至优于ViT-B/16，平均F1-分数高出8%。此外，可以看出域迁移问题如何影响了VAD的结果，特别是对于Bell和Long，在两种视觉编码器上都导致了相对较低的性能，相对于其他情况。

作者进一步尝试测试了微调的ResNet101（实验4）在VAD任务上的性能，因为它的性能优于ViT-B/16。这些结果表明，相对于使用预训练的CLIP，几乎所有个体的性能都有所提高。特别是，与从预训练的ResNet-101分类的嵌入相比，F1得分平均提高了约3%。特别的是，从这些结果可以看出，与预训练的视觉编码器相比，许多评委的有效减轻了域迁移问题。值得注意的是，Bollinger和Lieberman的表现略有恶化。

其他实验涉及各种组合的CLIP-VAD，其中CLIP编码器保持为ResNet101，而在MLP或transformer之间变化，视觉编码器被用作预训练或微调，文本嵌入保持固定或可变（实验5-12）。尽管在平均性能上，具有可变标题和微调视觉编码器的表现最佳，但在某些实例中，仍然优于（例如，在实验5和6中，例如Lie、Bell和平均上）。总体而言，微调和采用可变标题可以提高所有个体以及平均性能。

作者还报告了使用可变标题和微调视觉编码器的和在哥伦比亚 [6] 和真实视图与听觉数据集 [4] 上的结果。值得注意的是，在这些数据集上，由于每个折叠的训练集更大，人们可以看到在上的优越性能。

Comparisons with the SOTA

作者在Columbia（Courant等人，2017年）的数据集（表3）、Modified Columbia（Zhu等人，2018年）和RealVAD（Courant等人，2017年）的数据集（分别见表3）上比较了CLIP-VAD的有效性。总体而言，CLIP-VAD在视觉VAD方法以及某些音频视觉VAD方法中均优于其他方法。由于所使用的基准测试中每次只有一个说话人，且没有重叠的说话，作者声称音频信号在某一时刻可以显著帮助检测是否存在说话人。虽然作者的重点并非超越所有音频视觉VAD方法，而是认识到音频信号在此任务中的关键作用，但作者发现CLIP-VAD在超越某些音频视觉模型方面表现突出。此外，这些结果支持将CLIP-VAD与音频信号相结合以提高整体性能的潜力。具体来说，对于Columbia数据集（Courant等人，2017年）（表3），CLIP-VAD在所有视觉VAD方法以及音频视觉VAD方法中的性能均优于SynNet 、LWTNet（Chen等人，2019年）、LeCun等人（2019年）和UNICON 的平均值。值得注意的是，CLIP-VAD在面板Sick上的性能最佳。此外，当作者检查视觉VAD方法（表3中以max-V表示）和音频视觉VAD方法（用max-AV表示）的最佳性能时，可以明显看出在五分之四的情况下，CLIP-VAD至少优于两种方法。因此，可以主张使用这些方法中的视觉backbone（例如，ResNet50）可以通过微调替换为CLIP视觉编码器，此外，用CLIP文本编码器编码的文本描述可以提高性能。

picture.image

对于修改后的哥伦比亚数据集，CLIP-VAD 在F1得分上平均比 S-VAD 优越5%。在Boll指标上，CLIP-VAD 仅略逊于S-VAD方法。值得注意的是，修改后的哥伦比亚数据集比哥伦比亚数据集更具挑战性，因为它具有更少的训练数据。尽管如此，CLIP-VAD仍然能够超越最先进的SOTA。

picture.image

对于RealVAD数据集，文献中没有一致的评估方法。在本研究中，作者采用了原始论文中使用的方法，该方法包括两种方法：

第一种是在同一数据集上进行传统训练和测试，第二种是在哥伦比亚数据集上进行训练，然后将训练好的模型在RealVAD上进行测试，后者被称为零样本和/或跨数据集评估。此外，张等人对这个数据集进行了评估，他们首先在名为AVA-ActiveSpeaker（朱等人，2018年）的大型数据集上预训练他们的模型。然后，他们要么直接将训练好的模型应用到RealVAD（因此是零样本），要么在RealVAD上微调模型并在同一数据集上进行测试。由于AVA-ActiveSpeaker（朱等人，2018年）的大小和UNICON（朱等人，2017年）在音频和视觉模式上的训练，特别是在微调情况下，UNICON相对于CLIP-VAD和Beyan等人（Courant等人，2017年）的方法具有显著优势，因为它可以访问更大和更多样化的数据集。

此外，考虑到RealVAD数据集（Brockman等人，2017年）通常只包含单个说话者（没有多个说话者或重叠的讲话），音频视觉方法如UNICON（朱等人，2017年）可能比仅视频VAD方法更准确地检测出是否有任何人讲话，仅使用音频信号。然而，如表5所示，在零样本设置中，CLIP-VAD的平均性能与音频视觉UNICON（朱等人，2017年）相当（87.2% F1-score），而它明显优于仅视觉UNICON 和RealVAD（Brockman等人，2017年）（87.2% versus 51.5% F1-score）在平均性能和所有评估者方面。另一方面，在微调实验中，音频视觉UNICON平均比CLIP-VAD高0.5% F1-score，并针对几个评估者（例如P1、P2、P3和P5），这归因于它在大型多模态数据集上的预训练。相反，CLIP-VAD在平均性能上分别比仅视觉UNICON（朱等人，2017年）高+2.6%和RealVAD（Brockman等人，2017年）高+35.2%。

picture.image

unset

unset5. Discussions and Conclusionsunset

unset

作者提出了一种基于视觉语言模型（VLMs）的语音活动检测（VAD）方法。该方法将单人上半身组成的视频片段作为输入，预测其VAD标签为“说话”或“不说话”。当这个视频片段输入到特定VLM的视觉编码器（称为CLIP，Zhu等人，2017年）时，视频片段的中心帧被用于通过 Prompt 工程自动生成关于该人说话活动的文本描述，该描述作为CLIP的文本编码器的输入。最新的视觉和文本编码通过简单的 ConCat 融合，并使用深度模型进行学习，以执行VAD预测。

这项研究是展示视觉文本模型贡献的先驱，它改善了VAD结果，尤其是与仅依赖视觉数据的VAD方法相比。它还展示了一个单独的VLM模型在单个图像和相当简单的 Prompt 下的VAD性能。尽管单独的VLM本身还不够，但由它生成的文本描述在结合视觉特征时，有助于实现更好的VAD。这突显了视频-语言耦合的有效性，这在各种下游任务中都有所体现，表明其在仅依赖视觉线索进行VAD方面的有效性。此外，作者通过实证方式证明，所提出的方法可以与几种音频视觉VAD方法具有可比性或甚至优于它们。

这一成就具有重要意义，特别是考虑到音频是VAD任务的主要模态，如以前的研究所示。在处理没有同时说话人的场景时，音频的参与尤为有效，如本研究所使用的基准数据所示。此外，作者的 CLIP-VAD的显著性能显而易见，特别是考虑到一些SOTA模型已经在大规模音频视觉数据集上进行了预训练。关于CLIP-VAD性能的这些结论不仅适用于传统设置，即训练和测试数据来自同一数据集，而且还适用于零样本设置，即模型在一种数据集上进行训练，并在另一种数据集上进行测试，而无需微调。

参考文献

[0]. CLIP-VAD: Exploiting Vision-Language Models for.

点击上方卡片，关注「AI视界引擎」公众号