备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
当前的视觉语言基础模型(如CLIP)在各种下游任务上表现出了显著的性能提升。然而,这些基础模型是否在显著提升更复杂的细微动作识别任务上仍是一个开放性问题。
为了回答这个问题,并更好地发现野生环境下人类行为分析的未来研究方向,本文通过比较这些模型在零样本和帧级动作识别任务上的迁移能力,对当前最先进的视觉基础模型进行了大规模研究。
广泛实验在最近的一些细粒度、以人为中心动作识别数据集(如Toyota Smarthome、Penn Action、UAV-Human、TSU、Charades)上进行,包括动作分类和分割。
1 Introduction
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
尽管取得了这些成功,但评估主要集中在诸如视频描述、视频文本检索等通用视频理解任务上。视觉语言模型的处理更复杂和细粒度动作理解任务的能力仍然没有得到充分探索,例如零样本动作分类和多标签动作分割。由于这些任务对于许多应用(例如,健康监测和机器人学习)至关重要,因此了解针对细粒度人类动作识别的视觉语言模型的当前挑战至关重要。因此,在这篇论文中,作者对当前最先进的视觉语言模型进行了评估和比较,特别关注它们在零样本分类和动作分割任务上的表现。
为了进一步了解如何充分利用视频语言模型进行零样本动作识别,作者首先比较了从原始动作标签和LLM(如ChatGPT)获得的动作描述,以确定哪种 Prompt 对视觉语言模型更合适。其次,在未剪裁视频中进行零样本动作分割,作者应用当前的视频问答(VQA)模型[14, 24]并进行后处理,以生成帧级动作预测。作者对这些方法以及经典的动作分割方法进行了比较研究,以全面了解每种当前方法的优缺点和局限性。
本文的主要贡献如下。
- 作者对当前的视觉语言基础模型进行了大规模研究,重点关注在野外行动识别任务上的迁移学习。
- 作者进一步提供了关于零样本行动分类不同动作描述生成策略的见解和比较,以及使用视频问答(VQA)模型进行零样本行动分割的不同帧率行动预测策略。
- 作者在多个野外基准测试上进行了广泛实验。
2 SoTA Multi-modal Video Foundation Models
最近,许多方法利用语言特征[21]用于视频理解,视频字幕[36]和视觉问答[2, 28]。
然而,这些方法主要用于处理短时视频,对于在长时间范围内解决动作检测任务仍然存在挑战。这些模型,尤其是InternVideo [33],旨在理解和生成视频内容描述,从而促进对视觉数据的多模态理解。
在本研究中,作者选择了最新的且广泛使用的模型进行比较和讨论。
CLIP [21] 是第一个广为人知的视觉语言预训练视觉基础模型。关键思想是使用自然语言监督预训练一个可迁移的视觉编码器。视觉编码器通过对比学习在大量图像文本对上进行训练。CLIP 成功地证明了语义信息可以显著提高许多下游视觉任务(如图像分类、目标检测)的视觉编码器表示能力。然而,由于 CLIP 基于图像而非视频进行训练,当转移到依赖时间推理的视频基础任务时,其性能仍然受到限制。在本研究中,作者以 CLIP 为基准模型评估其在视频基础动作识别任务上的性能。
X-CLIP [18] 提出了一个新颖的多粒度对比模型,用于视频文本检索。为了有效地聚合细粒度和跨粒度的相似度矩阵到实例级相似度,X-CLIP 提出了注意力相似度矩阵(AOSM)模块,使模型关注关键帧与单词之间的对比,从而降低无关帧和单词对检索结果的影响。借助多粒度对比和提出的 AOSM 模块,X-CLIP 在视频文本检索任务上取得了卓越的性能。在本工作中,作者评估并比较了关注细粒度动作识别任务与其他基于 CLIP 的 SoTA 方法。
ViCLIP 是一种通用的视频基础模型。它使用视觉Transformer(ViT)[11]作为视频编码器,并采用基于Transformer的文本编码器[21]进行自监督训练。通过结合自监督方法,如 Mask 建模[30]和跨模态对比学习[20],ViCLIP可以实现深度特征表示,从而实现有效学习可迁移的视频语言表示。由于视频和文本编码器在包含700万视频和相应生成的2.34亿剪辑的Web规模视频语言数据集[32]上进行了很好的预训练,因此ViCLIP可用于视频和文本特征提取。
ViFi-CLIP 研究了将图像预训练CLIP适配到视频域的简单 Baseline ViFi-CLIP(视频细调CLIP)的能力。
ViFi-CLIP 解决了图像基于 CLIP 模型中缺失的图像与时间关系的问题,这可以有效提高基于视频的下游任务。在本论文中,作者进一步评估该方法在更细粒度任务上的效果。
语言绑定(LanguageBind)[42] 是一种多模态模型,主要通过对比学习以语言为主要手段将不同数据类型(如视频、红外图像、深度图和音频)连接起来。该模型在一大规模数据集(VIDAL-10M)上进行训练,该数据集包含所有这些数据类型及其相应的文本描述,共计1000万个样本。为了增强模型的理解和语言语义信息,通过引入元数据、空间和时间信息来改进文本描述。此外,ChatGPT 还被用于精炼语言并创建每个数据类型的更好语义表示。
时间聊天(TimeChat)[24] 是一种针对长视频理解的时敏多模态大型语言模型。该模型在指令调优的数据集上进行训练,包括6种任务和总共125K个实例。在包括密集描述、时间定位和突出检测等视频理解任务上,该模型展现了零样本学习的 promising 结果。由于该模型可以直接通过相关问题进行行动分割预测,而无需在下游数据集上进行额外的训练,作者将该模型与非常具有挑战性的行动分割任务进行比较,以了解其泛化能力。
UniVTG [14] 提出了一种统一多样视频时空定位(VTG)标签和任务的方法。得益于统一的框架,从大规模多样标签中进行时空定位预训练变得可行,从而发展出更强的定位能力 _例如_,零样本定位。类似于TimeChat,零样本定位可以提供与动作相关的活动边界,因此,UniVTG可以用于零样本动作检测分割任务。在本研究中,作者首次使用UniVTG进行更复杂的多标签和帧级动作分割任务的实验结果。
所有提到的方法在许多任务上都实现了最先进的性能,包括视频文本检索、时间定位、视频字幕生成等。大多数任务都基于网络视频,高度依赖于视频文本对齐的质量,但并未专注于日常生活动作识别场景。了解行动识别任务的最先进基础模型的性能和当前挑战至关重要,因此作者对此主题进行分析,以寻找基于分析的更多未来方向。
3 Current Challenges on Action Recognition
在这项工作中,作者对当前视觉基础模型的性能进行了分析,这些模型在两个具有挑战性的视频任务上表现出色:零样本动作分类和帧级时间动作分割。评估和比较是在真实世界的数据集上进行的。
Zero-shot Action Classification
零样本动作分类是将动作分类模型进行预训练,然后将其转移到未见过的数据集。与依赖于大量动作标签的传统方法不同,零样本方法旨在从已知动作泛化知识到未知动作。具体来说,使用CLIP为基础的方法将动作标签的语义信息(如动作标签的文本描述)和数据集中的视频进行嵌入。然后,在给定视频嵌入的情况下,作者搜索与其最接近的语义信息作为动作预测。作者选择这样的任务,因为它高度依赖于视频-文本对齐,但当前的研究尚未完全评估。
在实际视频理解应用中,识别动作而无需特定训练数据的能力是无价的。然而,视觉特征通常是低级的,如形状、颜色和运动,而动作描述则更加抽象,这使得模型难以准确匹配这两种类型的特征。此外,当前的零样本学习模型仍限于处理相机角度、光线条件等的变化。因此,本研究旨在评估和比较在实际场景中基于CLIP的视觉基础模型在这样任务上的性能,并对其进行比较。
Frame-wise Action Segmentation in Untrimmed Videos
视频行为分割(Temporal Action Segmentation)关注于未剪辑视频帧级活动分类。主要挑战在于如何建模不同时间步长之间各种活动之间的长期关系。
具体而言,行为分割涉及将未剪辑视频序列自动划分为不同段落,每个段落对应一个连贯的动作。
当前方法分为两步:
首先,使用强大的视频编码器在长期视频的时序段上提取视觉特征;
其次,设计时间建模来处理特征。因此,当前视频基础模型中的时间建模性能高度依赖于当前的视频基础模型。
在本研究中,作者通过评估它们在视频行为分割任务上的特征,来比较最先进(state-of-the-art,简称SoTA)的视觉基础模型。
Evaluation Datasets
丰田智能家居 (Smarthome)[9] 是一个现实生活中的以人为中心的日常生活行为分类数据集。该数据集具有挑战性,因为类别间方差较小,活动非常细致。它包含了31个动作类别的16,115个视频,提供了RGB和骨骼数据。作者只使用RGB数据,并遵循跨主题(CS)和跨视图2(CV2)协议,并在本文中报告Top-1准确率。
UAV-Human [13] 特征22,476架无人机捕捉到的人本主义视频,作者使用RGB数据,并遵循跨主题评估(CS1)。
Penn Action [41] 包含2,326个长度为15的简单体育运动动作序列,作者使用这个数据集进行动作分类,使用标准的训练-测试划分。
NTU-RGB+D 120 [15] 将NTU-RGB+D 60的动作类别数量和视频数量扩展到120类和114,480个视频。作者遵循跨主题(CS)评估协议。
丰田智能家居未修剪版 (TSU)[8]扩展了Smarthome的行动类和视频计数,专注于帧级分割任务。该数据集非常具有挑战性,因为一个动作可以在视频中多次执行,同时也可以在同一时间执行多个动作。作者使用TSU来评估SOTA模型的泛化能力,并按照跨主题(CS)和跨视图(CV)评估协议报告每帧mAP。
Charades [29] 关注于细粒度活动分割。它包含许多面向目标的活动和多种光条件变化。当前的方法仍然局限于处理这个数据集,因此作者使用这个数据集进行研究,并报告每帧 mAP。
所提及的数据集与用于训练视频基础模型的数据集不同。作者选择的评估数据集可以进一步反映视频基础模型在日常生活场景中的泛化能力。
4 Experimental Analysis and Discussion
作者进行了广泛的实验来评估在动作分类和分割任务上提到的基础模型的性能。通过在视觉文本预训练后的实际动作分类(见第4.1节)和动作分割数据集上量化零样本学习所获得的性能提升,来研究它们的泛化能力。
Comparisons on Zero-shot Action Classification
视觉语言模型的一个优点与经典模型[1, 4]相比,就是可以应用于零样本分类,即在未见过的数据集上进行分类。零样本分类可以有效地评估视觉和文本特征的对齐情况,在本节中,作者将比较通过视觉语言对齐训练的各种最先进模型的特征质量,这些模型用于实际零样本动作分类任务。具体而言,给定一个视频嵌入,作者寻找其最接近的文本嵌入(使用原始动作标签提取)作为动作预测在近似世界设置中。
表格3中的结果表明,由于原图像CLIP模型在特征上缺乏时间一致性,因此在与视频相关的任务上表现不佳。X-CLIP [18]和ViCLIP [32]通过将视频编码器纳入CLIP模型并在视频任务上进行训练,如视频文本检索[18]和视频分类[32]等,使用了非常通用的视频数据,带来了一定的改进,但仍局限于处理细粒度任务(例如在Smarthome和UAV-Human上)。相比之下,ViFi-CLIP得益于在Kinetics[3]上的特定微调,该数据集包括评估数据集中的许多动作,并可以提高细粒度动作分类的性能。然而,性能仍远低于令人满意的状态。视点、主题和环境条件的变化可能会影响视觉特征的质量。
作者还观察到,在实验室数据集上性能更好,甚至在Penn-action数据集上更好,因为这是一个具有很少动作标签的小数据集。因此,这些结果表明,Vision Language Foundation模型在基本动作(类似于网页动作类别)上表现良好,但在如图2所示的细粒度动作上表现挣扎,仅根据其标签很难区分两个相似的动作。在开放世界设置中进行实验以验证Penn-action数据集上的性能是否仍然良好也将很有趣。
为了深入分析模型,作者在表4中列出了从评估模型中获得最多和最少益处的SmartHome类别。作者发现,对于具有非常相似动作的行为(例如,Uselaptop与Readbook,Walk与Enter),组合动作(例如,Cook.Stir)以及大的视点变化(例如,用于交叉视点评估),最先进的模型仍然存在局限性。从结果中作者可以推理,需要更多的模态(例如,代表人类动作的骨骼数据)和更多的预训练数据,以进一步提高动作识别性能。
Comparisons on Action Segmentation
在本节中,作者将比较在动作分割任务中视觉语言模型的性能。当前用于动作分割任务的方法采用时间模型来处理在未修剪的视频上的连续预提取视觉特征,因此这个实验是为了比较使用它们的视觉特征与两个最近的时间模型分别进行分割任务的顶级模型[21, 22, 32]的表示能力。
表5中的结果表明,与零样本动作分类相似,ViFi-CLIP的视觉表示比其他模型在分割任务上更有效。作者还观察到,Vision Language Foundation模型的性能尚未达到最先进的动作检测方法的[6]水平。这可以解释为这些基础模型是在网络视频中进行训练的,而网络视频与日常生活活动(ADL)视频,如TSU或Charades,有很大的不同。
More Study
在本节中,作者将根据主要结果进行进一步分析。
增强动作标签能否改善零样本结果? 由于原始动作标签过于简单,无法完全表达视频内容,且语义信息不足,作者在两个层面上手动丰富了动作标签的表达,即增强标签和动作描述。然后作者在Smarthome和NTU-RGB+D的子集NTU-10[15]上重新评估零样本动作分类,该数据集包含10个选定的动作。
表6和图3的结果表明,基于CLIP的模型对NTU-10的文本嵌入敏感,动作描述可以提高零样本分类的文本特征。然而,像Smarthome这样的数据集,其中原始标签包含大部分信息(例如,人们在桌子上做咖啡),增强动作标签的效果并不明显。
少样本学习用于动作分割。少样本迁移学习值得称赞,并能在有限的标注数据下获得良好的准确性。这突显了模型在实际应用中的实用性,其中数据稀缺现象较为普遍。作者评估的基于CLIP的模型在时间建模[6]上的少样本迁移能力在表7中得到展示。结果与先前的评估一致,ViFi-CLIP[22]在视觉表示能力上总体上表现最好。
视觉语言模型在零样本动作分割中可以使用吗?对于零样本帧级动作分割,一种解决方案是将零样本动作分类应用于每个帧,这更为复杂。在本节中,作者提出利用当前的VQA方法[14; 24]直接通过针对动作的问题生成给定视频的动作边界预测,作者将在Charades上比较TimeChat [24]和UniVTG [14]的事件级IoU准确性(见表9),作者发现UniVTG [14]更有效。
为了进一步比较VQA模型与使用基于CLIP的时序建模方法(如PDAN [7]与ViFi-CLIP [22]),作者将动作边界转换为帧级预测并使用mAP进行公平比较。表8中的结果表明,即使不需要重新训练,UniVTG模型也可以在Charades上实现比ViFi-CLIP更好的准确性。然而,对于更复杂的情景,如TSU,其中在同一视频中可以执行多个动作并且可以重叠,UniVTG模型仍然难以处理,而ViFi-CLIP特征的两阶段方法。
Discussions and Novel Direction
从作者的研究中,作者发现当前最先进的视觉语言基础模型在动作识别方面仍存在挑战,视觉特征与动作描述之间的语义鸿沟使得捕捉细粒度细节变得困难。
为了解决这个问题,作者建议使用更多的模态(例如,音频[23]和几何[39])来补充视觉信息,并设计更有效的时序建模来捕捉长期时序推理,从而提高动作分割。
此外,作者还可以利用大型语言模型来增强对动作描述的理解,并改进零样本分类。
最后,作者认为来自现实世界和视频生成模型[17]的更全面的数据集可以涵盖更广泛的动作范围。
5 Conclusion
在这项研究中,作者评估了最先进的视觉-语言模型在细粒度动作识别方面的表现,重点关注零样本动作分类和动作分割。
尽管像 ViFi-CLIP 这样的模型,在Kinetics数据集上进行了微调,展现出了最佳性能,而VQA模型UniVTG在零样本动作分割方面显示出了吸引人的结果。
作者的研究结果突出了当前在处理复杂动作和长期时间一致性方面的挑战。这些发现表明,融入额外的模态,如骨架数据,可能会提高模型的准确性和鲁棒性。
未来的研究应探索整合多模态数据和微调策略,以改善动作识别的表现。
[0]. Are Visual-Language Models Effective in Action Recognition? A Comparative Study.