融合视觉感知与语言推理:基于Q-Former启发式模块的视频认知新框架 !

大模型向量数据库视频服务

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

当前视频理解模型在识别"发生了什么"方面表现出色,但在因果推理和未来预测等High-Level认知任务上存在不足,这一局限性源于其缺乏常识性世界知识。为弥补这一认知差距,作者提出了一种新型框架,将强大的视觉基础模型(VFM)用于深度视觉感知与作为知识驱动推理核心的大语言模型(LLM)协同融合。

作者的关键技术创新是一种受Q-Former架构启发的复杂融合模块,该模块将复杂的时空和以目标为中心的视觉特征提炼为简洁的、与语言对齐的表示。

这使得LLM能够有效地将其推理过程与直接视觉证据相结合。该模型通过两阶段策略进行训练,首先在视频-文本数据上进行大规模对齐预训练,随后在精心设计的、旨在激发High-Level推理和预测能力的精选数据集上进行指令微调。大量实验表明,2507在多个具有挑战性的基准测试中实现了最先进的性能。

值得注意的是,它在对未见过的推理任务表现出卓越的零样本泛化能力,而作者的深入消融研究验证了每个架构组件的关键贡献。

这项工作将机器感知的边界从简单的识别推向了真正的认知理解,为机器人、人机交互等领域更智能、更强大的AI系统铺平了道路。

unsetunset1 引言unsetunset

视频数据的激增使其成为信息交换和环境感知的主要媒介,推动计算机视觉研究发生重大演变(9;55)。历史上,该领域在判别任务中取得了显著成功——从基础图像识别(6)发展到视频中复杂动作和手势识别(1)。这一进展体现在诸如手语翻译等专门领域,其中层次模型展示了强大的识别能力(16;18),以及基于WiFi的手势和活动识别等细粒度传感技术,这些技术正变得越来越稳健且抗干扰能力增强。然而,这种“识别”范式主要解决的是“视觉场景中发生了什么”的问题。现在,该领域正转向一个更深刻的挑战:从感知转向真正的认知(60)。这包括使机器能够推理“事件是如何发生的”,并预测“接下来可能发生什么”——这项任务需要远超统计模式匹配的理解水平。

实现这一认知飞跃的主要障碍是“知识鸿沟”。尽管当前模型在架构上极为复杂,但它们通常在封闭世界中运行,缺乏人类能够轻松运用的常识、物理直觉和社会知识的大量知识库。例如,虽然模型可能准确地将视频片段分类为“一个人拿起鸡蛋和面粉”,但它通常无法推理出潜在意图,例如“这个人即将烤蛋糕”。当考虑下一代应用的需求时,这一局限性尤为突出。High-Level人机系统(62)、旨在通过抑制标签噪声以提高可靠性的情感计算(63),甚至通过语言模型进行心理理解等新兴领域(23)都要求对事件进行更深层次的因果理解。类似地,虽然作者现在可以通过商用设备捕捉细致的生理数据,但在复杂人类活动的背景下解释这些数据需要High-Level推理能力。因此,核心挑战在于赋予视觉模型这种外部世界知识。

为弥合这一差距,作者提出了一种新颖的框架,该框架协同融合了现代人工智能中最强大的两种范式的能力:视觉基础模型(VFMs)和大语言模型(LLMs)。2507利用VFMs,例如基于视觉Transformer(6)原理构建并使用多模态监督(41;52)训练的模型,作为系统的“眼睛”。这些模型擅长提取丰富的时空特征,并提供对视觉世界的详细像素级感知。同时,作者采用预训练的LLM,如LLaMA(47),作为“大脑”——一个拥有海量世界知识、因果关系和抽象概念的推理核心,正如GPT-4(4)等开创性工作中的演示所示。2507的核心在于一种精心设计的融合机制,该机制将VFMs提供的连续、非结构化的视觉证据转化为LLM可以处理和推理的离散、类语言格式。这种方法借鉴了Flamingo(2)和BLIP-2(33)等开创性视觉语言架构的成功经验,但明确针对复杂事件级推理和预测进行了定制,超越了简单的描述生成或直接问答。

这项工作在认知视频理解领域做出了若干重要贡献。首先,作者引入了一个新颖且有效的框架,首次将最先进的视觉基础模型与大规模语言模型协同整合,以执行High-Level事件推理和预测,从而果断超越了简单的识别任务。该框架的核心是作者第二个贡献:设计了一个轻量级但功能强大的跨模态融合模块。该组件作为高效的信息 Bottleneck ,将丰富的视觉特征与语言模型的语义空间进行对齐,这不仅支持了复杂的推理,还确保了模型的推理基于直接的视觉证据。为了验证2507,作者的第三个贡献是在多个具有挑战性的视频推理基准上进行了广泛的实验。结果表明,2507显著优于现有最先进方法,并且值得注意的是,在预测未来事件方面展现出卓越的零样本能力,突显了从语言模型迁移世界知识的深远益处。作者相信,本文提出的原理对于增强相关的多模态任务,如视觉对话(19)和视听事件分析(67),也具有相当大的潜力。

unsetunset2 相关工作unsetunset

赋予机器理解和预测视频中事件的能力,是人工智能多个关键研究领域的交汇点。本节概述相关研究现状,从视觉表征学习的基石开始,过渡到多模态模型的演进,最终聚焦于LLM驱动的视频理解、专业推理任务以及具身人工智能的最新进展。

2.1 视觉表征学习基础

迈向有意义的视频理解之路始于强大视觉表征的提取。早期的成功主要得益于卷积神经网络(CNN),其在图像的层次化特征提取方面展现出卓越的能力。然而,Transformer架构的出现,特别是视觉Transformer(ViT)(6),标志着范式转变。通过将图像视为一系列 Patch ,ViT能够应用自注意力机制来捕获全局上下文,这对于感受野有限的CNN来说是一项挑战。这一架构创新为新一代基础模型奠定了基础。对于视频而言,这一原则被扩展到时间域,从而产生了强大的视频基础模型,如InternVideo(52),它通过结合生成和判别目标,从大规模数据集中学习可泛化的表征。此类 Backbone 网络的发展本身就是一项研究领域。随着持续的努力来提高效率和效果,例如通过多目标凸量化(7)等先进的模型压缩技术,或为特定任务(如人群计数(17))设计专用架构。

2.2 从识别到时空理解

基于这些强大的视觉 Backbone 网络,研究已从简单的分类发展到对时空动态的更细致理解。这一演变体现在需要同时在空间和时间中定位事件的任务中。视频定位,即寻找与文本 Query 相对应的特定视频片段,是一个典型的例子。近期研究如(22)专注于开发高效的时序过滤机制,以精确识别这些时刻。

这一目标进一步扩展到生成长视频的结构化摘要,例如创建不同的章节,这一任务由大规模数据集和模型如VidChapters-7M(10)解决。这种细粒度的时序理解是作者工作的基础,因为推理事件因果关系和预测需要精确把握“何时”事件发生。一个相关的任务,文本到视频检索,进一步强调了细粒度对齐的重要性,近期基准如Ground-A-Video(27)推动了将语义 Query 准确匹配到视频内容的当前技术水平。

2.3 视觉语言模型(VLMs)的兴起

High-Level视觉推理的真正催化剂是视觉与语言的有效融合。CLIP (41) 的发展表明,通过大规模对比预训练学习到的图像和文本的共享嵌入空间,能够实现卓越的零样本迁移能力。这一突破为一系列大规模视觉语言模型(VLMs)铺平了道路。早期具有影响力的模型如Flamingo (2) 引入了门控交叉注意力层,将视觉特征注入预训练并冻结的语言模型,展示了令人印象深刻的少样本学习能力。这种“冻结LLM”范式在 (48) 等作品中得到进一步探索,突出了这种经济高效方法的潜力。

BLIP-2 (33) 等架构通过引入轻量级的“Q-Former”模块,在冻结的图像编码器和冻结的LLM之间建立模态桥梁,证明了这是一种高效且参数经济的策略。该领域持续扩展融合的范围,旨在创建VALOR (5) 和 LanguageBind (68) 等全感知模型,这些模型不仅对齐视觉和文本,还将音频、深度和热成像数据统一到统一的语义空间中。这种多模态融合的趋势不仅限于主流传感器;创新研究已展示将商用WiFi信号与视觉融合用于情绪识别 (15) 等任务的潜力,体现了作者工作所依据的协同感知更广泛的原则。

2.4 视频理解和推理的大语言模型

强大视觉语言模型(VLMs)与大语言模型(LLMs)所展现出的推理能力相结合(47; 4),催生了当前的研究前沿:基于LLMs的视频理解。第一波模型通常被界定为“视频助手”,专注于实现关于视频内容的对话。Video-LLaMA(64)、Video-ChatGPT(38)和Chat-UniVi(29)等模型展示了如何将视频编码器与LLM连接起来,以回答问题、生成描述,并就视频内容展开对话。LLaViDA(66)进一步通过情境学习探索了增强这种理解的方法。

随后,研究转向了支持更复杂和结构化的推理。SeViLA (59) 引入了一种自链式问答方法,鼓励模型将问题分解为更小、更易管理的步骤。这与自然语言处理领域的更广泛趋势相一致,例如沿着明确推理路径训练模型 (13)。或许最具创新性的方法是 ViperGPT (45),它赋予大语言模型编写和执行调用各种视觉API的Python代码的能力,从而将大语言模型有效地转变为认知协调者,通过组合模块化工具来回答复杂的视觉 Query 。随着推理复杂性的增加,对处理更长上下文的需求也随之增长。LaVi-L (61) 和记忆增强型 Stammer (34) 等模型专门设计用于应对长视频理解的挑战,这对于追踪长时间内的因果链至关重要。

这一快速进展也促使人们进行对模型局限性的批判性审视,特别是“幻觉”问题,即模型生成与事实不符或不具根基的文本。像Woodpecker(58)这样的研究现在专注于开发检测和纠正这些幻觉的方法,这是构建可靠系统的关键步骤。最终的目标是创建像Emu2(44)、NExT-GPT(54)和Google的Gemini(12)这样的统一化、任意到任意的多模态模型,这些模型旨在无缝处理和生成几乎所有模态的内容。这包括将推理扩展到第三维度,如Chat-3D-v2(56)所探索的,以及利用新型融合架构,如AMAM的模态自适应心智(30)。这些工作中探索的融合原则甚至可以在其他领域找到类比,例如用于语音处理的SUTRA的多视角、多时期架构(42),这表明多模态AI中存在一种普遍趋势。

2.5 事件预测与世界模型

作者工作的“预测”部分直接关联到视频预测这一长期存在的挑战。传统方法通常集中于Low-Level预测,例如生成未来的像素。扩散模型,如MCVD (49) 中所展示的,最近在生成高保真未来帧方面显示出巨大潜力。然而,作者的重点是High-Level语义预测。这与人类轨迹预测领域的研究一致,在该领域,如V-STF (28) 这样的模型通过融合社会和时间线索来学习预测未来的运动。

预测领域最具雄心的愿景体现在"世界模型"这一概念中。先驱性工作如DreamerV3 (20)表明,Agent可以学习其环境动态的鲁棒内部模型,从而能够"做梦"或模拟未来结果以有效规划行动。这代表了从反应式预测到主动式模拟的转变。最近的Genie模型 (46)将这一理念更进一步,从单张图像中学习生成完整的交互式、可玩的2D世界。尽管作者的工作并未构建显式的世界模型,但它秉持着同样的精神:利用积累的知识对未来状态做出明智的预测。生成模型如VideoPoet (32)在从文本合成连贯动态视频方面的卓越能力,进一步表明这些模型在隐式地学习世界深层的预测性表征。

2.6 应用、基准测试和更广泛的背景

视频推理与预测的终极目标是实现智能应用与系统。其中主要受益者是具身人工智能与机器人技术。范式已从被动视频分析转变为训练能够在物理世界中感知、推理和行动的主动Agent。RT-2 (3) 和通用型 Octo transformer (40) 等标志性模型表明,单个视觉-语言-行动模型可以被训练用于控制机器人执行多种任务。这要求不仅理解指令,还要组织和规划复杂行动,而 LEO (37) 等Agent正是应对这一挑战的方案。外部知识在这些具身任务中的重要性通过 OK-VILA (43) 等专业基准得到了强调。

该领域的发展高度依赖于具有挑战性和精心设计的基准测试。CLEVRER (57) 数据集专门针对因果关系和物理推理,而 Test of Time (39) 则聚焦于评估时间理解能力。Ego-Exo4D 数据集 (11) 通过提供同一事件的同步第一人称和第三人称视角,将前沿技术推向新的高度,要求更全面、跨视角的理解。尽管许多研究依赖于传统视觉数据,但替代感知模态的并行发展正在创造新的机遇。使用商用 WiFi (14) 和 RFID (8) 的技术现在能够实现细粒度的活动甚至按键检测 (26)。这些丰富的数据流,通常在复杂的现实世界环境中生成,如机器人车辆感知 (51),需要同样复杂甚至更High-Level的推理模型才能进行有意义的解读。在医疗保健领域,基于视觉的帕金森震颤评估 (53) 或基于 WiFi 的肺功能分析 (65) 特别需要深刻理解微妙的时序模式。

最后,在多样化真实世界数据上训练这些大规模模型也带来了自身的挑战,这促使研究者在联邦学习等领域进行探索,以处理分布式数据和异构网络,例如Finch框架能够在这种环境下实现神经架构搜索(36;35)。作者的工作位于这些进展的交汇点,旨在利用基础模型和High-Level推理来构建一个不仅能够理解视频,还能预测其未来的系统,这对所有这些应用领域都具有广泛的意义。

unsetunset3 方法论unsetunset

在本节中,作者详细介绍了所提出的视频事件推理与预测框架的架构和技术基础。作者的核心论点是,强大的视觉感知系统与知识丰富的通用语言模型(LLM)的协同融合能够解锁单一组件无法实现的认知能力。整体架构如图1所示,设计为从感知到融合再到认知的逻辑流程。它包含三个核心阶段:(1)视觉感知 Backbone 网络,将视频分解为丰富的多级时空特征;(2)视觉语言融合核心,通过将视觉证据转化为语言兼容格式来弥合模态差距;(3)基于LLM的认知推理器,利用该融合表示执行复杂的推理任务。接下来作者将详细描述这些组件。

picture.image

3.1 视觉感知 Backbone 网络

任何视频理解系统的基石在于其从原始像素输入中提取显著且全面特征的能力。为此,作者的视觉感知 Backbone 网络被设计为不仅能够捕捉场景的全局动态,还能捕捉关键物体及其交互的细粒度细节。

3.1.1 空间时间特征提取

作者采用一个预训练的视频基础模型,具体为视频版本的视觉Transformer(ViT)架构变体,例如InternVideo(52),作为作者的主要时空编码器。输入视频

首先被划分为一个由

个不重叠的时间片段组成的序列。每个片段随后被采样为

帧。这些帧进一步被分解为非重叠的块网格,并线性投影到块嵌入中。在序列前添加一个特殊的[CLS] Token 。整个序列随后通过一系列Transformer块进行处理,这些块在空间和时间维度上应用自注意力机制。每个片段对应的最终Transformer层的[CLS] Token 的输出作为其High-Level表示。这些片段表示的集合形成了全局上下文特征集,

其中

表示视频的第

个片段,VideoTransformer

表示通过视觉主干进行的正向传递,

是视觉特征的维度。

3.1.2 以目标为中心的特征增强

全局特征捕捉整体场景动态,而High-Level推理通常依赖于特定目标及其状态。为了向模型提供这种结构化信息,作者通过以目标为中心的特征增强了视觉表示。作者使用预训练的、可 Prompt 的分割模型——任何东西分割模型(SAM)(31)处理视频的关键帧。对于每一帧关键帧,作者使用自动 Prompt 机制(例如基于网格的点 Prompt )生成一组目标 Mask

,其中

是检测到的目标数量。对于每个目标 Mask

,作者使用基于 Mask 的平均池化从视觉主干机的 Patch 嵌入中提取其特征表示。这为整个视频生成了一组目标 Token ,

其中

表示像素位置,PatchEmbed

是包含像素

的图像块的特征嵌入。6

是 Mask

中的像素数量,而

是在所有关键帧中检测到的显著目标的总数。传递到下一阶段的最终视觉表示是全局特征和以目标为中心的特征的连接:

3.2 视觉-语言融合核心

多模态学习中的一个基本挑战是弥合视觉特征连续、高维空间与语言离散、符号空间之间的"模态鸿沟"。简单地将视觉特征投影到语言嵌入空间可能效率低下并引入噪声。为此,作者采用一种受BLIP-2(33)中Q-Former架构启发的复杂融合模块,该模块作为信息 Bottleneck ,提炼对LLM最相关的视觉信息。

该融合核心由少量固定的可学习 Query 嵌入组成,

,其中

通常较小(例如,32)。这些 Query 通过一系列交叉注意力层与视觉 Token

交互,从而训练用于提取视觉信息。在每一层中,可学习的 Query 充当 Query (Q),而视觉特征 Token

则作为键(K)和值(V)。这个过程迫使 Query 总结与语言描述相关的视频中最显著的特征。交叉注意力机制定义为:

分别为 Query 、 Key和Value 的投影,而

是键的维度。

经过多层交叉注意力机制和自注意力机制(在 Query 自身内部)的处理后,所得输出 Query

代表了对视频的压缩式、语言对齐的摘要。这些输出 Query 随后通过线性层被投影到LLM的词嵌入空间中。

其中LinearProj

是一个可学习的线性投影层,

是所选LLM的嵌入维度。这些

个token,

,成为直接附加到LLM输入序列的最终视觉表示。

3.3 基于LLM的认知推理器

在视觉信息被有效分词和对齐后,作者利用预训练的大语言模型作为作者的认知推理器。该大语言模型的任务是将其接收到的多模态嵌入序列作为上下文,生成一个连贯的、基于文本的响应,以满足用户在推理或预测方面的指令。

3.3.1 Prompt 工程与输入构建

LLM的输入是一个精心构建的嵌入序列。它以 Token 化的视觉信息

开始,随后是经过 Token 化并转化为各自词嵌入

的任务特定文本 Prompt

。该文本 Prompt 旨在引发期望的认知行为。例如:

. 用于事件推理: Prompt 可能为,“提供的视觉信息描绘了一连串事件。分析这些事件之间的因果关系,并为最终结果提供逐步解释。”

. 用于未来预测: Prompt 语可以是,“根据视频中观察到的事件,预测接下来最有可能发生的三个事件。对于每个预测,提供简要的合理性说明和0到1之间的置信度评分。”“最终输入到LLM的嵌入序列是

3.3.2 自回归生成与推理

大语言模型(LLM)处理输入嵌入

并自回归地生成文本响应

。在每一步

,模型根据所有先前生成的 Token 和输入上下文预测下一个 Token

的概率分布。

其中

表示所有先前生成的 Token 。在推理过程中,作者通常使用核采样或束搜索等解码策略,从这些概率分布中生成流畅且高质量的文本响应。整个推理过程总结在算法1中。

picture.image

3.4 训练策略与目标

从头开始端到端训练这样一个复杂的多组件模型在计算上是不可行的且不必要的,鉴于现有预训练模型强大的功能。因此,作者采用一种更实用和高效的两阶段训练策略。

3.4.1 第一阶段:视觉语言对齐预训练

在第一阶段,作者的目标是让视觉语言融合核心能够有效地将视觉信息转化为LLM能够理解的格式。为此,作者冻结了视觉感知主干网络和LLM的权重,仅训练融合核心的参数(即Q-Former和线性投影层)。该模型在大量视频-字幕对数据集(例如WebVid-10M)上进行训练。目标是标准的语言建模损失:在融合模块提取的视觉特征条件下预测真实字幕文本。

3.4.2 阶段2:基于指令的微调

融合模块与两个主干网络对齐后,作者进入第二阶段,教授模型进行High-Level推理和预测任务。在此阶段,作者使用一个专门针对视频推理和预测的、经过筛选的高质量指令-响应对数据集。作者解冻LLM参数(或采用参数高效的微调技术如LoRA(21),并继续训练融合核心。目标仍然是语言建模损失,但这次是在真实的推理或预测文本上计算。这一两阶段过程确保模型首先学习基本的视觉描述,然后再掌握复杂的认知任务。

在两个阶段中,整体训练目标是使目标文本序列

的负对数似然最小化。损失函数定义为:

$$$ \mathcal{L}_{LM} = -\sum_{t=1}^{|Y^{}|} \log P(y_t^{} | E_{vision}, y_{<t}^{*}) $="" $$=""

其中

是真实文本序列(在第一阶段为标题,在第二阶段为指令响应),

是模型根据公式5分配的概率。作者使用具有余弦学习率计划的 AdamW 优化器,以实现稳健和稳定的训练。

unsetunset4 实验unsetunset

为严格评估作者提出的框架在视频事件推理和预测方面的能力,作者设计了一套全面的实验方案。本节详细介绍了用于训练和评估的数据集、2507的具体实现细节以及与之进行比较的 Baseline 方法,以及用于衡量任务不同方面性能的多样化指标。

4.1 数据集

作者的两阶段训练策略需要结合大规模网络数据进行初始对齐,以及高质量、任务特定的数据进行指令微调。作者为每个阶段精心选择了一套数据集,并保留了一些用于零样本评估的基准测试。

4.1.1 训练和评估数据集

作者的两阶段训练策略需要精心策划的数据集集合,首先从大规模网络数据开始进行初始对齐,然后使用高质量、任务特定的数据进行指令微调。在第一阶段进行视觉-语言对齐时,作者利用广泛使用的WebVid-10M数据集,该数据集包含超过1000万个视频-字幕对,为学习通用视觉-语义对应关系提供了广泛的基础。为了进一步增强模型鲁棒性并使其接触更多多样、"自然场景"中的情况,作者补充了庞大的HD-VILA-100M数据集,该数据集增加了来自网络的上亿个高分辨率视频片段。

进入关键的第二阶段指令微调,作者通过构建一个丰富、混合的数据集来解决高质量推理数据的稀缺问题。作者整合了成熟的学术基准,包括NExT-QA(因其专注于因果关系和时序推理)和ActivityNet-QA(因其规模庞大且时序 Query 多样性高)。鉴于现有资源的局限性,作者微调数据的基石是作者合成生成的Causal-Vid-Instruct数据集。为了创建该数据集,作者使用包含10万个视频片段的强大教师模型(GPT-4V)(这些视频片段从Ego4D(11)等多样化来源采样), Prompt 其生成详细的因果关系解释和合理的未来预测。这种合成数据为作者希望在2507中培养的认知行为提供了高质量、目标明确的示例。

最后,为了严格评估2507的泛化能力,作者专门保留了一些具有挑战性的基准数据集用于零样本评估。这些数据集包括用于专门诊断时间推理的持续时间测试基准(ToT)(39),用于检测涌现的物理和因果直觉的合成CLEVRER数据集(57),以及用于评估从视频中提取的静止帧所体现的常识推理的VCR基准(60)。在训练的任何阶段,这些评估数据集均未被模型见过。

4.1.2 阶段2:指令微调数据集

这一阶段对于教授模型推理和预测的特定技能至关重要。作者通过结合多个现有的学术基准并补充合成生成的数据来构建一个混合指令微调数据集。

NExT-QA:该基准旨在评估视频中的时序和因果关系推理能力。它包含约5,000个视频和52,000个问答对。这些问题通常需要理解事件之间的因果关系(例如,“为什么角色会摔倒?”)或其时序(例如,“在拿起电话之前,这个人做了什么?”)。作者将这些多项选择题重新格式化为指令跟随形式。

ActivityNet-QA:一个基于ActivityNet数据集构建的大规模数据集,包含5800个视频和58000个问答对。虽然许多问题是描述性的,但相当一部分需要时间推理,使其成为微调的宝贵资源。

因果视频指令(合成):高质量的、基于指令的视频推理数据稀缺。为解决这一问题,作者生成了一个合成数据集。作者从Ego4D(11)和Something-Something v2等多样化数据集中采样了100,000个视频片段。对于每个片段,作者使用一个强大的专有教师模型(GPT-4V)生成“思维链”风格的因果解释和合理的未来事件预测。给教师模型的 Prompt 是:“观察以下视频片段。首先,提供事件的一步步因果解释。其次,预测片段结束后最可能发生的事情。”

生成的(视频、指令、响应)高质量三元组构成了作者的Causal-Vid-Instruct数据集,这对于教授所需的认知行为至关重要。

4.1.3 评估专用基准

为评估2507的零样本学习和泛化能力,作者在训练过程中完全未见过的多个基准数据集上进行了评估。

时间测试(ToT)(39):一个最近提出的基准,专门设计用于诊断模型的时序推理能力,包括事件排序、持续时间比较和时间定位。其对具有挑战性的时序 Query 的关注,使其成为作者推理主张的理想测试平台。

CLEVRER(57):CLEVRER是一个合成数据集,是测试因果推理和物理推理的强大诊断工具。它包含碰撞物体的视频,其中问题需要理解因果关系、物体恒存性和碰撞动力学等概念。在零样本设置下在这个基准测试中取得成功将提供模型涌现物理直觉的强有力证据。

VCR (视觉常识推理) (60): 作者使用VCR基准来评估常识推理能力。对于每个视频,作者使用中心帧,并要求模型回答一个具有挑战性的问题并提供推理依据,以此测试其将知识迁移到基于图像的推理环境中的能力。

4.2 实现细节

4.2.1 模型架构

2507基于强大的公开可用的基础模型构建。视觉感知 Backbone 是InternVideo-B/16模型(52),该模型在广泛的视频理解任务上表现出最先进的性能。基于LLM的认知推理器是instruction-tuned L1ama-3-8B-Instruct模型,以其强大的推理和语言生成能力而闻名。作者的视觉语言融合核心受Q-Former架构启发,包含32个可学习的 Query 、768维的隐藏维度以及8个交叉注意力层,用于提取视觉信息。

4.2.2 训练细节

训练过程分为两个不同的阶段:

阶段1(对齐预训练):作者在WebVid-10M和HD-VILA-100M数据集上仅训练Fusion Core,共4个epoch。视觉主干网络和LLM保持冻结状态。作者使用全局批大小2048,AdamW优化器,学习率为1e-4,

,权重衰减为0.05。采用余弦退火学习率调度,预热2000步。此阶段在32块NVIDIA H100 GPU组成的集群上完成,耗时约8天。

阶段2(指令微调):作者在组合指令数据集上微调模型,共3个epoch。在此阶段,作者解冻LLM,并采用LoRA(21)进行参数高效微调,以保留其预训练知识的同时适应作者的任务。作者设置LoRA秩

,alpha

,应用于LLM的所有线性层。Fusion Core保持可训练。学习率降低至2e-5,使用较小的批大小256。此阶段在8块NVIDIA H100 GPU上完成,耗时约48小时。

4.2.3 对比 Baseline

为证明2507的优势,作者将其与一系列最先进模型进行全面比较。

通用视频语言模型:作者将其与领先的视频对话模型进行了比较,包括VideoLLaMA(64)和Video-ChatGPT(38)。

推理模型:对于推理任务,作者将其与为结构化推理设计的模型进行比较,例如SeViLA (59)和工具增强型ViperGPT (45)。

预测导向模型:针对未来预测,作者与(1)中提出的强 Baseline 模型进行对比,并调整视频生成模型MCVD(49)以生成其预测未来帧的文本描述。

对于所有 Baseline 模型,作者使用其官方发布的代码和可用的预训练权重,并遵循其推荐的评估协议,以确保公平和直接的比较。

4.3 评估指标

评估推理和预测的细微任务需要一种超越简单准确性的多方面方法。作者采用自动指标和以人为中心的评估相结合的方式。

4.3.1 闭端任务的度量指标

对于格式为多项选择题的任务(例如NExT-QA和VCR),作者报告标准准确率,该指标衡量正确回答问题的百分比。

4.3.2 开放式生成指标

或在作者的主要任务——生成用于推理和预测的自由形式文本中,作者使用一系列指标:

基于N-gram的指标:作者报告了标准的基于语料库的指标,包括BLEU、ROUGE、METEOR和CIDEr。这些指标测量生成文本和真实参考之间的n-gram重叠。虽然有用,但它们通常无法捕捉语义正确性和逻辑连贯性。

基于嵌入的度量:为了解决n-gram重叠的局限性,作者采用BERTScore,该度量计算生成文本和参考文本的词嵌入之间的余弦相似度,从而提供更准确的语义相似性度量。

作为裁判的LLM:认识到自动化指标不足以评估推理质量,作者采用了“LLM作为裁判”的范式。作者使用GPT-4o作为公正的评估者。作者精心设计了一个详细的 Prompt ,要求裁判模型在三个关键维度上对生成的响应进行评分,评分范围为1到10:(1)事实基础:响应是否与视频中的视觉证据一致?(2)逻辑连贯性:推理是否合理且易于理解?(3)洞察力:响应是否提供了非平凡的见解或预测?作者报告了在一个大型的随机抽样测试集上的平均分数。

4.3.3 人工评估

质量的最终权威在于人类判断。作者对200个随机选择的测试实例子集进行人工评估研究。作者将视频以及2507和两个强 Baseline 的输出以盲法随机顺序呈现给人类标注者。标注者被要求根据整体质量对输出进行排序,考虑正确性、连贯性和细节。作者报告了模型相对于 Baseline 的胜率/平局率/败率百分比。

unsetunset5 结果与讨论unsetunset

在本节中,作者对作者提出的框架进行了全面的实证评估。首先,作者报告了主要的定量结果,将2507与当前最先进的 Baseline 模型在一系列推理和预测基准测试中进行了比较。接着,作者通过在未见过的任务上进行零样本评估,展示了模型泛化能力。随后,作者进行了一系列深入的消融研究,以剖析模型并验证每个架构组件的贡献。最后,作者提供了定性的示例,以直观地展示模型的行为,并对作者工作的意义和固有局限性进行了更广泛的讨论。

5.1 主要定量比较

作者首先在视频推理和开放式生成的标准基准上,评估了2507与现有方法的整体性能。结果总结在表??和表??中,一致地展示了2507的优势。

5.1.1 视频推理任务上的性能

如表??所示,在作者的推理中心、多项选择题问答基准测试如NExT-QA和VCR上,2507达到了新的顶尖水平。在NExT-QA上,该测试评估因果关系和时间理解能力,2507取得了最高准确率,显著优于通用视频LLM如VideoLLaMA(64)和Video-ChatGPT(38)。作者将这一性能提升归因于两个关键因素。首先,作者明确地包含了以目标为中心的特征,为模型提供了更结构化和更具体的实体交互表示,这对于回答"为什么"类型的问题通常至关重要。其次,作者在第二阶段微调过程中使用了合成生成的Causal-Vid-Instruct数据集,直接让模型接触因果语言的模式,这相对于主要在描述性字幕上训练的模型是一个显著优势。

与SeViLA(59)这类以推理为核心的模型相比,后者采用自链式推理过程,2507性能表明,将强大的预训练LLM与丰富的视觉输入相结合,使其能够比显式分解问题更有效地进行隐式推理。此外,2507在ViperGPT(45)之上表现更优,后者是一种创新方法,利用LLM生成代码。虽然ViperGPT在可以通过组合现有视觉工具回答的 Query 中表现出色,但2507在需要整体常识性理解非脚本化事件的任务上更为突出,这类任务难以通过一系列API调用轻易解决。

5.1.2 开放式生成和预测的性能

2507认知能力的真正考验在于其生成自由形式、连贯文本以进行推理和预测的能力。在表??中,作者报告了使用一系列指标在作者开放测试集上的结果。在基于n-gram的分数(BLEU、ROUGE-L、CIDEr)方面,2507具有很强的竞争力,表明其在生成语法正确且相关的文本方面的流畅性。然而,这些指标已知存在局限性。在BERTScore等语义相似度指标上,2507显示出更显著的优势,证实其生成结果不仅在句法上相似,而且在语义上也更接近真实情况。

最令人信服的结果来自于作者的LLM作为评判者的评估。2507在三个维度上始终获得最高分:事实基础、逻辑连贯性和洞察力。在事实基础维度上的高分验证了作者视觉语言融合核心的有效性,该核心成功提取并保持了与视觉证据的忠实度。在逻辑连贯性维度上的领先分数展示了利用大规模LLM如Llama-3的力量,它能够将视觉信息组织成一个合理的论证结构。最重要的是,洞察力维度的优越分数表明2507能够超越单纯描述,进行非显而易见的推理和创造性预测,这是嵌入在LLM中的广阔世界知识的直接益处。这与许多 Baseline 模型形成对比,这些模型的输出虽然常常正确,但往往更偏向描述性,推理性较弱。

5.2 零样本泛化性能

作者工作的一个关键目标是为模型构建可泛化的推理能力,而不是仅仅过拟合到微调数据中的模式。为了评估这一点,作者在两个具有挑战性的基准测试CLEVRER和持续测试(ToT)上对模型进行了评估,没有任何特定任务的训练。结果如表??所示。

在CLEVRER数据集(57)上,该数据集用于测试在合成3D环境中的物理推理和因果关系,2507在零样本设置下取得了令人惊讶的高准确率。它显著优于所有视频对话 Baseline 模型,这些 Baseline 模型通常无法理解碰撞和物体恒常性的基本物理规律。这表明大规模视频预训练与LLM固有的(尽管不完美)的物理知识相结合,使2507能够发展出对物理定律的涌现直觉。

类似地,在时间测试(ToT)基准(39)上,该基准旨在诊断时间推理能力,2507展现出强大的零样本能力。它成功回答了关于事件顺序、持续时间和关系的复杂问题,其性能远超未明确设计用于此类细粒度时间分析的模型。这一成功表明,2507从训练中学习到了时间的抽象原理和序列,而非依赖于特定数据集的线索。这种泛化能力对于现实应用至关重要,因为在现实应用中,系统必须不断遇到并解释新的场景。

5.3 消融实验

为了剖析2507并定量验证作者的架构选择,作者进行了一系列深入消融研究,结果总结在表??中。研究结果表明,每个组件都发挥着协同且不可或缺的作用。最关键的组件是作者的视觉语言融合核心;将作者受Q-Former启发的模块替换为更简单的均值池化和线性投影方法(无融合核心)导致性能急剧下降。这表明融合模块不仅是 Projector ,更是关键的信息 Bottleneck ,能够有效过滤和转换视觉数据以供LLM使用。此外,当移除以目标为中心的特征时(无目标特征),结构化视觉输入的重要性得到证实。这导致在需要细粒度因果推理的实体交互任务上性能显著下降,验证了作者的混合特征提取策略。作者两阶段训练协议的必要性也得到证明。仅在对齐上训练的模型(无阶段2微调)能够生成基本描述,但在推理任务上完全失败,突显了指令微调对于激发认知行为的重要性。类似地,不使用作者的合成因果视频指令数据集(无合成数据)训练的模型解释和预测能力较弱,证实了高质量、针对性指令数据的价值。最后,将作者的LLM替换为更小的主干网络(更小LLM)导致推理结果缺乏连贯性和细致性,进一步强化了框架的最终能力与其认知核心的强大程度紧密相关的结论。

5.4 定性分析与可视化

量化指标提供了整体性能的度量,但定性示例能更深入地揭示模型的优缺点。作者在图2和图2中展示了几个示例。

picture.image 在因果推理的一个成功示例中,如图??(a)所示,输入视频描绘了一个人在伸手够高处的书时意外碰倒了一个花盆。 Baseline 模型提供了一个简单的描述:"一个人伸手够书,花盆倒下了。"相比之下,2507生成了一个详细、因果的解释:"这个人伸手够顶层的架子,导致肘部碰到了花盆。这种接触提供了足够的力使花盆失去平衡,随后从边缘倾倒并因重力落到地面。"这展示了2507从观察到的事件中构建完整因果链的能力。

在另一个以预测为重点的示例(图??(b))中,视频展示了厨师仔细为一块牛排调味并将其放入热油锅中。2507预测:"厨师可能会在每一面煎烤几分钟以形成外壳,然后可能将其放入烤箱完成烹饪。"这一预测不仅准确,还展示了特定领域的知识(关于煎烤和完成烹饪牛排),这些知识显然源自LLM的常识。

然而,2507并非完美无缺。图2展示了一种常见的失效模式:事实性幻觉。在一个显示技工更换轮胎的视频中,2507正确识别了大部分步骤,但在细节上出现了幻觉:"..ater在拧紧螺母后,技工使用扭力扳手确保它们达到指定的紧固程度。"尽管这是正确的专业程序,但在视频片段中并未出现或使用扭力扳手。这种错误,如(58)中的研究所示,发生在大语言模型的强大先验知识覆盖了即时的视觉证据时。这突显了实现完美且鲁棒视觉基础理解的持续挑战,这也是未来研究的关键领域。

5.5 讨论与局限性

集体结果表明,2507在视频理解方面代表了一个显著的进步。[.]尽管取得了这些有前景的结果,作者承认存在一些明确的局限性,为未来的研究指明了方向。主要考虑因素是训练和推理过程中涉及的巨大计算成本,这是基础模型的一个常见挑战。未来的工作应探索先进的模型压缩技术(7)和更高效的架构,以使这些能力民主化。此外,2507的先进推理部分源于作者合成的指令数据集,这导致了对其教师模型的依赖,并可能继承其潜在偏差。开发使用更多样化、人工策划的数据进行微调或通过直接从人类反馈中进行强化学习的方法将是下一步有价值的进展。事实基础和幻觉的持续问题虽然有所缓解,但也值得进一步关注。正如作者的定性分析所示,确保每一条陈述都完美地基于视觉证据仍然是一个悬而未决的问题,这表明需要更紧密的融合机制或事后验证模块。最后,当前基准与真实世界视频的非结构化、长文本复杂性之间存在明显差距。将2507扩展到处理长达数小时的视频输入,并推理诸如Ego-Exo4D(11)数据集中发现的那种模糊的社会动态,将是该领域一个重大而令人兴奋的挑战。

5.6 讨论与局限性

集体结果表明,2507在视频理解方面代表了一个显著的进步。[.]尽管取得了这些令人鼓舞的成果,作者仍承认存在一些局限性,这些局限性为未来的研究指明了明确的方向。主要考虑因素是训练和推理过程中相关的巨大计算成本,这是基础模型的一个常见挑战。未来的工作应探索先进的模型压缩技术(7)和更高效的架构,以使这些能力更加普及。此外,2507的先进推理能力部分源于作者合成生成的指令数据集,这导致了作者对教师模型的依赖,并存在潜在的

描述视频中所示的过程。

技工正在更换轮胎。他松开螺母,将车顶起,并取下车轮。安装新轮胎后,他用手拧紧螺母。接着,使用扭力扳手确保其达到规定的紧固程度。最后一步是放下车辆。

分析:该模型正确识别了整体流程。然而,它虚构了使用扭力扳手的情况。虽然这是正确的专业程序,并且反映了模型强大的先验知识,但在实际视频片段中,该工具并未出现或被使用。这突显了确保完全事实基础的持续挑战,即大语言模型的强大先验知识有时会覆盖直接的视觉证据。

它继承了其潜在偏见。开发使用更多样化、人工策划的数据进行微调或通过直接从人类反馈中进行强化学习的方法将是下一步有价值的工作。虽然事实基础和幻觉问题有所缓解,但也需要进一步关注。

unsetunset参考unsetunset

[1]. Video Event Reasoning and Prediction by Fusing. World Knowledge from LLMs with Vision Foundation Models

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论