点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
在本文中,作者提出了一个新的运动理解任务——基于运动的地景视频推理(Motion-Grounded Video Reasoning),该任务需要根据输入问题生成视觉答案(视频分割 Mask ),因此需要隐式的时空推理和定位。这一任务将现有针对显式动作/运动定位的时空地面工作扩展到更一般的格式,通过允许通过问题进行隐式推理。
为了促进新任务的发展,作者收集了一个大规模的数据集,名为GroundMoRe,其中包括1715个视频片段,249K个由故意设计的4种问题类型(因果、顺序、反事实和描述性)的目标 Mask ,用于对深度和全面的运动推理能力进行基准测试。
GroundMoRe要求模型生成视觉答案,提供了比纯文本更具体和可视觉解释的响应。它同时评估模型在时空地面和推理方面的性能,有助于解决运动相关视频推理、时间感知和像素级理解等方面的复杂挑战。
此外,作者提出了一种新颖的基准模型,名为 Motion-Grounded Video R Reasoning Assistant(MoRA)。MoRA结合了多模态推理能力来自多模态语言模型,像素级感知能力来自定位模型(SAM),以及来自轻量级定位头的时空感知能力。
MoRA在GroundMoRe上的性能优于现有最佳视觉地面 Baseline 模型,平均提高了21.5%。作者希望这个新颖且具有挑战性的任务能够为未来通过视频推理分割实现强健和通用的运动理解开辟道路。
1 Introduction
理解动态视频场景中的运动一直是计算机视觉领域的一个重要课题。它在许多关键的现实世界应用中起着重要作用,例如场景/视频理解,自动驾驶,以及人机交互。现有的运动理解任务(例如动作识别,视频目标分割 )旨在理解空间交互或检测时间跨度内的运动。
然而,运动是一个涉及视觉实体在时间上的互动的复杂时空概念。从动态场景中抽象出的与运动相关的属性是全面理解运动的关键。表1突出显示,现有任务仅从特定角度解决了这一挑战。如图1(a)所示,动作识别主要针对剪辑视频中的动作进行识别,主要使用空间特征。模型不需要区分时间上的细粒度运动模式,而是主要基于时间无关的空间特征来识别“运动”,因为存在潜在的单帧偏差。这导致忽视了细粒度的时间运动模式。相反,图1(b)中的时间动作定位强调时间维度,但在目标层面缺乏详细的分析,依赖于片段级特征。
时空动作检测旨在在两个维度上定位动作,但通常只关注预定义动作(例如,AVA(Gu等人,2018年),MultiSports ,忽视了其他相互作用的目标。这损害了运动理解的完整性。先前的组成动作识别研究了主客体交互,并检查模型是否能区分假动作,但基准(Goyal等人,2017年)只包含短片段,使得该任务在分析运动的时间上下文方面有所不足。因此,一个关键的问题出现了:什么是更全面的运动理解任务?受到图像领域最近提出的推理分割任务的启发(Lai等人,2023年),并考虑到运动的空间和时间性质,一个可行的答案是设计一个隐式视频推理分割任务,其中需要考虑感兴趣的运动的所有必要空间和时间因素,然后将运动相关的目标,可以将其视为对应运动的媒介,作为最终响应被遮挡。
首先,理解特定动作需要分析其空间背景。例如,在交互场景“一个男孩用球娱乐”中,实体“一个男孩”和“球”构成了动作“踢”的空间背景。对“踢”动作的全面理解需要抓住交互三元组<一个男孩,踢,球>。然而,当前的基准测试(例如,AVA(Gu et al., 2018))主要关注以人为中心的情况,忽视了交互的双向性。更有效的做法是采用问题回答格式,利用与动作相关的目标来可视化和推理交互,从而增强空间理解。其次,时间背景对于理解不同动作至关重要。时间信息不仅定义了时间边界,还允许理解动作之间的因果关系。例如,在“女人在拿出牛奶之前打开冰箱”中,这两个动作是相关的,需要理解两个动作才能完全理解。因此,可以设计一个完整的场景描述与时空背景转化为与动作相关的问题的问答模式。然而,仅仅回答问题并不能完全传达运动理解,因为语言本身,如果不视觉化,并不是视觉概念最直接的解释(Glenberg和Kaschak,2002),而且时间信息不能精确用词语表示(Xiao等人,2024)。最近的研究Yan等人(2024);Liu等人(2023);Bai等人(2024)引入了一个名为视频推理分割的新任务,这与作者的工作密切相关。然而,他们主要强调通过隐性推理实现目标目标的时空定位,而忽视了运动理解的关键成分--时间定位。
为了解决这些问题并促进对运动全面的理解,作者提出了一种新的任务:运动定位视频推理(如图1(e)所示)。该任务要求模型将与运动相关的疑问以及视频作为输入,并输出特定目标的像素级空间-时间分割 Mask 作为视觉答案。这样的详细空间-时间定位允许进行高级运动理解。
为了进一步评估多种空间-时间推理能力,作者在新收集的数据集GroundMoRe(通过运动推理定位)中仔细设计了四种类型的疑问:因果问题探索运动背后的动机,顺序问题探究时间相邻运动顺序,反事实问题用于想象和推理虚假现实,描述问题询问关于一般动态场景或抽象运动相关属性的信息,如能量、顽皮、激动等。GroundMoRe包括约1715个视频片段,7577个疑问,以及涉及3942个不同目标的249K目标 Mask ,以确保对运动理解的强大评估。此外,作者的任务与视频目标分割(VOS)(Xu等人,2018;Ding等人,2023)相协调,但引入了额外的挑战:1)使用隐式问题输入而不是显式指代表达,和2)需要空间-时间目标 Mask 而不是仅空间(目前RVOS数据集中没有时间定位要求),强调需要准确的时间感知。作者强调新任务在多样化实际应用中的实际效益。例如,在公共交通中定位潜在威胁通常涉及对嫌疑人(Yu等人,2023;Sultani等人,2018)的模糊信息。一个强大的运动定位视频推理系统可以通过处理类似于“谁在机场表现得可疑?”这样的 Query ,有效地区分具有隐式推理和空间-时间定位的异常行为。
作者在GroundMoRe上对各种图像/视频定位 Baseline 进行了广泛的评估,尽管在其他基准测试上获得了具有竞争力的性能(表3),但它们在作者新的任务上表现不令人满意。考虑到任务的时空推理和定位性质,作者进一步提出了一种新的 Baseline 模型称为 Motion-Grounded Video Reasoning Assistant(MoRA)。MoRA将LLaVA作为推理模块,该模块能够进行复杂多模态推理,并使用预训练的SAM(Kirillov等人,2023b)解码器作为 Mask 头。
为了进一步增强模型对时间的 Aware ,作者引入了一个新的**[LOC]** Token 用于时间信息嵌入,并添加了一个时间定位头来解码二进制时间 Mask ,从而抑制在时空 Mask 解码过程中的错误时间激活。MoRA在提出的GroundMoRe上实现了整体最先进性能,但仍存在巨大的改进空间(例如,Miao等人(2024年)在Ref-YouTubeVOS上的JF指标达到67.1,而在GroundMoRe上仅为10.41)。这也强调了GroundMoRe的难度增加。
作者的贡献如下:
作者提出了一个新的任务,即_基于运动的视频推理_,用于评估多模态模型的推理和感知能力,以实现运动理解。这一任务旨在填补参考式视觉语义/动作检测与与运动相关的视频推理之间的差距。
作者收集了一个大规模和多维的视频数据集,名为GroundMoRe,用于提出的运动-地面视频推理任务。
作者全面评估了现有的图像/视频定位基准模型在GroundMoRe上的性能,揭示了它们在运动理解方面的不足。另一方面,作者提出的MoRA方法在GroundMoRe上实现了最先进的性能。结果还表明,在未来的改进方面还有很大的潜力。
2 Related Work
视频运动理解在视频分析中至关重要,它为解释动态场景和活动提供了基础。动作识别在视频中识别特定动作,而时间动作定位则确定这些动作的精确时间间隔,这需要对时间上的运动模式有深入的理解。时空动作检测和视频目标检测在空间和时间域中预测目标边界框。视频目标分割(VOS)(Xu等人,2018)和视频跟踪(Cheng等人,2023b)通过目标的外观在视频中捕捉移动目标。要全面理解运动,理解其时空上下文至关重要,包括涉及的物体和相邻的时间信息。在本文中,作者提出了基于运动和地面视频推理的新任务,该任务旨在根据运动的空间和时间上下文进行推理,并相应地生成视频目标 Mask 。
时空视频定位涉及利用时间线索根据自然语言表达定位、识别和解释目标。现有 Pipeline 要么关注增强视觉/文本语义理解,要么关注强化跨模态交互。动作定位旨在根据目标相关的表达和最近的工作MeViS(Ding等人,2023年)引入了更复杂的运动表达,需要高级的运动理解来分割移动目标。然而,这些先进的框架在定位感兴趣物体的空间和时间维度上取得了出色的性能,但这些工作主要关注上下文 Level 的理解,无法执行复杂的推理和运动上下文感知。最近的工作将LLM的推理能力与定位任务联系起来。PG-Video-LLaVA(Munasinghe等人,2023年)是一个具有像素级定位模块的
视频推理是多模态视频理解的高级领域,使模型可以通过综合解释视觉和文本语义来回答基于视频的问题。早期的工作如MovieQA(Tapaswi et al., 2016)使用电影作为视觉来源,提出需要理解长时间的时间对应和对话逻辑的问题。TGIF-QA(Jang et al., 2017)引入了涉及重复动作和状态转移的更具挑战性的问题类型,需要进行时空推理。Causal-VidQA(Li et al., 2022)探索了常识和证据推理。
最近,NeXT-GQA(Xiao et al., 2024)强调了答案的视觉证据,类似于作者的GroundMoRe,但作者还提供了像素级标注,并专注于运动。PerceptionTest(Patraucean et al., 2024)是一个旨在评估多模态视频模型感知和推理能力的基准测试。它包括基于地面的视频问答,但缺少像素级运动定位。
作者的Motion-Grounded Video Reasoning被提出作为一个视频问答任务,答案是空间-时间 Mask ,提供了一个更直观的评估运动理解的方式。
3 GroundMoRe for Motion-Grounded Video Reasoning
Motion-Grounded Video Reasoning
任务定义。作者提出了一种名为运动-地面视频推理的综合运动理解任务。本质上,输入是一个视频片段 ,其中 、、 分别表示视频长度、宽度和高度,以及各自的通道数。对应的问句 与特定运动相关,直接答案是该视频中的一种目标。为了让模型理解运动何时何地发生,并在像素 Level 生成地面响应,作者需要输出与运动相关的二值物体分割 Mask ,其中 。
任务挑战。所提出的运动-地面视频推理的关键挑战在于以下两点:1) 对问题和**2) 像素 Level 的目标移动物体在空间和时间维度上的理解能力。具体而言,对于第一点,模型需要理解目标运动与其时空上下文之间的关系,例如在视频中,“女孩给狗喂狗粮,之后从柜子里拿出狗粮”。对于运动“喂”,要完全理解这个概念,其空间上下文“女孩”和“一块狗粮”也应该被很好地感知到;
而时间上下文,即“从柜子里拿出狗粮”的时间相邻的运动,也应该被理解,因为它作为答案的时间约束。然后,基于问题“谁在从柜子里拿出狗粮之后给狗喂狗粮?”,只有当所有时空上下文都被很好地理解时,模型才能知道答案。其次,一旦模型推理答案,它也需要用一系列时空 Mask 表示答案,因为只有语言输出不能避免偏置响应(Xiao等人,2024年)(例如,在一场球类运动视频中,当问及运动“玩”时,现有的QA模型往往在没有视觉线索的情况下回答“球”。在作者这个任务中,只有视觉响应才能让作者知道模型是否知道何时何地以及与谁发生了运动。
Video Collection
在作者的运动地面视频推理中,需要像素 Level 的响应。因此,作者精心挑选了来自YouTube的高分辨率视频(720p)作为作者的源视频。为了确保作者的数据集中有足够的运动语义和推理概念,作者选择了来自四种场景的视频:家庭、动物、球类运动和户外活动。具体来说,家庭视频通常包括足够的室内人与人互动和人与物体互动,涵盖代表日常事件如烹饪、聚会等。动物视频包含野生动物互动以及大量人与宠物互动。球类运动视频包括最常见的球类相关运动如篮球、足球等。
这些视频通常包含一系列与玩家之间强烈的时间对应关系的高度密集动作。最后,户外活动视频包含诸如徒步和冲浪等一般户外事件,以及正常事件如孩子们在公园玩耍。作者以此方式设计数据集,以确保它能够成为一个具有多样化视频类型的基准,以评估日常生活中全面的运动相关推理。视频场景的详细信息可以在附录A.1中找到。此外,作者选择了包含丰富运动语义的短片段,大部分都在5到15秒之间。为了确保GroundMoRe中包含足够的时间信息,作者故意排除了那些在不需要时间信息的情况下可以轻易解决运动理解的情况。GroundMoRe与其它相关数据集的比较显示在表2中。需要注意的是,与MeViS(Ding等人,2023年)和VidSTG(Zhang等人,2020年)等最相似的数据集相比,MeViS不支持隐性推理,即输入表达式包含答案的标识;而VidSTG更侧重于一般目标关系,并提供像素级标注。关于GroundMoRe必要性的更多讨论可以在附录A.4中找到。
Annotation Pipeline
作者招募了一支由15名计算机科学专业、具有视频理解经验的本科生作为作者的付费标注员,以确保高质量的标注。其中,10名被分配到问题标注任务,其余的人专注于遮挡。
为了便于标注,作者为问题标注设计了一个两阶段标注流程:1)与运动相关的表情标注;2)利用LLM辅助进行QA生成。
问题标注阶段1:运动相关表情标注。正式地,因果互动表达式具有以下格式:obj_A, 运动, obj_B, 做某事. 这种表达式可以揭示特定运动的动机。时序互动表达式可以分析时间相邻的运动,其格式为:obj_A, 运动, obj_B, 在另一个运动之后/之前. 在这种设置中,作者希望模型在时间上下文中理解运动,这个问题产生的表达式可以评估模型的时间 Aware 。此外,作者还有描述性表达式,包括一般动态场景描述和从特定运动中抽象出的运动相关属性。第二个描述性表达式可能更具挑战性,因为它没有提到任何运动,但需要详细地跨模态和常识推理。
第二阶段:基于LLM的QA生成。作者在GroundMoRe数据集中定义了四种类型的问题:因果问题是由交互因果表达式生成的,挑战模型根据背后的动机理解交互中的复杂关系。顺序和反事实问题都是由交互时间表达式生成的。前者调查不同动作之间的时间关系,后者需要出色的推理能力来想象与现实冲突的情况。描述性问题是由描述性问题转换而来,它评估理解一般场景和使用视觉常识推理的能力。图2中展示了几个QA示例,详细的问题类型统计数据可参见附录A.1。
在问题生成之前,作者要求标注员为与表达式中的潜在答案相关的每个目标额外标注一个索引,以便指出针对作者使用的LLM在问题中的目标。基本上,作者利用GPT-4的强大文本生成能力进行问题生成。作者精心设计了一个 Prompt ,以情境方式(见附录A.2的详细说明)要求GPT-4根据表达式和目标目标生成一个问题及其相应的答案。标注员手动检查所有QA以确保质量。
Mask 标注。 作者使用XMem++(Bekuzarov等人,2023年)的交互式工具作为作者的 Mask 标注工具。首先,作者要求标注员为运动时间范围内的每个目标标注 Mask 。具体来说,给定视频片段和相应的目标ID信息,标注员需要为运动时间范围内的每个目标标注 Mask 。如图2所示,作者提供了GroundMoRe的几个代表性示例。附录A.2中提供了更多的标注细节和示例。
质量控制。在完成标注过程后,数据集会分配给不同的标注员进行质量验证。如果标注员能够根据视频片段得出与原始标注相同的答案,则认为该问题标注是合格的。在蒙版标注中,通常存在两个常见问题。第一个问题是正确的蒙版-答案对,但蒙版质量较差;第二个问题是错误的蒙版-答案对。对于第一个情况,标注员会提高蒙版质量,原始标注员会再次检查,这个过程将持续,直到实例达到所需标准;对于第二个情况,由于重新标注一个实例所需的努力较少,作者只需要直接丢弃那些有缺陷的标注。最后,所有的蒙版-答案对都将符合标准。更多详细信息请参见附录A.2。
Dataset Statistics
作者将GroundMoRe与现有的流行RVOS数据集Ref-YouTube-VOS(Seo等人,2020年)、Ref-Davis17(Khoreva等人,2019年)以及最近的MeViS(Ding等人,2023年)进行了比较。GroundMoRe包含1,715个视频、7,577个问题和249K个目标 Mask 以及3,942个目标。平均视频剪辑时长为9.61秒。GroundMoRe被分为1,333个训练和382个测试视频。该数据集现在可在https://huggingface.co/datasets/groundmore/GroundMoRe处找到。
如图2(a)所示,大多数片段的持续时间在5秒到15秒之间,这足够包含足够的动作语义。这个范围确保了片段捕捉到完整的动作和交互,为问题提出提供了丰富的上下文。在图2(b)中,可以看出GroundMoRe中的大多数动作持续时间为2秒到6秒,突显了作者数据集中时间定位的挑战。这些短持续时间的动作需要精确的时间理解和分割,增加了GroundMoRe的复杂性。此外,每个视频片段的平均动作(片段)比率为51%。如图2(c)所示,对于大多数片段,问题的数量超过2个,其中许多问题有4个或更多。这表明GroundMoRe为每个片段提供了多样化的问题,确保了对片段内容的全面评估。这也意味着每个片段包含多个不同的动作语义,需要进行不同的提问。在图2(d)中,分布显示大多数问题的长度足够长,通常在7到15个词之间。这个长度反映了问题的复杂性和详细程度,强调了GroundMoRe的难度。问题中的大量词数确保了它们具有描述性和上下文丰富性,进一步挑战系统提供准确和详细的回答。附录A.1中包含更多的详细信息和统计数据。
4 Experiments
在本节中,作者首先列出流行的图像/视频定位框架(第4.1节)。然后,作者介绍了作者提出的基准线程 Motion-Grounded Video Reasoning Assistant (MoRA) (第4.2节)。接下来,作者在推理能力、时间上下文和局部定位分支方面提供了详细的评估结果和分析(第4.3节)。
Baseline Models for Evaluation
作者选择了以下 Baseline :
-
参考VOS模型:ReferFormer (Wu等,2022b),SgMg (Miao等,2023),HTR (Miao等,2024) 和 LMPM (Ding等,2023),它们都是纯视觉分割模型,没有LLM。
-
图像推理分割模型:LISA (Lai等,2023) 和 PixelLM (Zhongwei等,2023) 具有强大的LLM,并配备了额外的空间定位头。作者以帧为单位逐步将它们应用到视频中。
-
视频推理分割模型:PG-Video-LLaVA (Munasinghe等,2023) 是基于视频-LLM (Maaz等,2023) 和强大的定位模块(Kirillov等,2023b;Liu等,2023b;Cheng等,2023a)构建的,以及 VISA Yan等(2024) 是基于LLaMA-VID Li等(2025) 和SAM Kirillov等(2023a)构建的。由于作者的任务可以采用非端到端、两阶段方式(先回答,然后分割)解决,作者还评估了**4) 两阶段 Baseline **,它们由强大的通用视频-语言模型(ViLA (Lin等,2024) 和 VideoChat2 (Li等,2024))/视频问答模型(SeViLA (Yu等,2023a))和参考VOS模型组成。
Our Method: Motion-Grounded Video Reasoning Assistant
作者的 Motion-Grounded Video Reasoning Assistant (MoRA) 是基于 LISA(Lai 等人,2023),这是一个基于图像推理分割框架,配备了强大的 LLaVA(Liu 等人,2023a)和 SAM(Kirillov 等人,2023b)。为了实现高效的帧编码,作者利用了 Video-ChatGPT(Maaz 等人,2023)中的时空池化机制。作者在 LISA 中利用了分割 Token [SEG] 进行空间分割。然而,在作者任务中最具有挑战性的的一点是,作者需要不仅要在空间维度分割目标,而且要在时间维度定位它们。因此,如图4 所示,为了构建一个统一的基于 LLM 的框架,作者利用了额外的 [LOC] Token 来编码语言空间中的时间边界信息。[LOC] 嵌入将由 MLP 层解码为时间 Mask ,以防止在帧级 Mask 解码过程中出现错误的激活。
在训练过程中,作者直接使用预训练的LISA模型来初始化作者的MoRA,因为其具有良好的文本-目标对齐能力。此外,为了使模型在视频域适应视觉对齐,作者首先使用Ref-YouTubeVOS(Xu等人,2018年)和MeViS(Ding等人,2023年)数据集(作者将原始文本标注转换为问答格式,以强制MoRA遵循指示)预训练20个epoch,不使用时间局部化模块,这可用于零样本评估。然后,作者使用GroundMoRe的训练划分,配备局部化模块,对MoRA进行20个epoch的微调。
Evaluation and Analysis
指标。参考先前的研究,作者使用了以下流行指标:Jaccard指数()(Jaccard,1912年)和F-measure()(Dice,1945年)。 估计预测和真实 Mask 的IoU, 表示轮廓精度。作者还报告 来反映整体性能。作者在GroundMoRe上评估模型在各种问题类型上的性能,揭示它们在不同方面的定位和推理能力。
Baseline 比较
如表3所示,作者首先用相应的YouTube视频标题替换问题,并使用噪声文本标签作为随机 Baseline ,使用ReferFormer 作为随机 Baseline 运行RVOS任务。与随机 Baseline 相比,RVOS模型取得了合理的改进,尤其是LMPM,它也是由MeViS 数据训练的,该数据包含比简单参照VOS数据集更多的运动相关数据。令人惊讶的是,图像推理分割 Baseline 和强大的LLM相比,低于RVOS模型。这可能是因为那些图像级模型缺乏时间建模,使得在跨帧传播目标物体信息时很难。对于PG-Video-LLaVA ,尽管它是一个视频推理分割/定位模型,但性能甚至不如最好的RVOS模型。一个可能的原因是,由于其视频LLM的冗余响应,它倾向于根据场景描述将所有显著目标都进行定位,导致更多的假阳性。此外,VISA Yan等人(2024)是视频推理分割的最新模型,在作者的基准测试上表现不佳。一个可能的原因是,其帧采样策略无法有效针对关键帧,因为真实值只占据了时间跨度的一部分,导致在它们的面部识别过程中累积出可怕的错误。相比之下,两阶段 Baseline 在GroundMoRe上表现出普遍更强的结果,特别是SeViLA Yu等人(2023),可能是因为它们的增强推理能力,产生了更准确的目标响应。两阶段 Baseline 的视频LLM的详细信息可以在附录A.6中找到。对于不同的问题类型,作者还可以观察到,在_因果_和_描述性_问题中,基于ViLA和SeViLA构建的两阶段 Baseline 优于MoRA,作者假设在未使用额外的定位模块进行训练时,ViLA和SeViLA在这些问题中保持其强大的推理能力;而在时间相关问题(即顺序和反事实)中,作者的MoRA中的时间头起到了作用。
总之,作者的MoRA实现了新的最先进水平,平均比现有最好的视频推理定位模型(PG-Video-LLaVA)优越11.28。这可能有两个原因:
(1)PG-Video-LLaVA中的语言模型为其定位模块提供含糊的响应,而在MoRA中的 [SEG] Token 是端到端训练的,可以传达目标物体的更多有用特征;
(2)PG-Video-LLaVA以及其他 Baseline 都没有包括任何时间定位设计,而MoRA中的 [LOC] ,由运动的时间戳进行监督,可以导致准确的时间估计。
然而,作者的MoRA设计仍然很基础,在模型训练和模型设计方面都存在大量的改进空间。例如,可以取代LLaVA更好的LLM,这些模型是通过更多运动敏感的语言语料库进行训练,以增强动态场景中的视觉语言对齐;尽管时空池化高效,但不可避免地会导致信息损失;更好的时间敏感建模也可以取代简单的时序定位头。
数据集诊断 为了展示GroundMoRe确实引入了第3.1节中提到的问题,作者从两个方面对GroundMoRe进行诊断,即隐性推理和时间上下文。作者通过比较原始设置和替换问题为真实答案(可以视为参考时空视频分割)来检查隐性推理。如表4所示,提供GT答案可以大大减轻任务的难度,导致在上平均提高14.29。对于时间上下文诊断,作者仅利用时空 Mask 的时间标注来分割原始剪辑,并将这些运动密集的剪辑输入到模型中。如表4所示,对于每个模型,比较第一行和第三行,作者可以观察到的明显降低4.68,这充分证明了时间上下文的重要性。
时间定位分支。 在消融实验中,作者进一步用有或无时间定位分支的方式微调作者的MoRA,结果如表5所示。该分支带来了5.97%的相对提升,除_描述性_问题外,在其他三个问题上的改进都明显,这说明在另外三个问题中,定位的重要性得到了验证,这与表4中推理能力分析的结论一致。此外,作者可以观察到,如果没有时间定位分支,微调仍可以带来明显的改进,尤其是在_因果_和_描述性_问题上,这说明对于剩下的两种类型,缺乏时间 Aware 可能会削弱额外数据带来的性能提升。
5 Conclusion
在本文中,作者提出了一种新的视频任务称为“运动-地面视频推理”,以实现对运动的全面理解。作者将运动视为其时空背景的组合,并设计问答来迫使模型理解隐性文本输入,从而推理关于运动相关物体。
此外,作者指出由于运动的时空性质,仅输出文本答案可能模糊不清,无法直接说明特定运动发生的时间和地点。
考虑到这一点,作者设计输出运动相关物体的时空 Mask ,这是一种直接且可解释的方式来解决这个问题。
为了满足评估要求,作者还收集了一个大规模的数据集,称为GroundMoRe,其中包含4种类型的问题,可以评估运动推理能力的不同方面。
最后,作者的简单 Baseline MoRA在新数据集上实现了合理的性能,但与其他视频数据集的低分相比,显示出运动推理和理解仍有许多值得探索之处。
[0]. Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level.
点击上方卡片,关注 「AI视界引擎」 公众号