清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!

技术

picture.image

本研究深入探讨了利用大型语言模型(LLM)的强大功能来理解多模态(即视频和动作模态)人类行为领域。与近期为仅视频理解或仅动作理解设计的LLM不同,作者认为理解人类行为需要从视频和动作序列(例如SMPL序列)联合建模,以有效地捕捉身体部位的细微动态和语义。鉴于此,作者提出了MotionLLM,一个简单但有效的人类动作理解、字幕生成和推理框架。具体来说,MotionLLM采用了一个统一的视频-动作训练策略,利用现有粗粒度视频-文本数据和细粒度动作-文本数据的互补优势来获取丰富的时空洞察。此外,作者收集了一个庞大的数据集MoVid,包含多样的视频、动作、字幕和指令。此外,作者提出了MoVid-Bench,带有精心手工标注的数据,以便更好地评估视频和动作上的人类行为理解。广泛的实验表明,MotionLLM在字幕生成、时空理解和推理能力方面具有优越性。

1 Introduction

理解人类行为,如细粒度标注和分析,在以人为中心的多模态智能领域[21, 25, 93]至关重要,并且可以从人机交互和机器人技术到医疗保健和安保的具身智能中受益。

最近,由于大型语言模型(LLM)[50, 66, 12]的出现,通用视觉理解已经取得了显著进展。然而,在获取对时空动态、细粒度语义、行为推理等方面的良好理解上,仍然存在一个重大差距。

人类行为可以通过提取的人体运动(例如,通过3D人体参数模型SMPL[41, 46]或骨架序列[57])或视频[84, 48, 83, 7]来主要表示。尽管提取的人体运动是一种低冗余、外观不变性、保护隐私的表现形式,但直接获取高质量的动捕过程需要昂贵的运动捕捉[67, 5, 47, 46],导致其稀缺。此外,运动数据在运动-环境交互方面的不足将导致对行为的理解不充分。

相比之下,以人为中心的视频容易获得,并包含丰富的人-环境交互视觉线索,有助于整体理解语义运动和推理。例如,在视频上下文中,“打高尔夫”和“扫地板”是相似的动捕,但实际上有很大的不同。然而,视频不可避免地具有高计算成本,引起隐私问题,并且包含过多的冗余元素和歧义,而不是专注于人类。

考虑到紧凑的运动和丰富上下文视频的互补组合,作者认为联合建模它们对于追求对运动的动态和语义更准确、更健壮和更丰富的情境理解至关重要。然而,现有工作要么分别使用运动,要么使用视频作为输入,用LLM进行以人为中心的运动或行为理解。

作者将这个问题的挑战归因于两个关键点:

1)有限的高质量视频-运动-文本对和指令调优数据;

2)由于缺乏数据和文本、运动和视频模态之间不完全协调,将运动和视频理解集成到统一系统中的问题未被充分探索。

为了解决上述挑战,本研究试图为人本运动-视频-文本配对数据的基础建设和统一理解框架奠定基础。

首先 ,作者介绍了MoVid数据集,它包含多样化的视频、动作、标题和指令。文本内容包括支持不同任务和训练阶段的标题和指令性问题-答案(QAs)。动作数据来源于现有的大规模数据集,包括AMASS [46](标题来源于HumanML3D [19])和Motion-X [36](附带视频)。关于视频-文本数据,作者使用GPT-4V [1, 73, 79]对Motion-X的24k视频标题进行标注,采用15倍的下采样率对关键帧以及精心设计的提示进行标注。对于动作-文本数据,作者通过GPT-4 [1]增强HumanML3D的手动标注标题,得到272k作为指令的QA对。为了有效进行指令调优,这些指令包括多样化的空间-时间问题、上下文中的QA对和推理数据。同样,作者也为Motion-X获得了200k指令。其次 ,作者提出了MotionLLM,以在一个系统中通过动作和视频理解人类行为(图1a)。在技术层面,首先将动作和视频投射到语言空间,通过可训练的动作/视频翻译器作为V-L翻译器。这使得可以将具有不同模态的人类行为统一为翻译后的语言,从而利用LLM [12]固有的推理能力。在第二阶段,作者通过动作-视频联合指令调优对LLM和V-L翻译器进行微调。通过在LLM的语言空间中共享两种模态的知识,MotionLLM可以利用两种模态的兼容性。

picture.image

为了公平和彻底地评估动作和视频理解,作者提出了一个名为MoVid-Bench的基准,用于评估模型在序列动态、身体部位语义、方向感知、推理能力和对抗幻觉的鲁棒性方面的性能,使用多样化的评价指标。参考答案经过仔细的人工标注和验证。与MotionGPT [25]和Video-LLaVA [35]相比,MotionLLM 在动作和视频理解方面分别平均提高了38%和15%。

在作者的消融研究中,整合细粒度的动作平均提高了基于视频的理解能力15%,而视频中的视觉内容提示将基于动作的理解能力提高了29%。作者广泛的评估为人类行为理解的研究社区发展和后续研究提供了有价值的见解。最后,凭借在人类动作和视频方面的卓越理解能力,MotionLLM在多个下游应用中表现出灵活性,例如作为社会公益的健身教练(图1(b)),特别是针对视障人士社区。

在详细介绍之前,作者将作者的主要贡献总结如下。

  • 为了缓解数据稀缺问题,作者引入了MoVid,它从动作/视频数据集中获取多样化的标题和指令注解,用于训练整体空间-时间理解和细粒度行为。
  • 为了弥合视频和动作模态之间的差距,作者提出了一个具有统一视频-动作训练策略的模型,用于人类行为理解、标题生成和推理。
  • 为了更好地评估细粒度理解,作者仔细构建了考虑许多与动作相关方面的MoVid-Bench基准。

2 Related Work

LLM-based Video Understanding

视频理解在众多领域中的应用至关重要,因为它能够从视觉数据中提取有意义的见解和信息。之前的尝试[60; 82; 30; 77]试图用深度学习模型生成视频内容的字幕。这些方法的缺陷主要与推理和理解能力不足有关。随着大型语言模型(LLM)显著成功,出现了一系列基于视觉或多模态的LLM[38; 29; 35; 39; 71]及相应的基准[34; 49]。最近,这些方法探索了视频内容的一般性理解和关于视频的推理能力。

具体来说,Video-LLaVA使LLM能够同时对图像和视频执行视觉推理能力。它通过将图像和视频对齐,在将它们投射到语言特征空间之前,学习统一的视觉表示。

然而,由于配对数据的限制以及忽略了图像中运动表示的差异,在理解视频中以人为中心的行为方面,特别是在细粒度的身体语义动态运动方面,仍然存在很大的差距。

Human Motion Understanding

人体运动理解旨在提取人体运动的语义。这对于自主地为人体运动进行文本标注和分析是基础且富有前景的,为构建更多与文本对齐的运动生成数据铺平了道路。Takano等人[64]最早尝试通过统计方法生成运动的文本描述。PoseScript [15]被提出用于描述单帧姿态,它在空间运动理解上表现出色,但忽略了时间运动理解。

此外,提出了深度模型来进行运动字幕生成。近期,一些研究[25; 93]引入了大型语言模型(LLMs)来理解人体姿态或运动。

然而,这些尝试主要关注运动字幕生成,并没有具备详细的空间-时间感知和推理能力。如[25]中所分析的,由于运动和指令调整数据的限制,这些工作缺乏推理能力,难以适应更大的LLMs,例如Llama [66]或Vicuna [12]。此外,运动生成和理解的全合一系统是一种折衷的统一。相反,在MotionLLM中,作者将运动和视频数据投影到语言空间,以更好地理解运动和视频。此外,借助LLMs的推理能力,作者可以在两种模态上发挥兼容性。

3 Methodology

Preliminaries and Notations

作者首先明确MotionLLM的预备知识和符号表示。MotionLLM接收视觉提示 (一个运动 或一个视频 )作为输入,并输出遵循提示的文本序列 ,其中 表示词汇集。

具体来说,一个运动 由 帧姿态序列 组成,而视频由 关键帧图像序列 组成。文本生成问题可以表述为一个自回归问题:,其中 是MotionLLM。MotionLLM的训练过程使用交叉熵损失 。

MotionLLM: Understanding Human Motions and Videos

系统概述。 如图1(a)所示,MotionLLM将视频或人类动作作为视觉提示。MotionLLM首先使用视觉编码器处理视觉提示,并通过V-L翻译器将视觉嵌入转换为语言空间。请注意,作者只接受一个视频或动作数据作为输入。在训练有素的MotionLLM中,作者以自回归方式输出语言,即 。MotionLLM的训练可以分为两个阶段。如图1(b)所示,在第一阶段,MotionLLM学习了一个视觉嵌入与LLM之间的翻译层(V-L翻译器,),以弥合模态之间的差距。这里,视觉嵌入是通过视觉编码器获得的。在第二阶段,MotionLLM对V-L翻译器和LLM部分进行微调,即,通过指令调整数据。整个MotionLLM可以被视为一个复合函数。下面作者将详细介绍这两个训练部分。

模态翻译(第一阶段)。 由于视觉内容与语言之间存在模态差距,作者在第一阶段训练了一个模态翻译器(V-L翻译器)来弥合这一差距。作者将这个训练阶段称为模态翻译,因为这里的目的是将视觉提示投射到语言空间。为了保持动作编码器和视频编码器的压缩知识,作者在这一阶段冻结了这两个编码器以及LLM,可训练的部分仅有两个V-L翻译器。动作翻译器是一个线性投影层,而视频翻译器是一个两层MLP,因为视频数据的复杂性更高。在这个模态翻译阶段,作者采用的训练数据是动作字幕和视频字幕数据,这将在第4节中描述。

为了详细说明作者技术设计的合理性,作者将MotionLLM与两个类似的视觉LLM(VLLM)进行了比较,分别是LLaVA [38]和Video-LLaVA [35]。如图2(a)所示,LLaVA只接受图像作为输入,没有其他外部模态。与LLaVA不同,Video-LLaVA接受图像和视频作为输入。如图2(b)所示,Video-LLaVA分别为图像和视频使用了不同的视觉编码器。由于图像和视频之间的模态差距较小,Video-LLaVA通过共享V-L翻译器获得了良好的性能。然而,在图2(c)中,动作数据是一种基于结构骨架的数据,与像素级的视频数据有很大不同。这个更大的模态差距表明,对于作者这项任务来说,共享模态翻译器不再是明智的选择。因此,在MotionLLM中,作者分别为动作和视频采用了不同的V-L翻译器。通过这种方式,两种模态可以分别享受更好的模态翻译能力。

picture.image

动作-视频统一指令调整(第二阶段)。 在第二阶段,MotionLLM需要响应人类输入的更多样化的指令。这里,两种模态的视觉编码器被冻结,V-L翻译器仍然可训练。与模态翻译中的训练策略不同,LLM部分也可训练,以更好地理解视觉内容。为了保持LLM的原始知识,作者采用参数高效的微调方式(PEFT)训练LLM部分,如同LoRA [22]。在这里,通过在LLM部分共享参数,两种模态的知识在语言空间中互动并共享,互相受益。除了MotionLLM的精心技术设计,作者还构建了统一的指令调整数据集,特别是成对的动视频文本数据,这将在第3.3节中介绍。

MoVid: Human Motion and Video Understanding Dataset

正如第1节和第3.2节所讨论的,作者将现有的动作和视频数据扩展为一个统一的数据库(MoVid),用于细粒度的人类行为理解。对于动作和视频部分,作者都构建了相应的文本以及标题和说明。以下是构建细节和统计数据的讨论。

MoVid动作文本数据集构建。 在MoVid的动作部分,作者的方法主要关注于详细的空间时间动作理解和推理能力。如图4所示,作者将HumanML3D [19](又名H3D)动作数据的标题通过GPT-4 [1]增强为对话问答,总共包括272k个问答对。生成的问答覆盖了多样化的空间时间问题、上下文内问答和推理数据,这些数据用于指令调整。详细的提示和更多的上下文示例[90]在附录中展示。与H3DQA类似,作者还引入了Motion-XQA指令调整数据集,其标题标注过程将在下一个视频文本数据集构建部分详细说明。Motion-XQA总共提出了20万问答对。与之前与动作标题高度相关的动作指令调整数据集[25]不同,作者的指令调整数据集包含更多示例和推理数据。

picture.image

MoVid视频文本数据集构建。 由于与人类行为高度相关的视频文本数据集有限,作者的主要努力主要集中在标注以人为中心的视频上。尽管Motion-X包含了多样的动作视频对,但其文本标注不够详尽。为了解决这个问题,如图5所示的标注过程,作者首先通过GPT-4V重新标注了Motion-X [36]的标题。作者以15倍的降采样率提取视频的关键帧,并将它们与一些精心设计的提示(详细内容在附录中)一起输入到GPT-4V模型中。作者检查了标注的视频标题,发现它们准确标注了人类动作。得益于Motion-X [36]中的成对视频动作数据,以及良好标注的视频标题数据,作者还重新标注了Motion-X中动作部分的标题。因此,作者可以获得24k具有相同文本标题的成对动作视频数据,这将在指令调整阶段提供更多的模态对齐。利用获得的标注Motion-X标题数据,作者生成了一个Motion-XQA指令调整数据集,其中包含多轮问答,以增强MotionalLM的推理能力。Motion-XQA标注的流程与H3DQA(图4)的流程相似,由GPT-4 [1]生成。更多关于Motion-XQA构建和生成示例的细节将在附录中介绍。

picture.image

MoVid-Bench: Motions and Videos Understanding Benchmark

为了更好地比较细粒度的人类行为理解,作者构建了一个名为MoVid-Bench的基准来评估性能。如表2所示,MoVid-Bench评估在动作和视频上的人类行为理解能力。遵循之前的VLLM基准[34]评估量,MoVid-Bench提出了1350个数据对,包括700个动作数据和650个视频数据。在动作部分,数据是H3DQA测试集的子集,其中所有的问答都经过人工仔细检查和修订。同样,视频基准数据是Motion-XQA测试集的子集,其中所有的问答也都经过人工仔细检查和修订。此外,作者设计了五个方面的模型性能评估,包括身体部位动作感知(Body.)、顺序分析能力(Seq.)、方向感知(Dir.)、推理能力(Rea.)[63],以及对幻觉的鲁棒性(Hall.)[24]。这五个方面都是手动分类的。由于Motion-X视频中的运动轨迹较短,例如“弹吉他时坐着”,方向部分的标注是有限的。此外,由于视频是作为参考提供的,且幻觉不经常发生,作者没有用太多的例子进行评估,这更多与自然语言处理类别相关。作者在图6中举了一个例子,展示如何按照这五个类型进行分类的设计原则。作者将在附录中提供更多细节和设计原则。在第4节中,作者将介绍作者在MoVid-Bench上的评估指标。

picture.image

4 Experiments

Experimental Setting

训练数据集。 对于动作数据,如表2(a)所示,作者采用HumanML3D(又名H3D)和作者构建的Motion-X Caption(MoVid的一个子集)作为作者的训练数据。在指令调整阶段,除了作者构建的H3DQA和Motion-XQA,作者还额外采用了2k大小的BABEL-QA [16]作为作者的训练数据。对于视频数据,在表2(b)中,由于作者只需要在第一阶段学习V-L翻译器,作者采用Valley [44]视频标题数据集来训练作者的投影层。在第二阶段,作者采用Motion-XQA作为训练数据的一部分,以增强对人类行为理解的能力。为了保持通用的VQA能力,作者在指令调整期间使用了Video-ChatGPT数据。

评估数据集。 对于动作理解任务,作者在MoVid-Bench上评估动作理解能力。作者还使用BABEL-QA [16]测试集进行性能测试,以便与一些专家模型进行比较。对于基于视频的任务,作者在三个基准上评估作者的模型:MVBench [34](零样本)、ActivityNet-QA [83](零样本)和MoVid-Bench。

特别是对于MVBench,由于作者不关注场景和物体,为了公平评估人类行为理解,作者进行了7个人行为相关子任务的比较,分别是1) 动作定位、2) 动作预测、3) 动作序列、4) 以自我为中心的导航、5) 细粒度动作、6) 细粒度姿态和7) 意料之外的行动。

评估指标。 对于作者的MoVid-Bench,按照之前研究[35]中的评估协议,作者利用GPT-3.5-turbo进行评估。技术上,评估包括将模型答案与真实答案进行比较,以提供评估准确度,并分配0到5之间的分数。在针对BABEL-QA基准[16]的方法中,按照原始设置,作者使用预测准确度进行评估。对于MVBench视频理解评估,作者回答多项选择题,并按照答案提示“最佳选项:(”选择最佳选项,遵循[34]。这样,作者的模型能够很好地遵循指令,并在给定选项中选择最佳答案。在ActivityNet-QA [83]和作者的MoVid-Bench方面,作者采用[35, 33]中使用的评估协议,利用GPT-3.5-turbo,这与作者在MoVid-Bench上的评估协议类似。

实现细节。 作者使用了lit-gpt框架[4],并将其扩展到多模态输入。作者应用了预训练的LanguageBind [95]对视频进行编码,以及一个预训练的VQ-VAE [88]编码器对动作数据进行编码。Vicuna-7B [12]作为作者的基础LLM模型。对于动作,作者使用一层线性变换作为动作翻译器来执行模态翻译。对于视频,作者使用两层MLP作为视频翻译器,并使用8帧图像编码视频。在训练时,第一阶段,视频编码器、动作VQ-VAE编码器和LLM被冻结。作者以的学习率训练动作和视频翻译器。在第二阶段,视频编码器和动作VQ-VAE编码器仍然冻结;作者以的学习率训练视频和动作翻译器。LLM通过LoRA [22]进行调整,学习率为,秩为。在评估阶段,作者取8个视频帧和整个动作作为模型输入。作者将在附录中提供更多关于训练和测试的细节。

Quantitative Results

作者展示了在现有基准测试和MoVid-Bench上对人类行为运动和视频理解的定量结果。

在MoVid-Bench上评估运动理解能力。 作者从五个方面将MotionLLM与 Baseline 在MoVid-Bench(运动部分)进行比较:身体部位意识、顺序、方向分析、推理能力和幻觉生成。评估遵循先前的LLM评估指标[35, 33, 26]在准确性和得分上的标准。作者将作者的方法与仅文本的GPT-3.5回答结果以及MotionGPT结果进行比较。如表4所示,作者的模型在整体准确性和得分上取得了最佳的 Baseline 结果。由于GPT-3.5 Baseline 无法与运动兼容,它不能准确理解人体运动。特别是,MotionGPT在推理和对幻觉的鲁棒性方面表现出限制。MotionGPT仅在HumanML3D数据集上训练,而指令调整数据集主要关注运动字幕任务,例如“用普通英语描述表示的运动。”或“传达了什么?请用语言描述。”这种指令调整数据集使得它难以遵循复杂的指令,如推理或细粒度的空间-时间理解。MotionLLM缓解了这些问题,得益于作者精心设计的指令调整数据集。

picture.image

在BABEL-QA上的评估。 作者还在BABEL-QA上展示了MotionLLM的空间-时间能力,BABEL-QA包括多样的空间-时间问题。作者将MotionLLM与几种 Baseline 进行比较。

  1. 2s-AGCN ,一种端到端的方法,使用2s-GCN提取运动特征,并使用MLP (-M)或RNN (-R)预测答案。
  2. MotionCLIP ,一种基于 Transformer 的方法,用于提取运动特征并使用MLP (-M)或RNN (-R)预测答案。请注意,这些 Baseline 在闭合词汇集内回答BABEL-QA的问题。

作者采用两阶段MotionLLM模型进行比较。这里,作者将预测准确度设置为评估指标。由于评估是精确字符串匹配,作者设置了一个在BABEL-QA上微调的 Baseline MotionLLM*。如表5所示,尽管作者的方法是一个开放词汇的多模态语言生成模型,但MotionLLM仍与专家模型具有可比较的性能。

由于精确字符串匹配对于作者最终的模型来说并不合理,作者还通过GPT评估将作者的最终MotionLLM与 Baseline 进行比较,类似于第4.1节中介绍的设置。如表5所示,MotionLLM也显示出与 Baseline 相当准确度。第一阶段性能下降主要来自于模态和任务的妥协。

picture.image

在MoVid-Bench上评估视频理解结果。 表4展示了在MoVid-Bench(视频部分)上针对五个关键领域的评估结果,这些领域在MoVid-Bench构建部分有定义。这个评估遵循了之前大型语言模型(LLM)评估中建立的指标[35, 33, 26]。如表4所示,在没有视频依据的情况下,GPT-3.5很难回答问题。作者的MotionLLM在各个方面显著优于之前领先的视频模型Video-LLaVA[35]。具体来说,MotionLLM在平均准确率上提高了15%,在平均分数上比Video-LLaVA提高了10%。由于Video-LLaVA没有与运动数据联合训练,它在连续性、推理和虚构任务上的表现较弱。相反,MotionLLM合理利用了运动数据,并辅以精心设计的指令调优数据集,从而提高了性能。作者在附录中提供了更多关于基于视频的LLM在作者MoVid-Bench上的讨论。在MVBench上的零样本视频多选题QA。

picture.image

如表6所示,作者在MVbench[34]上进行了零样本 的视频问答能力评估,包含7个不同的人类运动相关子任务。尽管每个视频只处理了八帧,作者的MotionLLM模型在平均准确率上超过了现有的基于视频的LLM Baseline 。值得注意的是,MotionLLM比其最接近的竞争对手VideoChat[33]平均准确率高出5%。在动作定位和动作预测领域,作者的模型表现优于所有竞争对手,突显了其理解时间动态的卓越能力。特别地,在动作定位方面,MotionLLM比VideoChat高出22%,凸显了它在补偿仅处理八帧的视频编码器的局限性方面的有效性。此外,在其他子任务上的表现与其他 Baseline 持平,表明作者的模型保持了空间关系和推理能力。

在ActivityNet-QA上进行零样本开放词汇视频问答。 为了更好地评估作者的模型在长视频中的人类行为,作者在表7中进行了零样本 评估。请注意,作者的模型没有使用任何ActivityNet数据训练。作者的MotionLLM在准确度上超过了领先模型9%,在分数指标上7%,显示出对视频内容的良好序列理解和可泛化的人类行为理解。这表明MotionLLM在实际应用中具有巨大的潜力。

picture.image

Qualitative Results

基于运动的理解的定性结果。

picture.image

为了理解MotionLLM在运动模态上的表现,作者在图7中提供了更多的可视化结果。首先与TM2T [20]和MotionGPT [25]进行的比较中,作者选择了在没有Motion-X数据情况下训练的MotionLLM模型预训练权重进行对比。比较是在Motion-X [36]的IDEA-400子集上进行的,采用零样本测试设置。如图7所示,MotionLLM在一些野外场景上具有更好的泛化能力,并有可能作为运动数据的自动文本标注工具。作者进一步采用一些上下文内的示例来展示MotionLLM的空间感知能力。基于视频的理解的定性结果。

picture.image

为了分析作者从视频中理解人类行为时的语言输出,作者在图8中选取了一些代表性的示例来探讨MotionLLM对人类行为理解的能力。除了基本的字幕生成能力之外,作者的MotionLLM还具有良好的时空理解能力,例如“绕着圈走”。此外,得益于LLM的基本推理能力,MotionLLM还可以诱导人类行为的目的,例如从招手动作中推理出“他是在叫我过去”的意图,展示了其在具身智能场景中应用的潜力。此外,作者还与Video-Chat [33]和Video-LLaVA [35]在时间理解能力上进行了比较。尽管Video-Chat能正确回答第一个问题,但其第二个答案是矛盾的,未能获得良好的上下文学习能力。此外,Video-LLaVA在第一个问题上失败,并总是回答“是”。与这些方法不同,MotionLLM在上下文学习和时间理解方面优于 Baseline 方法。

Ablation Study

在这里,作者对不同的模态建模策略进行了消融研究,并展示了使用来自H3DQA、BabelQA和Video-ChatGPT指令数据的非配对数据以及上述讨论的Motion-XQA配对数据的指令调优结果。请注意,这里的“配对”数据声明指的是MoVid中的Motion-XQA子集,包括运动视频文本三重配对。这个数据集设计旨在使视频和运动的理解互相受益。性能在作者的基准测试MoVid-Bench上进行测试。

图8:模型的视频理解能力。结果显示MotionLLM在字幕、时空理解和推理方面表现良好。与Video-Chat [33]和Video-LLaVA [35]的比较显示了MotionLLM在顺序性和方向理解上的优势。

关于运动理解的消融研究。 如表8顶部所示,使用视频数据有助于总体上提高运动理解,尤其是在身体描述、推理能力和减少幻觉方面。在视频的帮助下,整体性能平均准确率提高了28.6%。作者将其归因于视频提供了更多的参考信息,如运动模态中的人与环境交互信息。当使用非配对视频运动数据进行指令调优时,所有五个方面的能力都得到了提高,表明了与视频联合训练策略的优势。此外,基于此,使用作者的配对数据MotionX-QA在大多数方面进一步提升了性能,除了顺序感知能力。作者认为这是由于视频编码器压缩能力的限制,只能编码8帧,丢失了太多信息。因此,使用作者的MotionX-QA训练更多视频时,运动分支将受此限制的影响。

picture.image

关于视频理解的消融研究。 如表8底部所示,结合如H3DQA和BABEL-QA等非配对运动数据集,已经显著提高了视频分支的顺序感知能力。其他能力的提升有限。这种适度效果主要是由于H3DQA和BABEL-QA数据量有限。在进行作者配对数据集Motion-XQA的额外指令调优后,作者在所有五个方面观察到了整体增强,整体准确率显著提高了17%。这表明了与配对运动视频数据联合训练的有效性,使模型能更熟练地利用运动线索并通过跨不同模态的信息传递增强整合。

5 Conclusion and Discussion

结论。 在这项工作中,作者提出了MotionLLM,一个统一的人类行为理解框架,重点关注人类动作和视频模态。MotionLLM引入了一种基于LLM的框架,以弥合动作、视频和语言之间的鸿沟。为了增强对时空理解与推理的能力,作者构建了一个MoVid数据集,其中包括了关于时空理解的动作和视频的多样化问题-答案对。

作者还开发了MoVid-Bench以评估模型对人类行为理解的能力。实验表明,作者的方法和数据集在细粒度的人类行为理解上都是有效的。

局限性与影响声明。 这项工作受到视频编码器有限能力的制约。

未来的工作可以考虑提高视频编码器的容量。MotionLLM有望在许多场景中作为AI助手,例如成为社会公益的健身教练,特别是对于视障社区。对于负面影响,LLM的发展可能会提高模型被负面使用的可能性,比如社交媒体上的负面内容。

参考

[1].MotionLLM: Understanding Human Behaviors from Human Motions and Videos.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论