HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !

大模型云存储容器

备注好友:

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

人类运动视频生成技术取得了显著进步,但现有方法在准确渲染细节部位如手和面部方面仍存在困难,尤其是在长序列和复杂动作中。当前的方法也依赖于固定的分辨率,难以保持视觉一致性。

为了解决这些限制,作者提出了HumanDiT,这是一个基于Diffusion Transformer(DiT)的姿势引导框架,在包含1400小时高质量视频的大型且多样化的数据集上训练,以生成具有精细身体渲染的高保真视频。

具体来说,(i)HumanDiT在DiT的基础上支持多种视频分辨率和可变序列长度,便于进行长序列视频生成学习;(ii)作者引入了一种前缀潜在参考策略,以在扩展序列中保持个性化特征。

此外,在推理过程中,HumanDiT利用Keypoint-DiT生成后续姿势序列,便于从静态图像或现有视频中延续视频;它还利用PoseAdapter来实现给定序列的姿势迁移。

广泛的实验表明,它在生成跨多样场景的长形式、姿势准确视频方面具有优越的性能。

引言

近年来,生成逼真的人类运动视频受到了广泛关注,特别是在生成式人工智能的进步之后。与图像生成相比,视频生成面临更大的挑战,因为它不仅需要高质量的视觉效果,还需要帧与帧之间平滑的时间一致性,以保持视觉连贯性[68]。虚拟人类、动画电影和沉浸式体验等应用推动了可靠、高质量运动视频生成方法的需求。

尽管在等方面取得了显著进展,但当前生成人类运动视频的方法仍然面临关键限制。首先,由于多个推理批次的存在,实现长序列生成的时序一致性仍然是一个挑战。大多数模型[18, 26, 60, 68]通过U-Net架构[18]的限制来限制每个序列的帧数,而基于重叠的连续性方法[53, 68]未能防止错误传播或确保时序一致性。其次,由于缺乏广泛且多样化的数据集,泛化到不同场景的能力有限。此外,实现面部和手部细节的高保真渲染也面临挑战,常常导致模糊或不一致的结果,尤其是在长序列中。第三,大多数方法依赖于固定分辨率的输入,需要调整大小或填充,这会影响质量和灵活性,如图1(a)所示。最后,大多数方法[18, 51, 60, 68]专门设计用于与给定姿势序列的姿势转换,任何姿势的不匹配都可能导致视觉伪影。

picture.image

为了应对这些挑战,作者提出了HumanDiT,这是一个适应性强的人体姿态引导动画框架,旨在处理不同分辨率和长视频生成(最长可达20秒)。

作者通过以下方式解决上述挑战:一个用于姿态引导视频的专家级DiT;

一个大规模、高质量的多样化场景数据集;一个用于姿态生成的Keypoint-DiT和一个姿态 Adapter 用于姿态迁移。

首先,为了解决变量分辨率和动态序列长度问题,作者将传统的U-Net扩散模型替换为扩散 Transformer (DiT)[36]。采用前缀潜在参考策略,HumanDiT在保持输入视觉一致性的同时,适应不同的分辨率和时长。所提出的姿态引导器通过基于 Patch 的提取来捕捉时空特征,确保精确的姿态引导。这种DiT架构实现了序列并行性[24],优化了高分辨率、长时视频生成的训练和推理过程。

其次,为了提高泛化能力和渲染质量,作者收集了一个包含14,000小时真实场景视频的大规模、多样化数据集。该数据集是通过一种新颖的数据处理流程收集的,该流程包括数据提取序列和过滤策略,其中使用评分模型来评估和选择样本,特别是针对图像清晰度,尤其是在手和牙齿等细节丰富的区域,从而提高数据集的可靠性。作者还把文本 Mask 纳入训练过程,以防止模型学习到真实数据中存在的文本残留物。

第三,作者利用专家关键点-DiT进行姿态生成,从而支持包括姿态转移在内的多种下游应用[18, 68]。对于视频续接,关键点-DiT能够从单个初始姿态创建更长、连续且自然的姿态序列,便于实现带有流畅动作的视频续接。在姿态转移方面,引入姿态 Adapter 以对齐初始姿态,随后通过关键点-DiT进行细化,从而提高面部和手部细节的准确性。在姿态转移中,利用过渡帧进行细化,以弥合参考图像与引导姿态之间的姿态差距。

总的来说,作者的贡献如下:

1)作者提出了HumanDiT,这是第一个采用前缀潜在策略的基于DiT的人体动画框架,它促进了可变分辨率、动态序列长度和高质量视频生成。

2)作者开发了一个包含14,000小时野外视频数据集,并使用结构化数据 Pipeline 和轻量级清晰度评分模型来筛选高质量视频样本。

3)作者引入了一个基于DiT的姿态生成模块和姿态 Adapter ,使HumanDiT能够支持多样化的应用,如长视频连续播放和姿态转移。

4)作者在各种场景中实现了优异的定量和定性性能,在综合评估中超越了现有最先进的方法。

  1. 相关研究工作

图像与视频生成。近年来,图像与视频生成领域取得了显著进展[2, 9, 49, 65],这始于基于生成对抗网络(GANs)[7, 11, 37, 40, 41]和基于变分自编码器(VQVAE)的 Transformer [9, 45, 57]的早期方法,它们为合成逼真视频奠定了基础。然而,这些方法通常面临着诸如时间不一致性和建模连续运动所伴随的高计算需求等问题。最近,扩散模型(DMs)[16, 33, 43]作为一种强大的替代方案出现,提供了更高的稳定性和可控性。与GANs不同,扩散模型通过逐步细化噪声输入,生成连贯的帧,从而产生更稳健和逼真的输出。特别是潜在扩散模型(LDM)[38],通过在低维潜在空间中执行该过程,优化了这一流程。

在视频生成领域,这些扩散模型[3, 13]不仅超越了图像合成,还通过引入时间层和注意力机制来更好地模拟时空关系。为了保持时间连续性,一些方法[5, 42, 50, 70]直接将预先在文本到图像任务上训练的2D U-Net[39]扩展到三维。例如,稳定视频扩散(SVD)[5]和AnimateDiff[13]等技术代表了显著的进展,因为它们将二维图像生成框架扩展到处理连续视频段额外复杂性的能力。最近的方法[34, 58, 63, 69]通过集成专门的动力量和基于DiT的框架[36],展示了更大的潜力。同时,三维变分自编码器(VAEs)[23]通过先进的压缩技术减轻了视频数据处理计算需求。

人类动画。姿态引导的人像动画在技术上有显著进步,尤其是在引入了如OpenPose [6]、DWpose [62] 和Sapiens [22] 等姿态估计方法以指导运动合成方面。早期的方案[10, 25, 55, 64],通常基于生成对抗网络(GANs)[11] 或神经射线场(NeRFs)[31],主要关注使用显式骨骼表示在图像之间转移姿态,但这些方法在运动转移的时序一致性和灵活性方面存在困难。DisCo [51] 利用CLIP整合角色特征,并通过ControlNet [66] 引入背景特征。

扩散模型(DMs)的兴起极大地提高了图像和视频生成的质量。近期的方法,如MagicAnimate [59]和Animate Anyone [18],引入了专门的动模块和轻量级姿态引导器,以确保精确的姿态到动作的转换。Champ [72]依赖于参数模型SMPL [29],它提供了逼真的人类表现,并作为姿态和形状分析的真实数据。UniAnimate [53]利用第一帧条件输入进行一致的长视频生成。Mimicmotion [68]采用跨帧重叠扩散来生成扩展的动画视频。Xue等人[60]利用光流引导来稳定背景,并使用深度引导来处理身体部位之间的遮挡。Cyberhost [26]通过区域代码簿注意力机制增强了手和脸的生成。此外,Tango [27]通过检索匹配的参考视频片段并利用基于扩散的插值网络来合成伴随语言的肢体动作视频。Animate-X [46]通过利用隐式和显式姿态指示符,将生成范围扩展到具有各种身体结构的拟人化角色。

为了精确地渲染手部和面部,HandRefiner [30]采用了ControlNet模块来纠正扭曲的手部。ShowMaker [61]利用与面部结构对齐的潜在特征进行增强。RealisDance [71]和TALK-Act [12]利用手部和面部三维先验知识,提供精确的三维或深度信息作为条件输入。

  1. 研究方法

3.1. 引言

潜在扩散模型[38]学习了一个去噪过程来模拟潜在空间内的概率分布。为了减少计算负担,图像

通过变分自编码器(VAE)编码器[23]

转换为潜在空间特征

。在正向扩散过程中,高斯噪声在各个时间步长

迭代地添加到

,直到

,即

,其中

代表一个序列调度。去噪过程被定义为一个迭代马尔可夫链,逐步去噪初始高斯噪声

到干净的潜在空间

LDM的去噪函数通常使用U-Net[39]或Transformer[36, 48]实现,通过最小化均方误差损失来训练,即

,其中

代表参数化网络,用于预测噪声,而

表示一个可选的条件输入。随后,去噪后的潜在空间特征通过VAE解码器

Diffusion Transformer(DiT)解码成图像像素。

3D U-Net在人类视频生成[18, 26, 60, 72]中被广泛应用,具有时间注意力模块以生成连续的视频片段,但它们通常依赖于固定的输入分辨率和参考网络来控制个性一致性,这增加了额外的计算负担。DiT[36]结合了扩散模型与Transformer[48]的优点,解决了基于U-Net的LDM的局限性。

通过利用patchify[36, 63]和旋转位置编码(RoPE),去噪模型

能够处理不同的图像分辨率和序列长度。RoPE是一种位置编码方法,通过应用旋转变换将相对位置信息纳入嵌入空间,从而在分辨率无关的方式下捕捉相对位置关系。

与传统的固定或绝对编码不同,RoPE允许模型以分辨率无关的方式捕获相对位置关系,使其能够有效地泛化到不同维度的输入。

3.2 数据准备

作者开发了一个结构化的数据处理流程,该流程收集了数百万个捕捉各种人类动作的视频,包括演讲、舞蹈、电影和日常场景。为了更好地理解人类动作,大量数据是必不可少的。

对于每个视频序列,数据样本包含四个部分:

(1)包含各种人体动作的图像序列,(2)相应的身体姿态序列,(3)背景关键点序列和(4)文本区域。首先,使用YOLO [20]来跟踪和区分视频中的不同个体,并相应地进行裁剪。为了避免重叠的身体干扰关键点估计,排除包含多个人的裁剪视频。接下来,使用Sapiens [22],一种强大的鲁棒且稳定的姿态估计工具,对姿态序列进行标注。

背景关键点通过CoTracker [21]提取。作者根据第一帧中的人体 Mask 区分前景和背景。此外,由于视频中的字幕在推理过程中可能导致不希望的文本生成,因此使用PaddleOCR [35]识别文本边界框。

最后,为确保数据质量,过滤掉手腕或大部分身体不可见的视频。为了评估视频清晰度,作者手动标注了150K组牙齿和手部图像的清晰度,每组包含五张图像和相应的清晰度排名。然后,采用轻量级模型 [14]评估手部和牙齿的清晰度,根据清晰度分数过滤高质量视频。更多细节请见附录A。

通过数据处理流程,获得了大规模的人类视频数据集。所有视频被分割成不超过20秒的片段,最终数据集包含450万个视频剪辑,总时长为14,000小时。

3.3 姿态引导的视频DiT模型

给定一个参考图像

,HumanDiT 的主要目标是生成高质量、连续的人类运动视频,并保持一致的视觉效果。这项任务涉及合成逼真的人类运动和相机动作,模仿姿态序列,同时保持对输入图像的视觉保真度。最近的方法已经显示出有前景的生成能力,但它们通常固定图像分辨率和序列长度,并且需要两阶段训练。为了克服这一限制,如图2所示,HumanDiT采用可扩展的扩散 Transformer (DiT)[36]作为其基础模型。结合旋转位置嵌入(RoPE)[44]和patchify技术,DiT

能够处理不同尺寸和长度的视频。

picture.image

根据CogVideoX [63],HumanDiT采用了带有视频压缩模块的预训练3D VAE。它通过3D卷积在空间和时间上压缩视频,从而生成更长的视频,同时保持质量和连续性。具体来说,给定一个大小为

的视频

,视频潜在向量

可以通过3D VAE

进行编码,其中

表示潜在通道的长度。

参考策略。在视频生成中,视觉一致性一直是一个挑战。与先前的作品[18, 68]不同,HumanDiT并不依赖于与去噪模型结构相同的参考网络来传输参考特征。相反,作者仅仅采用了一种前缀潜在参考策略。得益于DiT中的3D全注意力设计,模型能够直接从前缀潜在中捕获参考图像特征。具体来说,视频片段的潜在特征向量表示为

。在正向扩散过程中,噪声逐渐添加到

,而前缀潜在

则作为模型捕捉输入图像特征的参考。在训练过程中,

的预测噪声

被排除在损失计算之外。由于3D VAE的第一个特征

是独立于图像的第一帧

获得的,在推理过程中,通过编码器获得前缀潜在

姿态引导。为了提取姿态引导特征,受patchify的启发,作者为HumanDiT引入了一个线性姿态引导器。先前的方法通常利用多层卷积块,这些方法能够有效捕捉姿态图像的上下文信息,但这些方法未能考虑时间特征。与这些方法不同,作者提出的姿态引导器通过应用patchify将空间姿态像素转换为一系列 Token 。

具体而言,姿态图像由代表身体关键点和背景关键点的像素点组成,其中这些关键点被设置为1,其余设置为0。对应视频的姿态图像表示为

,其中

表示姿态图像的维度。为确保patchify的有效性并防止未来信息影响当前或过去的预测[63],在姿态图像的开头应用了3帧的填充。随后,

按照 Patch 大小在时间、高度和宽度维度上进行了 Patch 化。为了确保与潜在特征

的一致性, Patch 大小固定为4。在 Patch 化过程之后,生成的姿态 Token 表示为

,它可以投影到潜在空间中的条件

,有效捕捉空间和时间特征。这种转换通过线性层实现,并与DiT模型联合训练。

骨骼表示在分辨率上往往存在尺寸差异,这可能导致姿态条件化中的不一致性和重叠点。为了解决这个问题,HumanDiT采用了基于像素的表示方法,这种方法能够有效地捕捉姿态信息同时减少重叠。基于 Heatmap 的条件化[52]通常由于大量的人体关键点和较长的序列而需要大量的内存。为了优化内存使用并最小化像素重叠,作者将姿态图像的维度设置为

,其中前7个维度编码人体关键点,最后一个维度则最多包含不超过20个背景关键点。每个身体关键点依次按轮询方式映射到前7个维度之一。

文本 Mask 。视频中的字幕对HumanDiT的训练和推理产生负面影响。为了解决这个问题,作者实施了一种文本 Mask 策略,以控制训练过程中的特征学习范围。具体来说,在训练过程中,文本 Mask 被应用于潜在特征空间中对应文本的区域,防止模型计算这些区域的损失。这种方法确保模型专注于学习相关的视觉和时序特征。此外,为了增强模型对文本区域不应被学习的理解,文本 Mask 还被作为条件输入提供给模型。这使得模型在训练过程中能够明确识别并忽略 Mask 区域,专注于人类动作,而不会受到字幕的影响。

3.4. 为人类设计的渐进式长视频生成技术

由于计算资源限制,生成长连续的视频序列一直是一个挑战。为了解决这个问题,HumanDiT简单地采用一个片段的最后一帧作为下一个片段的初始帧,并采用前缀潜在策略。生成的帧与输入图像保持一致,这确保了生成视频中的视觉连续性。此外,通过采用 Transformer 架构和作者的姿态引导器,沿着时间维度应用了序列并行性[24],使得计算可以在多个设备之间分布。这样,更长的视频序列能够被高效地训练和推理。

利用这个姿态生成模块,HumanDiT可以将单个人类姿态扩展为动态且逼真的动作。通过预测关键点序列,它使作者的模型能够合成连续的运动,而无需完整的姿态序列作为参考,使其能够适应各种视频生成任务。

基于姿态序列的姿势转换。基于U-Net的LDM利用参考网络通过交叉注意力将参考图像融入降噪过程。这些参考图像代表了多样化的场景和姿态,使得与参考图像的姿态对齐变得不那么关键。然而,参考图像与输入姿态之间的身体比例不正确可能会导致视觉结果不准确。相比之下,由于HumanDiT基于连续的姿态生成人体运动视频,姿态对齐至关重要。作者姿态 Adapter 的主要思想是将运动序列从模板中解耦,并将其应用于初始参考图像的骨骼结构。形式上,人体姿态动作模板表示为序列

,其中

包含了

个帧的位置信息。参考图像中的人体姿态表示为

,它由关节组成。

给定一系列人体关节对,每个关节

相对其前一个关节的欧几里得距离可以计算为

,其中

是相邻的关键点。由于人体在三维空间中移动,图像空间中的距离并不能准确反映实际的关节长度,这可能会误导关键点的转换。为了解决这个问题,姿态 Adapter 遍历动作序列以获得每个关节对的最大距离

,并将其用作模板姿态中的参考关节长度。给定一个初始关节,

中剩余的关节位置可以按照以下方式转换:

.

该流程模拟了模板姿态序列中关节方向和长度变化的转换,从 Neck 关节开始进行计算。随后逐步推导出关节位置,确保身体各部分的方位和长度与模板视频中的一致,从而得到对齐的

姿态精炼。作者的DiT渲染器

基于连续运动序列进行降噪。然而,直接使用

作为生成的条件,会导致

之间缺乏平滑过渡。这种差距导致视觉伪影,如运动模糊和鬼影,尤其是影响了序列初始部分的质量。此外,与身体骨骼相比,手部和面部区域提出了额外的挑战。由于复杂的关节和2D关键点中缺乏3D运动信息,姿态转换难以充分捕捉面部和手部动作。

为了生成平滑的过渡姿态并增强与参考图像中面部和手部特征的匹配,作者引入了一个基于KeypointDiT

的细化模块。具体来说,姿态对齐的序列

被用作Keypoint-DiT

的条件。为确保过渡平滑,作者在

之间填充了

帧,形成最终的动态序列

。此序列包括初始帧

个过渡帧以及

帧的姿态对齐序列

。细化模块有效地弥合了

之间的差距,保持了时间上的连续性。此外,基于对

的观察,

中的面部和手部姿态及形状得到细化,从而实现了更准确和逼真的动作。

  1. 实验

4.1. 实施细节

在无需参考网络约束的情况下,视频DiT仅需单阶段端到端训练过程。作者采用了CogVideoX-5b [63]中的3D VAE和基于DiT的降噪模型。3D VAE的权重在整个训练过程中保持冻结。该模型在作者自行收集的数据集上训练,视频最大分辨率为1280像素,帧率为12.5 fps。为了支持动态分辨率,作者在模型中集成了旋转位置嵌入(RoPE)[44],这允许通过相对位置编码对可变输入大小进行灵活适应,而无需重新训练。在训练过程中,作者让模型接触到不同分辨率,使其能够有效学习跨多种视频质量和尺寸。为了支持对更长视频序列的训练,作者实现了序列并行化,使得每个序列可以在多达8个GPU上训练。

最大潜在特征 Token 大小受到限制,以确保

。对于分辨率为720p、大小为

的视频,潜在大小为

时,最大潜在序列长度为33,相当于129个原始帧。该模型在128个NVIDIA H100 GPU(80GB)上以学习率

进行训练。在推理过程中,姿态控制的无分类器引导(CFG)比例设置为1.5。

4.2 结果

为了进行定量评估,作者从训练集之外选择了30个视频片段,并采用TikTok数据集[19]中的序列335-340,参照[68],将其作为测试集。

作者对比了作者的方法h与最先进的姿态引导的人体视频生成方法,包括Disco[51]、MagicDance[8]、AnimateAnyone[18]和MimicMotion[68]。对于AnimateAnyone,作者使用了MooreThreads[32]提供的开源实现。与[51]一致,作者使用L1误差、峰值信噪比(PSNR)[17]、结构相似性指数度量(SSIM)[54]、学习感知图像块相似度(LPIPS)[67]和Fréchet起始距离(FID)[15]来评估图像质量。视频 Level 的FID(FID-VID)[1]和Fréchet视频距离(FVD)[47]被用于评估视频的真实性。

定量评估。表1展示了在TikTok数据集[19]以及作者收集的舞蹈和对话场景视频中评估的各种方法的定量比较。结果显示,作者提出的方法优于所有现有方法,实现了显著较低的L1损失、更高的PSNR和SSIM评分,以及降低的LPIPS、FID-VID和FVD值。这种性能归因于作者数据集的规模和多样性,这使得HumanDiT能够在广泛的场景和条件下生成动画人像视频。

picture.image

利用DiT和RoPE的架构,作者的模型能够适应不同的输入分辨率和任意长度的序列,从而在处理输入图像时提供了灵活性。相比之下,现有方法需要通过中心裁剪或填充到固定尺寸来调整大小,这可能会损害完全捕捉整个图像上下文的能力。此外,在视频质量方面,MimicMotion [68]依赖去噪段之间的重叠帧以确保更平滑的过渡。而作者的方法通过仅使用前一阶段的最后一帧来实现更优越的连续性,简化了过程同时提升了视频性能。

定性分析。作者在多种场景下对所选 Baseline 方法和作者的方法进行了定性比较。图3展示了作者的测试集的视觉结果,其中视频的第一帧被用作参考图像。与其他方法相比,作者的方法在姿态模拟和视觉一致性方面表现出更优越的性能。即使参考图像中的身体部位,如手部,模糊或被遮挡,作者的方法也能有效地渲染清晰且细节丰富的身体部位。虽然MimicMotion也展示了强大的姿态跟随能力,但在保持服装细节方面存在困难,通常渲染出过于平滑且不一致的外观。相比之下,作者的方法在提供姿态引导的同时,保持了视觉一致性,生成生动逼真的视频。

picture.image

人类视频生成。图4和图5展示了作者的方法通过模板或生成的姿态序列有效地对参考人体进行动画处理,如图右下角所示。尽管基于DiT的模型需要对齐和连续的姿态,但提出的姿态对齐策略使得HumanDiT能够与运动视频同步平滑地动画化参考图像。作者的方法在保持与参考图像的视觉一致性并确保帧间时间连续性的同时,生成高质量的、逼真的角色细节。图中所展示的参考图像由Flux [4]生成。

picture.image

picture.image

4.3. 消融研究

为了研究所提条件的作用,作者考察了多个模型变体,改变了诸如最大 Token 大小、前缀潜在策略、训练过程中的文本 Mask 以及推理过程中的姿态细化等要素。

最大 Token 尺寸。表2展示了生成长视频序列的重要性。将最大 Token 计数从480K(高达249帧)降低到80K(约13-41帧)会显著降低模型的时间可见性,这影响其完全理解连贯视频的能力。此外,当使用较少 Token 生成更长视频时,模型需要更多依赖于前一个序列最后一帧的迭代,这增加了早期帧累积错误的概率。与400K Token 尺寸相比,较大的 Token 计数对于更好的视频性能仍然至关重要。

picture.image

由于您没有提供具体的英文文本内容,我无法进行翻译。请提供需要翻译的英文AI学术论文文本,我将根据您的要求进行翻译。

前缀-潜在参考策略。在表2中,作者还比较了两种参考策略:前缀-潜在参考和潜在拼接。结果显示,尽管这两种方法在单张图像生成方面表现相当,但当应用于视频生成时,拼接潜在信息缺乏保真度。此外,拼接潜在信息引入了额外的计算成本,使其效率较低。

姿态优化。依赖姿态 Adapter 可能会导致如图6所示的手部和面部尺寸变化或缩放不一致。将姿态 Adapter 与关键点-DiT集成进行姿态优化,可以有效解决这些不一致性,确保与参考图像的更准确对齐。

picture.image

4.4 用户研究

为了从人类视角评估作者方法以及最先进技术的质量,作者进行了一项包含10名参与者的盲测用户研究。如表3所示,作者的方法在时间一致性、身份保留和视觉质量方面显著优于其他方法,突显了其有效性。具体细节请见附录C。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论