全面深入解读Movie Gen技术原理(5部曲)：个性化视频生成(3) - 文章 - 开发者社区

引言
简介
生成个性化视频模型
预训练

预训练数据
预训练方法

监督微调
评估
结果
总结

引言

最是人间留不住，朱颜辞镜花辞树。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：缅A消费的小女孩。紧接此前Movie Gen解读系列：

突发！Meta重磅发布Movie Gen入局视频生成赛道！

全面深入解读Movie Gen技术原理(5部曲)：概述 (1)

万字长文深度解读Movie Gen技术原理(5部曲)：图像视频联合生成(2)

继续基于Meta官方发布的 92页Movie Gen技术报告 详细解读Movie Gen模型。今天这篇作文主要介绍Movie Gen中的：生成个性化视频 。

简介

本文介绍Movie Gen如何探讨了个性化视频生成这一重要研究领域。Movie Gen的研究员提出了一种新颖的模型架构，通过将个性化信息整合到视频生成过程中，实现了最先进的效果。以下将介绍模型结构、训练方法、评估标准以及定量结果。这项研究不仅在技术上取得了突破，还具有广泛的实际应用前景，为个性化高质量视频生成开辟了新的可能性。

后续将进一步解读Movie Gen的 视频精准编辑 和 声音生成。 感兴趣的小伙伴可以留意下本微信公众号：

生成个性化视频 ============

生成准确捕捉个人特征的高质量个性化视频具有重要的实际应用。本节详细介绍了将个性化整合到视频生成中所取得的最先进成果。4.1节介绍对应的模型架构，4.2.1节和4.3节阐述了训练方法，4.4节解释了个性化的评估标准，4.5节展示了定量的评测结果。

4.1 模型

为实现个性化文本到视频生成(PT2V)，在30B Movie Gen Video模型的基础上** 除了文本提示** 外，还引入了从输入参考图像中提取的身份信息 作为条件输入。图20展示了从T2V Movie Gen Video权重初始化的PT2V模型架构。通过在条件中拼接视觉token，实现统一框架的集成，从而能够扩展模型规模。类似于(He et al.， 2024b)的做法，使用可训练的Long-prompt MetaCLIP视觉编码器从带masked的人脸图像中提取身份特征，然后通过投影层将其与文本特征维度对齐。训练策略包括PT2V预训练阶段 和PT2V高质量微调 。

picture.image

4.2 预训练

4.2.1 预训练数据

PT2V训练主要由同一人物贯穿所有帧的视频 组成。从Movie Gen Video预训练数据集(3.2.1节)中筛选出这些训练集。首先基于包含人物相关概念的标题筛选原始T2V视频，然后每秒提取一帧过人脸检测器，保留只包含单人脸且连续帧间ArcFace余弦相似度得分超过0.5的视频。这一处理获得约 100万对文本-视频对 ，视频时长为4-16秒。根据source参考人脸，PT2V训练数据集可分为配对和交叉配对 数据。

配对数据 ：对每个选定的文本-视频对，从视频剪辑中均匀采样5帧，得到约1000万个配对训练样本。对每一帧，裁剪人脸区域并分割人脸区域，从而避免模型关注背景等非关键区域。

交叉配对数据 ：仅使用配对数据训练会导致模型倾向于学习到复制-粘贴的这种捷径解决方案(生成的视频始终抄袭参考图片面部的表情或头部姿势)。为解决这个问题，收集了参考图像来自同一人物不同视频的训练对。这些数据包括真实和合成的交叉配对数据样本。从预训练数据的一个子集中收集了约1万个真实交叉配对 ，这些数据包含同一场景的不同相机视角。对于合成交叉配对数据 ，使用预训练的个性化图像生成模型创建合成参考图像。具体而言，将模型应用于配对数据中每个视频的第一帧 ，生成具有不同表情、头部姿势和光照条件等的图像 。为保持身份一致性，丢弃与参考图像相比ArcFace相似度得分低于0.7的生成图像。总共得到约100万个合成交叉配对数据样本。

4.2.2 预训练方法

PT2V预训练有三个目标：

训练模型以参考图像为条件并保留身份
生成长时长的个性化视频
改善生成的人物表情和动作自然度

直接在长视频上训练模型一方面效率低下，另一方面常导致身份注入个性化模型缓慢。因为(1)训练速度几乎与潜在帧（token）数量的平方成正比，(2)长视频中参考图-视频弱的对应关系使得任务更具挑战性。图21详细介绍了预训练方法。

picture.image

第一阶段：身份注入。 为简化问题，以参考图像为条件，训练短视频 。具体来说，将TAE嵌入截断为8个潜在帧(对应64个RGB视频帧)，使用配对训练样本加速身份注入。冻结视觉编码器，仅训练Transformer主干网络。在这个阶段，模型可以快速地学会遵循参考图像，如图21中ArcFace的平均相似性得分所示。

第二阶段：长视频生成。 继续训练具有更多潜在帧的PT2V模型，恢复生成长视频的能力 。这一阶段显著提高了长视频生成的一致性，特别是背景和动作连贯性。

第三阶段：提高自然度。 由于第一阶段和第二阶段的模型是在成对的图像视频样本上进行训练的，因此经常表现出很强的复制粘贴效应。例如，在生成的视频帧中，人倾向于直接盯着相机，导致面部表情不自然。所以，第三阶段使用交叉配对样本(参考图像不是来自于相应的目标视频)训练，改善视频自然度和面部表情。利用真实和合成的交叉配对数据，同时微调视觉编码器以从参考图像中提取更详细的身份特征。

4.3 监督微调

类似于T2V，通过高质量美学数据进行高质量微调，以进一步改善视频美学效果。

4.3.1 微调数据集

与Movie Gen Video进行后训练过程（详见第3.3节）类似，收集一小部分高质量的微调数据，以生成具有良好运动质量和高度美感的视频。为了达到与Movie Gen Video 相匹配的视觉质量和美学效果，从T2V微调集开始，收集包含单人物的视频。随后手动选择人物动作多样化的视频，确保数据集捕捉各种动作和行为。最终微调集包含约1000个高质量视频，配对和真实交叉配对参考图像使用比例为1:1。

4.4 评估

PT2V模型的评估涵盖三个方面：身份保留、视频质量和视频-文本对齐 。后两个方面类似于3.5节的T2V A/B评估，其中视频质量可以进一步细分为整体质量、帧一致性、运动完整性和运动自然性。身份保留方面，评估人员需要对生成角色的人脸在最佳和最差帧中与参考人物的相似度(身份得分)，以及生成帧中包含参考人物的人脸之间的视觉一致性(人脸一致性得分)进行评分。这两个评分采用绝对尺度进行评估，身份问题的评分包括“非常相似”、“有些相似”和“不相似”，而面部一致性问题的评分包括“非常一致”、“有些一致”和“不一致”。评估人员经过专门培训以遵循评分指南，并进行质量审核。

评估数据集 ：选择50个训练中未见过的个体作为评估数据中的参考面孔。这些参考面孔图像包括正面和侧面视图。对于每张图像，配以5-7个独特的提示语，共整理了330对图像-提示对用于评估。类似于T2V评估数据集，这些提示语涵盖了不同的人物活动和面部表情。同时使用与第3.4.1节相同的提示重写方法，以弥合训练和推理字幕之间的Gap。

4.5 结果

表13和表15a比较了监督微调后的个性化 Movie Gen Video与ID-Animator 的性能结果。结果显示，新方法在身份保留、视频质量和文本对齐等所有方面都大幅优于基线。表15b还与未进行视觉条件控制的Movie Gen Video在视频质量和文本对齐方面进行了比较。

picture.image

图23展示了个性化Movie Gen Video生成的视频。前四个视频使用相同提示但不同身份生成，后四个使用相同身份但不同提示生成。生成的视频保留了身份特征，同时具有多样化的动作和摄像机视角。图22展示了个性化Movie Gen Video与ID-Animator的质量对比，前者在身份一致性和视频质量方面始终优于后者。

picture.image

4.5.1 消融实验

此外，Meta官方还研究了个性化 Text-to-Video(30B)训练流程中关键设计选择的影响。

视觉条件嵌入训练的影响： 结果显示，使用固定的视觉编码器会显著降低身份保留性能，降低16%。

交叉配对数据的影响： 虽然交叉配对训练导致身份指标略有下降，但对改善面部表情和自然动作至关重要。人工标注显示，交叉配对训练模型在文本对齐方面提高了27.36%，整体质量提高了13.68%，尤其是动作自然度提高了26.14%。

高质量微调的影响： 最终的高质量微调阶段对视频质量、文本对齐和身份保留的所有方面都产生了积极影响，尽管身份保留略有下降，但视频质量和自然度得到了显著改善。

总结

Movie Gen在个性化视频生成领域取得了显著进展。通过创新的模型设计和训练策略，Movie Gen成功地将个人身份信息融入视频生成过程，在身份保持、视频质量和文本对齐等多个方面都优于现有方法。此外，还探讨了视觉编码器训练、交叉配对数据和高质量微调等关键因素的影响。这些发现不仅推动了技术进步，也为未来个性化视频生成的应用和优化提供了重要参考。总的来说，这项工作为个性化视频生成领域开辟了新的研究方向，具有重要的理论价值和应用潜力。#视频生成 #AIGC #AI #多模态大模型