新颖故事化视频生成方法DreamRunner，性能超基线，多目标交互生成能力超绝！ - 文章 - 开发者社区

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

最近，故事化视频生成（SVG）作为一种任务，旨在创建长、多动作、多场景视频，这些视频始终以输入文本脚本中描述的故事为主题。SVG在媒体和娱乐领域的多样化内容创作方面具有巨大潜力；

然而，它也面临着巨大的挑战：

(1) 目标必须表现出范围广泛的细微、复杂动作，(2) 多个目标需要在场景中一致出现，(3) 主题可能在同一场景中需要多个动作，并且这些动作之间需要无缝转换。

为了应对这些挑战，作者提出了一种新颖的故事到视频生成方法：

首先，作者使用大型语言模型（ LLM ）来结构化输入脚本，以促进粗粒度场景规划以及细粒度目标 Level 的布局和动作规划。接下来，DreamRunner在测试时提供检索增强的适应性，以捕捉每个场景中物体的目标运动先验，从而根据检索到的视频支持多样化的运动定制，从而促进生成具有复杂、预定动作的新视频。

最后，作者提出了一种新颖的空间-时间区域-基于3D注意力和先验注入模块SR3AI，用于细粒度目标-动作绑定和帧到帧语义控制。作者将DreamRunner与各种SVG Baseline 进行比较，展示了在行人一致性、文本对齐和平滑过渡方面的最先进性能。

此外，DreamRunner在组合文本到视频生成方面表现出强大的细粒度条件遵循能力，在T2V-ComBench上明显优于 Baseline 。最后，作者通过定性示例验证了DreamRunner生成多目标交互的鲁棒性。

1 Introduction

讲故事视频生成（SVG）模型能够创建多场景、多目标、基于运动的长时间视频，对于推进视频生成技术的实际应用至关重要，能够实现丰富的沉浸式叙事，具有真实感和吸引人的互动。与现有的短格式视频生成方法不同，这些模型允许角色和目标在场景之间演变，增强生成的内容的一致性，使其更接近人类的叙事。这些能力在媒体、游戏和互动叙事等领域具有巨大的潜力。

SVG在将文本脚本无缝地翻译成长篇视频中面临独特的挑战，例如：

（1）确保细粒度、复杂的物体运动：讲故事的视频中的主题通常需要展示与叙事需求相匹配的细粒度运动，而不是依赖基本或重复的运动模式；

（2）在多个场景中保持多个物体的一致性：在一个场景中引入的角色需要在整个故事中保持可识别的特征（例如外观和位置），尽管有动态运动和变化的环境；

（3）在一个场景内管理多个运动的平滑过渡：一个强大的SVG模型需要代表同一场景中主体在不同动作或状态之间的无缝过渡，确保连续性和一致性以增强故事的流畅性，例如，一个角色在跑过海滩之前过渡到平静的步行。然而，尽管最近的一些SVG方法在保留多个场景中的主要角色方面有效，但在生成多样化和自然物体运动方面存在局限性，导致讲故事序列中的运动受限。它们还难以合并多个物体和多个同时运动，这阻碍了丰富叙事所必需的动态交互和过渡。

为解决这些挑战，作者提出了一种新颖的检索增强的讲故事到视频生成方法DreamRunner，该方法通过结合新的动作和主题先验学习策略以及区域扩散，在多个场景下生成长篇、多角色、多动作视频。DreamRunner通过在测试时微调检索的运动导向视频和参考图像，实现多个场景中角色的一致出现，同时提高运动质量和过渡。DreamRunner框架包含三个关键过程（见图1）：

1)双级视频计划生成，2 动作检索与主题/动作先验学习，和_3)空间-时间区域基3D注意力与先验注入（SR3AI）。在计划生成阶段，作者使用大型语言模型（LLM）进行分层规划，首先生成跨场景的高层序列，然后为每个场景内的每个帧构建详细、实体特定的计划（见图1中的“高层计划”）。

在（2）动作检索与动作/主题先验学习阶段，为了使视频扩散模型准确地遵循这些场景级脚本，特别是对于涉及多个目标和局部复杂动作的本地化情况，作者将[69]中的测试时动作适应方法与新颖的自动检索 Pipeline 相结合，该 Pipeline 从视频数据库[52]中检索与所需动作相关的视频以学习动作先验。先验是通过更新DiT[40]中特定层参数效率模块来学习的，而行人先验[45]采用相似的设计。在（3）视频生成与区域扩散阶段，作者引入了一种新颖的空间-时间区域基3D注意力和先验注入模块SR3AI，专门用于视频生成具有细粒度控制。作者的SR3AI实现了对视频生成过程的多个方面的控制：

（a）详细帧到帧语义，支持多个动作和跨帧的平滑过渡。（b）在3D注意力的区域内控制区域运动和行人，提高目标-运动绑定和减少多个目标和动作生成的干扰。为了实现这一目标，作者首先编码涉及细粒度计划的多个条件。接下来，在作者的SR3AI中，对于每个条件，作者在潜在空间的提供的空间-时间布局中计算相应的潜在值，然后对于每个条件，作者为其相关区域设置注意力，同时为不相关的区域设置相同的注意力。这种空间-时间-区域注意力允许对生成过程进行细粒度目标和运动级控制。此外，作者将学习到的角色和动作先验注入到扩散模型对应区域的内部，允许多个先验无缝集成，避免冲突并确保结果一致。

picture.image

作者在两个任务上验证了DreamRunner的有效性：故事到视频生成和组合文本到视频生成。对于故事到视频生成，作者收集了一个故事数据集DreamStorySet，并将其与先前的最先进方法（即VideoDirect-GPT [33]和VLogger [74]）进行比较。DreamRunner在这些方法上的相对改进分别为：字符一致性（CLIP得分）的13.1%和文本跟随能力的8.56%的相对提高（ViCLIP得分）；此外，DreamRunner在单个场景内的平滑事件转换方面取得了27.2%的相对改进（DINO得分），从而证明了其有效性。在组合文本到视频生成中，基于CogVideoX-2B [62]的DreamRunner在T2V-CompBench [48]上的所有指标上都超过了 Baseline 方法，包括属性绑定和运动，突显了其在组合生成方面的优势。值得注意的是，尽管是基于开源模型，但DreamRunner在动态属性绑定和空间关系方面取得了与封闭源模型相当的结果，这表明了作者方法将开源模型提升到封闭源性能水平潜力。最后，作者提供一个定性示例来展示DreamRunner在多角色生成和动作绑定方面的有效性。

2 Related Work

讲故事视频生成的目标是基于给定的脚本创建多场景视频。VideoDirectorGPT [33]和Vlogger [74]使用LLM进行高级规划，将脚本分解为多场景条件，并逐场景生成视频。Animate-A-Story [17]进一步通过使用检索增强的视频作为深度条件改进动作控制。最近，DreamStory [16]和MovieDreamer [68]使用文本到图像模型生成关键帧，然后使用图像到视频模型[9]进行动画，从而创建连贯的流。定制方法也参与其中，以保持参考图像的一致性。与这些方法不同，作者的工作旨在解决以视频为中心的生成多角色、动作丰富的视频的挑战，这些视频具有在不同动作之间平滑、自然的过渡。作者使用双级LLM进行高级规划，以实现这种目标。

运动定制化是视频生成的基本挑战之一。一项研究专注于从视频编辑的角度进行像素级运动学习，目标是通过生成包含原始图像低级运动的视频来确保跨帧运动的一致性 [23, 34, 43, 57, 66]。另一种方法强调从手动精选的相关视频集合中学习通用的运动先验，如人类或摄像机运动，以捕捉对现实运动描绘至关重要的高级语义动作 [53, 58, 69, 73]。这些方法大多利用测试时的微调，使用特定的运动低秩近似（LoRAs）或 Adapter 来适应特定的运动。作者的方法遵循类似的流程，但通过从大规模视频数据库中学习的运动先验，使其更具有上下文相关性和多样性，从而生成逼真和动态的场景。

组合式扩散。最近扩散模型的进步为通过提高视频连贯性、语义对齐和用户控制实现组合文本到视频生成的可能性开辟了新的可能性。一些方法探索利用大型语言模型（LLMs）进行细粒度场景规划[12, 32, 33]。在细粒度场景规划的视频中，一些方法采用区域 Mask 来控制多目标生成，从而提高视频生成的视觉和语义连贯性。其他工作通过为不同帧应用不同的文本条件来探索帧级语义控制[7, 59]。此外，将多个LoRA模块集成以在生成过程中无缝引入多样概念的组合式技术已经开发出来[15, 30, 61, 72]。然而，这些方法并未特别关注目标与其对应动作在时间和空间上的绑定。作者的方法侧重于对目标和动作的细粒度控制，重点是保持目标及其动作在整个视频中保持一致的联系。

3 Methodology

任务设置 。故事生成视频专注于根据给定主题创建多场景、以角色为主导的视频。角色通过参考图像（如女巫的图像）定义，主题作为教学 Prompt （如“女巫的一天”）。生成的视频应符合给定主题，准确反映角色的特性和行为。

方法概述 作者的方法采用了一种分层系统，其中LLM在多个场景下生成基于事件的电影剧本，然后为每个场景指定关键目标的布局和运动转换的详细计划（第3.1节）。接下来，视频扩散模型逐步合成每个场景。作者从与LLM生成的计划（来自大规模视频语言数据库的检索视频）以及参考图像（第3.2节）中训练运动先验和行人先验。最后，作者将这些先验和详细计划以零样本方式注入到视频生成过程中，使用作者的空间-时间区域扩散模块SR3AI（第3.3节）。

基础生成模型

作者利用CogVideoX-2B [62]作为文本到视频的基础 Backbone 网络。CogVideoX采用基于DiT的架构，将完整的3D注意力集成在一起，而不是分离的空间和时间注意力。该模型在输入文本的条件下，以8 fps的速度生成6秒钟的视频。在作者的方法中，作者通过在不同的层中训练字符和运动先验（见第3.2节）以及修改其3D注意力（见第3.3节）来扩展CogVideoX，以获得更好的运动和字符绑定。

Generating Dual-Level Plans with LLMs

故事 Level 细粒度规划。作者使用一个LLM来生成一系列跨越多个场景的叙述。具体来说，根据任务要求、单个上下文示例和指定的故事主题，作者 Prompt GPT-4o [37] 生成六个到八个侧重于角色驱动、动作丰富的叙述。每个事件都以场景、动作、叙述的形式呈现，作者首先定义相关的动作，然后生成相应的活动叙述（图1中的中间框为《高层次计划》）。这个事件列表作为一个高层次目录，指导故事在场景之间的进展，确保每个事件在视觉上和叙事流畅性上保持一致。

场景级细粒度规划。在生成单场景事件的叙述列表后，作者随后为每个单场景事件内的每个帧创建详细、实体 Level 的计划。每个计划从总体背景描述开始，然后是每个帧的实体 Level 细节。如图2顶部黄色框所示的《帧级计划》框中，背景作为整体场景描述（例如：“一个月光下的花园”）以Background:背景描述的格式呈现。实体 Level 细节指定每个实体的描述以及其运动（例如：“一个[v1]在月光下的花园里行走”）和边界框布局，格式为：帧：[实体名称，实体运动，实体描述]，[x0,y0,x1,y1]。在这里，[x0,y0,x1,y1]表示边界框的左上角和右下角，每个坐标都归一化到[0,1]范围内。没有运动实体的运动用"none"表示。每个场景包括六个关键帧的计划，每个帧都将指导CogVideoX生成六个秒的视频。粗粒度和细粒度规划的详细 Prompt 模板请参阅附录。

picture.image

Motion Retrieval and Prior Learning

从数据库中检索与运动相关的视频。作者在测试时采用检索增强方法来微调运动先验，从而增强模型生成复杂和多样化运动的能力。基于LLM规划生成的运动描述，作者从大规模视频数据库[52]中检索相关视频。例如，对于 Query 运动 " sitting "，作者的检索过程包括以下步骤：

初始检索与BM25：作者使用基于数据集中的视频字幕的仅文本BM25分数[44]来检索 Query 的400个候选视频。为确保检索到的视频以人为中心，作者在 Query 中添加了" person is "（" person is sitting "）。

基于属性的过滤：作者通过过滤具有关键属性（如持续时间至少2秒，帧数至少40帧，宽高比至少0.9）的视频来优化候选池。这样，所选视频就能满足视频生成器的使用需求，排除过于短暂或宽高比极端的视频。

通过物体跟踪进行剪辑分割：作者使用YOLOv5 [24]在视频中跟踪个人，并根据跟踪结果将剪辑分割为以人为中心的剪辑，保持有意义的人本内容。

使用CLIP和ViCLIP进行打分[42, 51]:为了确保分段视频片段和 Query 之间的忠实度，作者使用CLIP和ViCLIP对每个分段视频片段计算语义相似度得分（例如，“人坐在那里”）到 Query 文本(_e.g._，“人坐在那里”）。CLIP分数通过采样八个帧并求平均帧- Query 分数计算，而ViCLIP分数直接计算在完整的视频和 Query 上。作者选择满足CLIP和ViCLIP平均分数大于0.2的top 20个视频。如果少于四个视频满足此阈值，作者保留排名前四的视频。

通过遵循此过程，作者每种动作可以获取4到20个视频片段，这些视频片段用于学习动作先验。

运动先验训练 。参考MotionDirector [69]，作者在测试时进行微调以学习特定动作。在MotionDirector中，一个或多个检索到的视频用于高效地微调一个视频扩散模型[1, 50]与LoRA。在应用时间LoRA时，将其注入到应用时间注意力以捕获运动模式（例如跳跃）的层中，而将每视频特定的LoRA注入到具有空间注意力的空间层中，以捕获每个视频的独特特性，而在推理时只注入时间LoRA。在作者的情况下，由于作者使用CogVideoX [62]具有3D全注意力而不是单独的空间和时间注意力，作者手动指定偶数层为'空间'层，奇数层为'时间'层，以分离学习空间和时间LoRA。作者在过滤后的顶级视频上训练LoRA，同时冻结所有其他后端参数，使用两种扩散损失：一个标准的扩散损失

，它是所有视频帧的重建损失，以及一个外观偏置的时间损失

，它在潜在空间中解耦运动空间和外观空间，专注于仅在视频中恢复运动。正式地，

其中，

是训练视频的潜在编码，

是文本 Prompt 条件，

是添加到潜在空间的高斯噪声，

是预测噪声，

是去噪时间步长。外观偏差时间损失优化了归一化的潜在空间：

在同一个训练数据中的帧之间，

是 Anchor 点，

是控制去偏性的强度因子。

的定义为：

最后，作者使用一个定义为

的结合运动损失函数来更新模型。值得注意的是，在论文中的实验中，作者没有对每个损失项进行缩放，这突出了DreamRunner中超参数选择的鲁棒性和简单性。

论文主题：先验学习。作者通过将LoRA模块注入空间 Transformer Layer 来学习主体的外观。为了训练这些LoRA，作者通过多次重复参考图像来创建视频（48次，类似于CogVideoX的输出帧数），并在训练过程中专注于重构视频的第一帧，防止过度拟合到静态、重复的视频。值得注意的是，主体先验知识是在空间LoRA中学习的，而运动先验知识是在时间LoRA中学习的。由于它们的注入目标不同的层，因此没有重叠，有效避免了多个LoRA之间的冲突。

Sapatial-Temporal-Region-Based Diffusion

基于区域的3D注意力。作者在CogVideoX-2B [62]上构建作者的模型，这是一个基于Diffusion Transformer (DiT)的20亿文本到视频生成模型。与使用单独的空间和时间注意力进行有效视频建模的方法不同，CogVideoX采用3D全注意力模块，将自注意力集成到所有视觉潜在特征和文本条件嵌入的 ConCat 表示中。作者将这个模块扩展，以通过 Mask 实现区域特定条件，将不同的区域与各自的文本描述对齐。具体来说，给定一个细粒度计划，其中包含N个区域特定文本描述

和对应的不同帧的布局

，作者将每个文本条件

编码为嵌入

（图2右上）。在每个注意力层，作者识别出潜在空间中对应每个布局

的视觉 Token 。然后，作者对

和

的 ConCat 进行 Mask 自注意力。自注意力 Mask 定义如下：对于每个区域的视觉潜在特征

，注意力允许指向其对应的文本条件

和所有视觉 Token

。反之，对于每个条件

，注意力仅限制为其自身和相应的潜在特征

。这种设计确保每个区域仅根据其特定的文本描述进行条件化，同时通过

之间的未 Mask 注意力进行视觉潜在特征之间的交互。基本模型中的其他模块没有进行任何修改，保持了其原始架构的完整性。这种 Mask 策略的视觉示例包含在附录中。

基于区域的LoRA注入。作者采用类似的基于区域的方法将LoRA先验注入到扩散模型中。对于每个LoRA，作者首先根据关联的文本描述和布局信息确定相应的潜在 Token 区域。然后，仅将这些区域应用LoRA注入，确保先验与指定区域的精准对齐。这种方法可以同时处理多个LoRA，避免它们之间的冲突，同时保持每个注入的先验的完整性。

4 Experiments

在本节中，作者首先在Sec. 4.1中介绍了评估数据集和评估指标的详细信息。然后，作者在Sec. 4.2中比较了作者的DreamRunner与先前的方法在故事到视频生成的领域。接下来，作者在Sec. 4.3中详细阐述了RAG的必要性以及SR3AI的有效性，并对它们在复合文本到视频生成的T2V-CompBench [48]上的效果进行了分析。此外，作者在Sec. 4.4中展示了作者的DreamRunner在改进T2V-CompBench [48]上的组合文本到视频生成的通用性。最后，作者在Sec. 4.5中展示了作者在收集的更全面的运动数据集上学习运动先验的有效性。最后，作者在Sec. 4.6中展示了作者的DreamRunner与先前方法的定性比较。

Datasets and Evaluation Metrics

评估数据集。作者在两个任务上评估DreamRunner：（1）故事到视频生成，以及（2）组合文本到视频生成。第一个任务关注模型在故事中紧密跟随文本的能力，同时保持行人和场景的一致性。第二个任务评估视频生成中的各种组合性方面。对于（1）故事到视频生成，作者收集并引入了一个新的评估数据集，即DreamStorySet。具体而言，作者从现有的定制数据集中收集了10个角色，包括6个来自现有的定制数据集（CustomConcept101 [27]和Dreambooth [45]），以及4个具有生成模型的角色（FLUX [4]），（每个场景有两个动作）和三个具有多角色故事（每个场景有两个或三个动作）。每个故事包含5到8个场景，总共包括64个多样化的动作。作者专注于单角色故事进行SVG模型的定量评估，并将多角色故事保留为定性评估。对于（2）组合文本到视频生成，作者使用T2V-CompBench [48]来评估DreamRunner的性能，其中作者选择了除了数值之外的六个维度。

评估指标。作者在多个维度上评估作者生成的讲述性视频，包括角色一致性（帧参考图像CLIP/DINO分数），每个场景的完整叙述文本对齐（图像/视频-文本CLIP/ViCLIP分数），每个场景的细粒度文本对齐（图像/视频-文本CLIP/ViCLIP分数），以及帧帧平滑度（帧帧DINO分数）。有关指标和计算方法的详细描述请参见附录。作者在评估组合文本到视频生成的指标时，遵循与T2V-ComBench [48]相似的指标。

Story-To-Video Generation Evaluation

作者将作者的方法与先前的SoTAs（VideoDirectorGPT [33]和VLogger [74]）在DreamStorySet数据集上进行比较，用于将故事生成视频。对于VideoDirectorGPT和Vlogger，为了促进生成的视频与动作之间的更好对齐，作者将每个场景的叙述分解为两个连续的单一动作描述。每个描述的视频分别生成，然后组合成最终的单一场景视频。

表1显示，DreamRunner与VLogger相比，在CLIP得分和DINO得分上分别提高了13.1%和33.4%，表明了作者学习的主题先验的有效性以及基于区域的LoRA注入技术在视频中保持字符一致性的有效性。

picture.image

此外，作者在两个维度上评估了模型的文本跟随能力：细粒度文本跟随和完全 Prompt 的遵循。在DreamStorySet中，每个场景都设计为包含两个不同的子事件，这样作者可以在单个场景中更全面地评估事件之间的转换，并评估模型跟随详细事件描述的能力。对于完全 Prompt 跟随，作者测量了描述两个事件的完整 Prompt 与生成的视频之间的相似性。对于细粒度文本跟随，作者评估了每个事件个体描述与生成视频相应部分的对齐情况。作者的DreamRunner与VLogger相比，在CLIP和ViCLIP得分上分别提高了7.56%和8.56%。

最后，作者在单个场景内的不同事件之间评估转换平滑度。作者的目标是保持场景一致性，同时确保事件自然且流畅地展开。为了量化这一点，作者从完整的视频中均匀地选择四个帧，并计算帧与帧之间的平均DINO分数，将其定义为Transitionscore。作者的DreamRunner在生成更平滑的事件转换方面显著超过了先前的最佳结果，与VLogger相比，Transition score提高了27.2%。这一结果表明，作者的SR3AI设计，在空间和时间维度上同时条件生成，有效地增强了事件之间转换的流畅性。

Ablation Studies

在本节中，作者展示了RAG在运动先验学习自动视频检索中的有效性以及SR3AI实现对物体及其运动的精细控制。如表2所示，利用SR3AI进行增强的目标和运动绑定（第二行）显著提高了单个场景内事件之间的平滑转换（87.1

92.5）。此外，将检索增强的运动先验学习（第三行）提高了视频文本相似度（根据ViCLIP评分，细粒度文本从22.5

23.5，全 Prompt 文本从22.1

24.0）。最后，作者证明了RAG和SR3AI可以有效结合（最后一行），组合模型在文本对齐和事件平滑转换方面都取得了最佳性能。

picture.image

Compositional T2V Generalization

在本节中，作者证明了DreamRunner可以适应于帮助通用文本到视频生成任务，该任务在T2V-CompBench [48]上进行评估。具体而言，作者使用一个LLM（即，GPT-4o）根据 Prompt 生成细粒度、层次化的计划，而SR3AI则实现对物体及其运动的区域控制。由于计算限制，作者没有包括运动LoRA或为每个动作学习运动或角色先验知识。如表3所示，DreamRunner在所有类别上明显优于 Baseline 方法CogVideoX-2B [62]。值得注意的是，DreamRunner提高了属性绑定的一致性0.0575，动态属性绑定0.0554，表明LLM生成的详细计划改善了视频生成过程中的属性绑定。此外，DreamRunner提高了空间关系准确性0.1192，运动绑定0.0229，表明SR3AI有助于维持物体之间的空间关系并绑定其运动。此外，DreamRunner增强了多目标交互0.0975，强调了其有效管理多个物体之间的交互的能力。除了与 Baseline 比较之外，DreamRunner基于CogVideoX-2B实现了优越或可比的性能与其他开源模型（例如，Open-Sora 1.2 [20]，VideoTetris [49]）相比，并实现了与某些闭源模型（例如，Gen-3 [5]，PixVerse [3]）相当的表现，尤其是在动态属性绑定和维持良好的空间关系方面。这证明了作者的方法在将闭源模型提升到与开源基准相匹配或超过开源基准方面的有效性，并突显了其将适用于甚至更强大的模型，推动组合文本到视频生成的最先进水平。

picture.image

Effect of RAG for Learning Motion Prior

作者研究了在测试时检索增强的微调对于学习增强运动先验的有效性。具体而言，对于每个运动，作者使用一个LLM [37]为整个64个运动提供6个 Prompt ，然后使用这些 Prompt 评估平均CLIP/ViCLIP得分。如表4所示，将作者的方法应用于CogVideoX-2B导致CLIP和ViCLIP得分均有所提高，CLIP得分提高了1.28，ViCLIP得分提高了2.20。ViCLIP的巨大增益表明故事与生成的视频之间的对齐更强，突显了运动准确性的显著提高。此外，CLIP得分的改善表明作者的方法在单个帧内更好地保留了语义对齐。这些结果验证了RAG有效地检索具有相关运动的视频，有助于模型学习更准确的运动先验。

picture.image

Qualitative Comparison

图3呈现了与其他方法的一个定性比较。具体来说，作者与VideoDirectorGPT [33]、Vlogger [74]和CogVideoX [62]进行了比较，这些方法都使用了字符LoRA。作者观察到其他方法在生成的视频中无法保持字符外观的一致性（例如，熊和机器人）。VideoDirectorGPT无法保留字符外观，Vlogger表现出字符外观干扰，而CogVideoX将两个字符合并为一个具有混合特征的单一字符。相比之下，DreamRunner成功保持了两个字符的独特外观并生成了逼真的字符交互，这表明SR3AI显著增强了目标-运动绑定控制的精细程度，并减少了不同字符LoRA之间的干扰。此外，DreamRunner在单个场景内实现了更平滑的事件转换，展示了SR3AI对于详细场景描述和帧级语义注入的有效性。

picture.image

5 Conclusion

在本研究中，作者提出了DreamRunner，一种用于故事到视频生成的创新框架。具体而言，DreamRunner首先利用一个LLM来构建一个层次化的视频计划，然后引入检索增强的测试时自适应来捕捉目标运动先验，最后使用一种新颖的空间-时间区域-基于3D注意力及先验注入模块来生成视频，实现细粒度物体运动绑定和帧级语义控制。

在故事到视频和组合式T2V生成基准测试上的实验表明，DreamRunner在处理细粒度复杂运动方面超过了强大的 Baseline 和state-of-the-art（SOTA）水平，保持了多个场景中多个物体的多场景一致性，并确保了无缝场景转换。

参考文献

[0]. DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation.