VATT多模态框架实现可控视频到音频生成，凭音频字幕解锁新应用，性能远超现有方法！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

视觉和音频场景的内容是多维的，因此视频流可以与各种音频流配对，反之亦然。因此，在视频到音频生成任务中，引入控制生成音频的引导方法至关重要。虽然视频到音频生成是一个已经确立的生成任务，但现有方法缺乏这种可控性。在本工作中，作者提出了VATT，这是一个多模态生成框架，输入一个视频和一个可选的文本 Prompt ，生成音频和可选的音频文本描述（字幕）。

这样一个框架有两个独特的优点：

i）视频到音频生成功能可以通过补充视觉信息的上下文进行精炼和控制；

ii）模型可以通过生成音频字幕来建议为视频生成什么音频。

VATT包括两个关键模块：VATT Converter，这是一个针对指令进行微调的LLM，包括一个投影层，将视频特征映射到LLM向量空间，以及 VATT Audio ，这是一个双向 Transformer ，使用迭代并行解码从视觉帧和可选文本 Prompt 生成音频 Token 。

音频 Token 和文本 Prompt 由一个预训练的神经解码器将它们转换为波形。作者的实验表明，当与现有视频到音频生成方法（如VGGSound音频视觉数据集）在客观指标（如VGGSound音频视觉数据集）上进行比较时，VATT在提供音频字幕的情况下，实现了具有竞争力的性能。

当提供音频字幕作为 Prompt 时，VATT实现了更加精细的性能（最低KLD分数为1.41）。此外，让参与者选择给定无声视频的最兼容生成音频的主观研究显示，VATT Audio平均被选择为首选生成音频，而不是现有方法生成的音频。

VATT可以通过文本实现可控的视频到音频生成，并通过音频字幕为视频建议文本 Prompt ，解锁新的应用，如文本引导的视频到音频生成和视频到音频字幕。

1 Introduction

人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如，当作者面对一个喷泉表演的无声视频时，作者的解释可能会将视觉场景转化为一种听觉体验，其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此，作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。

随着生成AI技术的不断进步，将上述要素融入生成平台被视为未来理想的能力。特别是，理想视频到音频生成模型的目标应该是生成能无缝匹配视频时间且完全捕捉语义的声音。此外，理想情况下，作者希望控制这种生成过程以生成符合用户偏好的主题和声音。最近最先进的方法采用了两种生成模型技术：自回归 Token 建模和扩散建模。这些方法实现了端到端的视频到音频生成，适用于各种视频和音频类别。然而，尽管这些方法能够捕捉视频中声音源的一般语义，但它们往往忽视了语境的细微差别。例如，在描绘两只猫在领地争端的视频中，模型可能产生一种平静、友好的喵喵声，这与场景的紧张性质相矛盾。这种差异主要源于视觉编码器的限制，由于无法在不同的语境中区分由相同声音源发出的各种声音属性，对整个场景的理解不完整。其次，这些方法缺乏可控制性，因为生成仅依赖于视觉帧，而没有考虑语境和声音的解释。虽然文本到音频模型可以明确控制声音的上下文，但这类模型仅基于文本，没有结合视觉的丰富和动态上下文，这可能显著影响视频和音频的对齐。实际上，仅基于文本的生成结果往往导致音频与视觉不匹配（例如，时间错位或语义损失）。

为了解决上述挑战，作者提出了一种新颖的框架，即视频到音频通过文本（VATT），该框架可以从视频帧和可选的文本 Prompt 中生成音频。VATT包含两个建模阶段：

视频到字幕阶段，该阶段通过预训练的大型语言模型（LLM）将视频特征转换为音频字幕，该模型包含可学习的投影层。通过这种跨模态转换，提取出与音频概念相关的视觉特征。这些特征与音频相关的任务，如音频字幕和音频生成，紧密相关。
视频与文本到音频阶段，该阶段根据前一个建模阶段中从LLM中提取的隐藏状态生成音频。在这个阶段，提出的模型是一个双向 Transformer 解码器，它使用类似于[1, 2]中的 Token 表示法生成音频。为了获得对前一个组件的隐藏状态的依赖，将投影的视频特征与可选的文本 Prompt ConCat 起来，并输入到阶段1的LLM，最后将来自最后一层的隐藏状态附加到解码器的音频 Token 上。解码器使用 Mask Token 建模进行训练，目标是从不同的 Mask 比例下预测未 Mask 的音频 Token 。在推理过程中，从所有 Token 都被 Mask 开始，实现了一种高效的并行解码算法，该算法根据视频和文本输入逐步解码多个 Token ，直到满足停止条件。最后，生成的 Token 通过神经音频编解码器转换为音频波形。

作者在现有的大规模音频视觉数据集（如VGGSound[3]和Audioset-2M[4]）上进行了实验，以展示所提出的框架在客观和主观指标方面的竞争力。为了方便文本训练和评估，作者创建了一个大规模的合成音频字幕语料库“V2A指令”，通过 Prompt 现有的音频语言模型LTU-13B[5]为这两个数据集生成音频描述。

作者的实验表明，与先前的视频到音频方法相比，所提出的模型及其训练方法在客观和主观指标上都取得了竞争力的性能。此外，该方法设计用于实现受文本输入和文本 Prompt 控制的生成，当提供文本 Prompt 时，作者的实验显示生成音频指标显著提高，这些指标衡量生成声音与视频的匹配程度。另外，当不提供文本 Prompt 时，作者的方法可以生成合理的音频字幕，可以用于视频的潜在描述或为特定视频进行声音分类。因此，这些能力使得VATT成为一种多功能的单一模型，可以同时执行文本引导的视频到音频生成和视频到音频字幕。总之，作者的贡献如下：

我国首次提出了一种第一流的框架，该框架通过将语言模型（LLM）集成，实现了文本指导下的视频到音频生成以及视频到音频字幕的转换。

作者创建了一个大规模的合成音频字幕数据集，以促进文本条件训练和生成。

作者的方法在与其他现有方法的比较中实现了最先进的视频到音频生成性能，并实现了文本控制生成。特别是，作者的文本引导模型在KLD得分（最低KLD分数为1.41）方面超过了现有最先进水平，优势显著，比现有方法快一个数量级。

2 Related Works

Visual-to-Audio Generation

视觉到音频生成任务自生成框架如扩散和基于 Transformer 的架构出现以来，受到了广泛关注。现有的视觉到音频生成方法可以分为两个研究分支：基于音乐类别的视觉到音乐生成和基于自然声音的视觉到自然声音生成。在视觉到音乐生成领域，早期研究通过研究人体运动的时间和语义对齐，探索了Midi或频谱图生成。近年来，基于扩散的方法被提出，可以直接从视频中生成音乐波形。在视觉到自然声音生成领域，早期工作开拓了与各种物体和材料相关联声音的生成[12]。

后续工作提出了基于SampleRNN的音频生成方法，可以从野外视频中生成多种自然声音。虽然这些方法展示了有前景的结果，但通常局限于特定的音频类别。神经解码和自回归 Transformer 架构解决了这些限制，随着它们的演变，生成模型现在可以有效地泛化到更广泛的音频或音乐，利用压缩潜在空间。与扩散技术如[25; 26]的类似进展。然而，这些方法通常缺乏详细的声音控制，其推理时间也变得耗时。作者的工作旨在通过引入文本指导框架来提高视频到音频生成的控制性和效率。尽管有许多同时进行的工作试图实现与作者的提出方法部分类似的目标[27; 28; 29]，但作者的工作不同，因为它旨在在一个统一的框架内实现这些能力。

Text-to-Audio Generation

作为替代从视频中生成音频的输入，文本可以作为音频生成的引导输入。当文本作为输入时，音频生成在语义上变得更加可控。现有的方法，如Make-An-Audio [30]，AudioLDM [31]，AudioLDM-2 [32]等，通过采用潜在扩散技术，这种技术最初出现在[36]中，使得可以通过调整来将文本转换为音频（或音乐）。同时，方法如AudioGen [37]，MusicGen [38]，AudioLM [39]，MusicLM [40]，SoundStorm [2]，VampNet [41]利用 Transformer 架构和基于 Token 的建模技术产生音频 Token ，然后使用神经解码器如Encodec [18]和SoundStream [42]将其解码为波形。值得注意的是，SoundStorm和VampNet使用了一种高效的技术，称为 Mask Token 建模，它通过解码器的并行解码速度加快了生成过程。在作者的工作中，作者采取了一种类似的策略。尽管这些模型在将文本转换为音频（或音乐）时可以提供高质量音频并具有很强的文本相关性，但它们在适应视频到音频生成时不一定与视觉动态对齐。这是可以预期的，因为这些模型没有接受视觉输入的训练。作者的工作通过将预训练的大语言模型（LLM）集成作为多模态编码器来解决这一问题，该编码器可以处理视觉和文本输入，这样生成的音频就会考虑视觉和文本信息。

Multi-modal Large Language Models

多模态大型语言模型（MLLMs）已经取得了显著的进步。随着开源、预训练和指令调优的LLM（如LLama [43]，Alpaca [44]，Vicuna [45]）的出现。特别是，将这些LLM扩展为MLLMs时，一个预训练的模态特定编码器提取特征，然后一个映射层将这些特征映射到与相应LLM的文本嵌入相同维度的向量。这种方法导致了视觉LLM [46, 47]、音频LLM [5, 48]、音频视觉LLM [49]的发展，并在诸如描述 [50] 和问答 [51, 52]等多模态理解任务中取得了改进。最近的努力也集中在诸如多模态检索 [53]，多模态嵌入式导航 [54, 55]，利用LLM的强大推理能力来解释或改进结果。在生成方面，一些工作 [56, 57] 试图使用LLM作为中心媒介实现任意模态之间的转换。尽管这些方法在总体上实现了模态之间的转换，但在有或没有文本指导的情况下，它们无法实现端到端的视频到音频转换，这是作者工作的独特方向。

3 Methods

VATT是一种灵活的视觉到音频生成框架，它可以处理视觉和文本输入，并生成音频波形和音频字幕。为了实现这一目标，VATT包含两个建模阶段：

i) 视频到字幕 ：这一阶段使用一个可学习的投影层将视频特征转换为与LLM兼容的嵌入。模型接收生成音频字幕的指令。

ii) 视频+文本到音频 ：这一阶段采用编码器-解码器架构。编码器使用视频到字幕阶段的冻住权重的细调LLM。解码器是一个双向 Transformer ，使用训练中的 Mask Token 建模技术在训练中生成音频 Token 。VATT系统的训练 Pipeline 如图2所示。在推理过程中，VATT通过迭代并行解码从视频和可选文本 Prompt 生成音频 Token 。这些 Token 然后使用[17]中的Encodec转换为音频波形。

picture.image

Video-to-Caption Stage

VATT Converter旨在将视觉和文本 Prompt 集成到音频生成以及音频字幕中。核心组件是 _VATT Projector_，它是一个嵌入层，将视频特征映射到LLM的文本嵌入空间。对于从帧级视觉编码器

中提取的视觉特征，应用一个线性层将每个特征从其原始维度

投影到LLM的文本嵌入维度

，生成一系列转换后的特征

，其中

和

是线性投影的可学习参数。

V2A 指令调优 ：VATT Transformer 的关键功能是从视觉流中提取与音频相关的语义特征。借鉴多模态 LLM（如视觉-LLM [46] 和音频-LLM [5]）的成功经验，作者采用多模态指令调优，将视频的视觉输入与同一视频的 GT 音频字幕对齐。给定一个 Prompt 指令

，例如 "描述视频可能产生的音频：" 和作为输入的视觉特征

，作者通过微调一个指令调优的 LLM，例如 Vicuna-7B [45]，来模拟音频描述的条件分布

，即

。与典型的指令调优方法不同，作者的方法将来自视觉的概念桥接到音频模态，统一了作者在第3.2节描述的文本引导视频到音频生成的任务表示。为了提高训练效率，作者在保持原始 LLM 权重不变的同时，通过集成 LoRA [58] Adapter 来微调 VATT Projector。作者最小化音频字幕 Token 的负对数似然度，该 Token 是基于视觉输入和 Prompt 指令条件化的。

在真实音频描述

中的第

个文本 Token

，

是包括VATT项目器和LoRA Adapter 在内的可训练权重集。文本 Prompt 和音频字幕的构建的进一步详细信息在第四章和附录C中描述。

Video + Text to Audio Stage

一旦音频相关的视觉特征与LLM嵌入空间中的文本特征对齐，LLM就能有效地编码多模态信息，作为文本生成和音频生成的表示。确实，在VATT的第二阶段，有两种生成音频的方式：i）在没有提供条件文本 Prompt 的情况下，将视频特征和_标准模板_ Prompt （例如，“描述视频可能推理出的音频”）作为VATT Transformer 的输入。ii）当提供音频标题作为文本 Prompt 时，将视频特征和音频标题一起输入到VATT Transformer 中。在这种情况下，提供的音频标题有助于指导视频到音频的生成过程，并取代了生成音频标题的需要。

3.2.1 Audio Token Decoder

为了生成音频，作者设计了一个基于音频 Token 的解码器VATT Audio，该解码器基于VATT Transformer 编码的特征。与现有方法不同，作者采用了一种基于遮挡 Token 的新型 Token 建模技术。这种方法最初在图像生成任务中得到推导[1]，最近被应用于文本到音频生成[2, 41]。在推理过程中，通过迭代并行解码算法，该方法能够实现竞争生成质量的同时提高效率。

基于离散 Token 的音频表示 为了使用离散 Token 表示音频波形，作者采用了一个预训练的音频神经解码器Encodec [17]，类似于FoleyGen [23]。Encodec是一个多级残差向量量化（RVQ）自编码器，通过波形重构和对抗目标进行训练，可以从压缩 Token 中高保真重构。具体来说，Encodec使用了L=4个 Token 库来表示音频。低级 Token 库编码粗粒度的语义信息，而高级 Token 库捕获更精细的细节。作者采用了一个开源的Encodec模型，它使用音频波形在

的采样率下进行预训练。该模型在

的采样率下将波形压缩为 Token ，从而得到

波形样本每个 Token 。对于任意波形

，作者从Encodec解码器部分提取相应的音频 Token 表示

(

)。

Mask 音频 Token 生成模型 作者通过开发一个 Token Mask 策略来学习音频 Token 矩阵

的联合分布，该策略在完全并行方式下学习音频 Token 的联合分布。这与[38]中提出的"延迟模式"不同，它可以在代码库维度上实现并行，但仅限于代码库维度。在

的每个时间步，将L个 Token 的嵌入向量相加以表示相应段的音频波形。为了在 Token 矩阵的任何位置执行 Mask 操作，作者在每个 Token 库中引入了一个可学习的

Token 。通过在对应代码库中随机替换

中某些 Token 的条目，作者得到 Mask 音频 Token 矩阵

。通过沿 Level 轴对

中每个 Token 的嵌入向量求和，作者得到

。

条件生成建模的实现如下。作者从VATT Transformer 中提取最后一个隐状态层

（在LLM预测头之前）作为条件输入到音频 Token 解码器中。作者使用一个线性层将

映射到

，具有与 Mask 音频嵌入

相同的功能维度。将

和

之间的关系的建模方法之一是使用Vanilla Transformer架构中提出的交错自注意力和交叉注意力块[59]。然而，作者发现这种交错交互的音频和多模态输入条件之间的互动并不能捕捉它们之间的细粒度对应关系。因此，作者提出使用双向自注意力架构来融合特征。

具体而言，作者在时间轴上把

和

拼接起来，得到融合特征

。解码器由

个自注意力块组成，如图3所示。解码器最后层的隐藏状态

表示融合音频和条件特征。作者只提取隐藏状态对应音频 Token 的部分，即

，并将其并行地经过

个线性层进行分类，在代码表的每个 Level 上对 Mask Token 进行分类。对于矩阵

中的每个 Mask 音频 Token ，作者计算预测 Token

和真实 Token

之间的交叉熵损失，公式如下：

picture.image

VATT多模态框架实现可控视频到音频生成，凭音频字幕解锁新应用，性能远超现有方法 ！

1 Introduction

2 Related Works

3 Methods