深度剖析：Kimi - Audio 中 BigVGAN 的神奇作用 - 文章 - 开发者社区

ABSTRACT

尽管基于生成对抗网络（GAN）的语音编码器在近期取得了进展，即模型能够根据声学特征生成原始波形，但要为来自各种录音环境的众多说话者合成高质量的音频却颇具挑战性。在本研究中，我们提出了 BigVGAN，这是一种通用的语音编码器，其在各种离群分布场景中表现良好，无需进行微调 。我们在 GAN 生成器中引入了周期性激活函数 和抗锯齿表示 ，这为音频合成带来了所需的归纳偏差 ，并显著提高了音频质量。此外，我们以高达 112M 参数的规模对我们的 GAN 语音编码器进行了训练，这在文献中是前所未有的。我们识别并解决了大规模音频 GAN 训练中的失败模式，同时保持了高质量的输出，且没有过度正则化。仅基于纯净语音（LibriTTS）训练的 BigVGAN，在各种zero-shot（离群分布）条件下（包括未见过的说话者、语言、录音环境、演唱声音、音乐和乐器音频）都达到了最先进的性能。我们的代码和模型可在以下网址获取： https://github.com/NVIDIA/BigVGAN 。

BigVGAN 一种大型vocoder GAN网络，能够实现无须微调即可进行高保真度的非分布数据（OOD， zero-shot）生成。

INTRODUCTION

深度生成模型在模拟原始音频方面已展现出显著的成效。成功的方法包括：AR模型、flow-based的模型、基于 GAN 的模型以及diffusion模型。

在这些方法中，基于生成对抗网络（GAN）的语音编码器能够根据梅尔频谱图 生成高质量的原始音频，并且在单个 GPU 上的处理速度比实时速度快数百倍。然而，现有的 GAN 语音编码器由于模型容量有限，只能适用于在clean环境中录制的、数量适中的多个声音的设置。当模型根据来自不同录音环境中的未见过的说话者的梅尔频谱图进行条件设置时，音频质量可能会严重下降。在实际应用中，一种通用的语音编码器，能够对分布外的样本进行zero-shot生成，对于许多实际应用 （包括具有众多说话者的文本转语音、神经语音克隆）来说是非常有价值的 。在这些应用中，神经语音编码器还需要能够很好地适应在各种条件下录制的音频 。

在文本生成和图像合成中，增大模型规模以提升zero-shot性能是一个显著的趋势 ，但在音频合成中尚未得到探索。尽管基于似然性的模型因其简单的训练目标和稳定的优化过程而被认为在规模扩展方面较为容易，但我们通过大规模的 GAN 训练来构建我们的通用语音合成器，因为 GAN 语音合成器具有以下优势：i）与自回归或扩散模型不同，它完全并行化，仅需要一次前向传播即可生成高维波形 。ii）与基于流的模型不同，它不强制任何架构约束（例如，仿射耦合层），这些约束会保持隐向量与数据之间的一一对应关系 。由于相同的参数数量，这样的架构约束可能会限制模型的容量。

在本研究中，我们提出了 BigVGAN，这是一种大型语音编码生成对抗网络，能够实现无须微调即可进行高保真度的非分布数据（OOD）生成 。具体而言，我们做出了以下贡献：

1. 我们在 generator 中引入了 周期性激活 机制，这为音频合成提供了所需的 归纳偏差 。受其他领域所提出方法的启发，我们展示了周期性激活在音频合成中显著的成功效果。
1. 我们提出了 抗锯齿多周期性合成 （AMP, anti-aliased multi-periodicity composition）模块，用于对复杂的音频波形进行建模。AMP 通过学习到的周期性将多个信号成分进行合成，并使用 低通滤波器来减少高频伪影 。
1. 我们通过修复大规模 GAN 训练过程中的故障模式，成功将 BigVGAN 的参数量扩展至 11200 万个，且未对生成器和判别器进行任何正则化处理。这些实证见解与 Brock 等人在图像领域的研究有所不同。例如，正则化方法在音频合成中引入了相位失配的伪影。
1. 我们证明，拥有 1400 万个参数的 BigVGAN-base 在同类规模的先进神经语音vocoder中表现更优，无论是在同类样本还是非同类样本上均是如此。具体而言，拥有 1.12 亿参数的 BigVGAN 在各种超出训练数据范围的场景（包括未见过的说话者、新语言、演唱声音、各种不同未见录制环境中的音乐和器乐音频）的zero-shot生成任务中，表现远超当前最先进的模型。

METHOD

在本节中，我们将先介绍 GAN Vocoder 的相关基础知识，然后介绍“BigVGAN”。看
图 1 用于示例说明，请参考附录 A 以获取该架构的详细描述。

picture.image

在这里插入图片描述

picture.image

在这里插入图片描述

picture.image

在这里插入图片描述

PRELIMINARIES OF GAN VOCODER

Generator 生成器网络以梅尔频谱图或其他特征作为输入 ，并输出相应的原始波形 。在先前的研究中，已应用了多种生成器架构，包括 WaveNet，或者通过一系列残差块逐步将梅尔频谱图上采样为高分辨率波形的卷积网络。我们选择 HiFi-GAN 生成器作为基准架构 。我们认为所提出的技术也适用于其他生成器架构。

Discriminator 最先进的 GAN 声码器通常包含多个判别器 ，以引导生成器合成连贯的波形，同时将人类耳朵可察觉的感知伪影降至最低。重要的是，每个判别器都包含多个子判别器 ，分别在波形的不同分辨率窗口上运行 。例如，HiFi-GAN应用了两种类型的判别器：i）多周期判别器（MPD），其中 1-D 信号被重塑为具有不同高度和宽度的 2-D 表示，通过 2-D 卷积分别捕获多个周期结构 。ii）多尺度判别器（MSD），其中每个子判别器通过在时间域上进行平均池化接收不同频率的下采样 1-D 信号 。Jang 等人提出在时频域上使用多分辨率判别器（MRD）应用判别器，该判别器由多个子判别器组成，分别在具有不同 STFT 分辨率的多个 2-D 线性频谱图上运行 。我们还发现，用 MRD 替代 MSD 可以提高音频质量，减少pitch和周期性伪影 。

MPD(reshape), MSD（avg pooling）, MRD（SFT）

Training objectives 我们的训练目标与 HiFi-GAN 类似，唯一的区别在于将 MSD 替换为 MRD。它包括最小二乘对抗损失、特征匹配损失以及梅尔频谱图上的谱

回归损失的加权和。

PERIODIC INDUCTIVE BIAS

音频波形具有明显的周期性特征，并且可以自然地表示为基本周期性成分的组合 （即在狄利克雷条件下的傅里叶级数）。这表明我们需要为生成器架构提供所需的归纳偏差 。然而，当前的非自回归式 GAN 语音编码器仅依靠一系列扩张卷积层 来学习不同频率所需的周期性 成分。它们的激活函数（例如 Leaky ReLU）能够产生具有必要非线性的新细节，但并不提供任何周期性的归纳偏差 。此外，我们发现 Leaky ReLU 在波形域的外推方面表现不佳 ：尽管模型在训练时能够在已知录音环境中生成高质量的语音信号，但在面对诸如未知录音环境、非语音发声和乐器音频等非分布情况时，其性能会显著下降。

我们为生成器引入了一种适当的周期性归纳偏差，通过应用最近提出的一种名为“蛇函数 ”的周期性激活函数来实现。该函数定义为

，其中 α 是一个可训练的参数，用于控制信号周期部分的频率 ，α 值越大，频率越高 。使用 sin²(x) 确保了单调性，并使其易于优化。Liu 等人证明这种周期性激活函数在温度和金融数据预测方面具有更好的外推能力。

在 BigVGAN 中，我们使用 Snake 激活函数

，其具有通道级可训练参数

，这些参数定义了每个一维卷积通道的周期频率 。采用这种具有学习频率控制的周期性函数形式，卷积模块能够自然地适应具有多周期成分的原始波形。我们证明，所提出的基于 Snake 的生成器对于训练期间未见过的分布外音频样本更具鲁棒性，这表明其在通用语音编码任务中具有强大的外推能力 。请参见图 2 和附录 D 以获取示例说明；使用 Snake 激活函数的 BigVGAN 基础版本（不使用滤波器）比 HiFi-GAN 更接近真实样本。

picture.image

在这里插入图片描述

ANTI-ALIASED REPRESENTATION

蛇激活机制为对原始波形的建模提供了必要的周期性归纳偏差，但它可能会为无法由网络的离散时间输出表示的连续时间信号产生任意高频细节，这可能导致混叠伪影。这种副作用可以通过应用低通滤波器来抑制 。抗混叠非线性通过在时间维度上将信号放大 2 倍、应用蛇激活、然后将信号缩小 2 倍来工作，这是受奈奎斯特-香农采样定理启发的常见做法。每次放大和缩小操作都伴随着使用带凯撒窗的窗口 sinc 滤波器的低通滤波器。

我们在生成器中的每个剩余扩张卷积层中应用这种经过滤波的 Snake 非线性特性，以获得离散时间维信号的抗锯齿表示。该模块被命名为抗锯齿多周期性组合（AMP）。请参见图 1 以获取示例说明。我们发现，引入经过滤波的激活函数可以减少合成波形中的高频伪影；见图 2 中 BigVGAN 基线（无滤波）与 BigVGAN 基线（有滤波）的对比作为示例说明。我们将证明，它在各种客观和主观评估中都能提供显著的改进。请注意，我们还探索了抗锯齿上采样层，但这会导致较大的模型出现严重的训练不稳定，并导致过早崩溃。

BIGVGAN WITH LARGE SCALE TRAINING

在本小节中，我们通过将生成器的模型规模扩大至 1120 万个参数（同时保持生成对抗网络训练的稳定性以及作为高速神经语音编码器的实际可用性）来探索通用语音编码的极限。我们从使用与 HiFi-GAN V1 配置相当的 140 万个参数的改进生成器开始，将其命名为 BigVGAN-base。我们通过增加上采样块的数量和每个块的卷积通道数来扩展 BigVGAN-base。BigVGAN-base 通过 4 个具有比例 [8， 8， 2， 2] 的上采样块以 256 倍的倍数对信号进行上采样。每个上采样块都伴有多个具有扩张卷积的残差层，即 AMP 模块。我们还将 256 倍的上采样划分为 6 个块 [4， 4， 2， 2， 2， 2] 以进行更精细的特征细化。此外，我们将 AMP 模块的通道数（类似于 HiFi-GAN 中的 MRF）从 512 增加到 1536。我们将具有 1536 个通道和 1120 万个参数的模型命名为 BigVGAN。

我们发现，在 HiFi-GAN 中使用的默认学习率为 2×10−4 的设置会导致 BigVGAN 训练过程中出现早期训练崩溃的情况，即在数千次迭代后，判别器子模块的损失会立即收敛至零。将学习率减半至 1×10−4 能够减少此类故障。我们还发现，较大的批量大小 有助于减少训练过程中的模式崩溃。我们仅将批量大小从通常的 16 倍增至 32，以在训练效率和稳定性之间取得良好的平衡，因为神经语音编码器可能需要数百万次迭代才能收敛。请注意，这个推荐的批量大小仍然远小于图像合成的批量大小（例如 2048），因为神经语音编码具有很强的条件信息。

即便进行了上述的改动，庞大的 BigVGAN 在训练初期仍可能容易出现崩溃的情况。我们在训练过程中追踪了每个模块的梯度范数，并发现抗锯齿非线性函数显著放大了 MPD 的梯度范数。因此，BigVGAN 生成器在训练初期会接收到一个发散的梯度，从而导致不稳定性和潜在的崩溃。我们在附录 C 的图 4 中，我们可以看到每个模块的梯度范数情况。我们通过将梯度的全局范数限制在 103 来解决这个问题，这个数值接近 112M 大型 VGAN 生成器的平均梯度范数。这种梯度限制防止了生成器在早期训练阶段的崩溃。请注意，梯度限制在缓解图像合成的训练不稳定方面被发现效果不佳，但在我们的努力中却非常有效。

除了上述努力之外，我们还探索了其他方向，包括各种改进模型架构的方法、用于稳定生成对抗网络训练的谱归一化（这对于图像领域的大规模生成对抗网络训练至关重要），以及数据增强以提高模型的泛化能力。遗憾的是，所有这些尝试在我们的研究中都导致了感知质量的下降。这个详情可在附录 C 中找到。我们希望这些我们所汲取的实用经验能够对未来的研究工作有所帮助。

RESULTS

picture.image

在这里插入图片描述

picture.image

在这里插入图片描述

picture.image

在这里插入图片描述

picture.image

在这里插入图片描述

ABLATION STUDY

Model architecture 为了评估 BigVGAN 生成器的效果，我们基于 MUSDB18-HQ 数据对 BigVGAN 的消融模型进行了 SMOS 测试。表 4 显示，这些消融模型在各种场景（如乐器音频（其他、混合））中都出现了明显的性能下降。从平均 SMOS 评分来看，1）禁用 Snake 激活的抗混叠滤波器的表现不如 BigVGAN 基础模型，2）同时移除滤波器和 Snake 激活（即使用 MRD 替代 MSD 训练的纯 HiFi-GAN）的表现甚至比仅使用 Snake 的消融模型还要差，两者均具有统计学意义（通过威尔科克森配对秩检验得出的 p 值 < 0.01）。这表明 Leaky ReLU 不够稳健，无法在学习到的频率范围之外进行推断，而混叠伪影会降低在具有挑战性的设置中的音频质量。结果表明，BigVGAN 生成器由于周期性归纳偏差和抗混叠特征表示的无缝集成，表现出强大的鲁棒性和外推能力，能够应对分布外的场景。详见附录 D 中 BigVGAN 中抗混叠效果的可视化展示。

Big model 我们将 HiFi-GAN 和 BigVGAN 都与拥有最大 1120 万个参数的模型进行比较。我们使用与 BigVGAN 相同的训练设置来训练 1120 万个参数的 HiFi-GAN。我们在具有挑战性的分布外数据集 MUSDB18-HQ 上对这两个模型进行了成对测试。我们要求参与者从这两个模型的样本中选择听起来更好的音频。测试结果显示，58%的评分认为 BigVGAN 比大型 HiFi-GAN 更出色，且 BigVGAN 的质量在统计学上显著优于大型 HiFi-GAN（通过威尔科克森配对秩检验得出的 p 值 < 0.01）。这些结果进一步验证了 BigVGAN 在大规模设置中的架构优势。

Large Training data 为了验证使用大规模训练数据的重要性，我们使用了多样性较低但纯净的语音数据集（与相同的训练配置一起）对我们的 BigVGAN 进行了 100 万步的训练：1）使用 LibriTTS 的 train-clean-360 子集，或者 2）使用 VCTK 数据集。表 5 显示，在使用多样性较低的数据集进行训练时，在客观指标和 LibriTTS 评估集上的主观 SMOS 都出现了下降。该结果证实了使用多样化的训练数据的重要性，并展示了 BigVGAN 在大规模数据集上的有效性。

CONCLUSIONS

本研究以前所未有的规模对通用神经语音编码技术的局限性进行了探索，包括数据、模型和评估方面的规模。我们通过各种自动和人工评估在不同场景下进行了分析，这些场景涵盖了未见过的说话者、语言、录音环境和分布外数据。我们提出了 BigVGAN，它通过引入具有学习频率控制的抗交错周期激活函数来改进生成器架构，从而为波形生成注入了所需的归纳偏差。基于改进的生成器，我们展示了在各种分布外条件下具有强大zero-shot性能的最大的 GAN 语音vocoder，包括未见过的录音环境、演唱声音和乐器音频。我们认为，BigVGAN 结合从大规模训练中汲取的实用经验，将激发未来对通用语音编码的研究，并改进适用于实际应用（包括语音克隆、语音转换、语音翻译和音频编解码器）的最新成果。

参考文献

• https://arxiv.org/pdf/2206.04658v2

点个「赞」+「在看」❤️

让我们知道这份文字有温暖到你，也是我们持续创作的最大动力！