当 Normalizing flow 遇上语音生成：AI 说话变 “真人” 的秘密在这里！ - 文章 - 开发者社区

picture.image

在这里插入图片描述

好的，我们来梳理一下这篇文章的核心内容：Normalizing Flow 的基本原理及其在语音生成（特别是 WaveGlow 和 VITS）中的应用 。

文章主旨：
解释 Normalizing Flow (标准化流) 这种强大的生成模型技术，分析其相对于 VAE 的优势，介绍其核心组件（特别是 Coupling Layer），并重点展示其在语音生成领域的两个代表性应用：WaveGlow (声码器) 和 VITS (端到端 TTS 模型)。

核心内容分解：

引子：为什么需要 Flow？

• 生成模型的目标是建模复杂的数据分布（如语音波形）。
• VAE (变分自编码器) 是一种流行的方法，它假设数据 x 由一个简单的潜在变量 z (如高斯分布) 通过复杂变换生成。
• VAE 的缺陷： VAE 优化的是对数似然的下界 ( ELBO )，而非直接优化对数似然 log p(x) 本身。优化下界不如直接优化目标本身效果好。

Normalizing Flow 的基本原理

• 核心思想： 同样假设 x = f(z) ，其中 z 来自简单分布 (如标准高斯分布)。
• 关键定理：Change-of-Variable Theorem (变量变换定理)

• 当存在可逆且可微的变换 f (且

也存在) 时， x 的概率密度 p(x) 可以通过 z 的密度 p(z) 和变换的 Jacobian 矩阵的行列式计算得到。

• 公式：

p(x) = p(z) |det J_{f^{-1}}(x)| = p(z) |det J_f(z)|^{-1}

• 意义： 这提供了直接从 p(z) 计算 p(x) 的途径！ log p(x) = log p(z) - log |det J_f(z)| 。

• 流的构造：

• 单一变换 f 可能不够复杂。Flow 利用可逆可微变换的 可组合性 。
• 构造一系列 K 个简单可逆可微变换 f_1, f_2, ..., f_K ，组合成复杂变换 f = f_K ◦ ... ◦ f_2 ◦ f_1 。
• 最终目标：

log p(x) = log p(z_0) - sum_{k=1}^K log |det J_{f_k}(z_{k-1})| ( z_0 是初始简单分布的样本)。

• “流”的含义： 数据点 z_0 通过一系列变换 f_k “流动”成 x ，同时其概率密度根据 Jacobian 进行调整。简单分布“流”过变换链成为复杂分布。

核心组件：Coupling Layer (耦合层)

• 目的： 设计满足要求的变换 f ： 可逆、可微、Jacobian行列式易计算、逆变换易计算 。
• 操作：

• 将输入向量 x 分成两半 x_1 (前 d 维) 和 x_2 (后 D-d 维)。
• 第一部分直接复制：

y_1 = x_1

• 第二部分仿射变换：

y_2 = x_2 ⊙ exp(s(x_1)) + t(x_1)

• ⊙ 是逐元素乘法。
• s(x_1) 和 t(x_1) 是 缩放(scale)和平移(translation) 函数，由神经网络（可以是任意复杂结构）根据 x_1 计算得出。

• 优点：

• 可逆：

x_1 = y_1 , x_2 = (y_2 - t(y_1)) ⊙ exp(-s(y_1)) 。

• Jacobian 行列式易计算： Jacobian 矩阵是下三角阵，行列式等于对角线元素的乘积。这里 ∂y_2/∂x_2 = diag(exp(s(x_1))) ，所以 det J_f = prod(exp(s(x_1))) = exp(sum(s(x_1))) 。计算量小。
• 逆变换易计算： 如上所述。

• 缺点： 前半部分 x_1 在单层中保持不变（仅通过 s 和 t 影响后半部分）。

增强：Glow 与 1x1 卷积

• 解决耦合层问题： 在耦合层之前引入可学习的 1x1 卷积 。
• 作用： 混合不同维度的信息，确保在后续的耦合层中，所有维度（包括最初的前半部分）都有机会被修改。
• 要求： 1x1 卷积的权重矩阵需要可逆（通常初始化为正交矩阵以增加可逆性）。它的 Jacobian 行列式也相对容易计算。

应用一：WaveGlow (声码器)

• 任务： 将梅尔频谱图 ( mel-spectrogram ) 转换为语音波形 ( waveform )。
• 模型： 基于 Glow 架构。
• 输入： 语音波形 x 。
• 条件信息： 梅尔频谱图作为条件输入， 注入到每个耦合层 的 s 和 t 网络中。
• 优点 (相比于 WaveNet)：

• 高质量合成： 实验结果（如 MOS 分数）显示其合成语音质量与 WaveNet 相当或更好。
• 非自回归 (Non-autoregressive)： 并行生成整个波形， 推理速度显著快于 自回归的 WaveNet。

• 地位： 展示了 Flow 在直接生成复杂波形数据上的有效性。

应用二：VITS (端到端 TTS)

• 任务： 直接从文本 ( text ) 合成语音波形 ( waveform )，真正的端到端模型。
• 核心架构：

VAE + Flow (+ GAN) 的混合体。

• VAE 部分：

• 编码器 (Posterior Encoder)： 输入线性频谱图，输出潜在变量 z 的后验分布 q(z|x) 的均值和方差（近似真实后验）。
• 解码器 (Decoder)： 输入 z ，输出波形。 直接复用 HiFi-GAN 的生成器 。

• Flow 部分 (关键创新)：

• 用于建模从 先验分布 p(z) 到 近似后验分布 q(z|x) 的复杂变换。
• 先验 p(z) 不再是简单高斯，而是一个由 Flow ( f_θ) 转换标准高斯得到的复杂分布： z ~ p_θ(z) = p(ϵ) |det ∂f_θ^{-1}/∂z| 。
• Flow 的输入是文本编码（通过 Text Encoder 和 Projection 得到）和随机噪声（ duration 是文本音素时长）。

• GAN 部分： 为了提升感知质量，引入判别器对生成的波形进行对抗训练（也复用 HiFi-GAN 的判别器）。

• 训练： 联合优化 VAE 的 ELBO（包含 Flow 建模的先验）和 GAN 的对抗损失。
• 推理： 文本 -> Text Encoder -> (文本编码 + 随机噪声 + duration) -> Flow ( f_θ ) -> 采样 z -> Decoder -> 波形。
• Ablation 结果： 移除 Flow 导致性能显著下降， 证明 Flow 在建模复杂先验分布上的核心作用 。
• 地位： 证明了 Flow 在端到端 TTS 中建模复杂潜在变量分布的有效性，是近年流行的强大基线模型。

结论

• Flow 的核心优势： 通过可逆可微变换链和变量变换定理， 直接优化数据的对数似然 log p(x) ，克服了 VAE 优化下界的缺陷。
• 关键组件： Coupling Layer (提供简单、可逆、易计算 Jacobian 的变换) + 1x1 Convolution (增强混合能力)。
• 语音生成应用：

• WaveGlow： Flow 作为生成模型直接合成高质量波形，速度快。
• VITS： Flow 用于增强 VAE，建模复杂先验分布，实现高性能端到端 TTS。

总结一下文章的关键点：

Flow 是什么？

一种通过一系列可逆可微变换将简单分布“流”成复杂分布，并能直接计算数据似然的生成模型 。

为什么比 VAE 好？ 直接优化数据似然 log p(x) ，而非其下界。

怎么实现的？ 核心是 Coupling Layer 和 1x1 卷积 ，使得变换可逆、Jacobian 行列式易算。

语音中怎么用？

• WaveGlow: 用 Glow 架构，以梅尔谱为条件， 直接生成波形 ，速度快、质量高（作为声码器）。
• VITS:

结合 VAE 和 Flow ，Flow 负责把简单先验变成复杂先验来匹配 VAE 的近似后验， 实现端到端 TTS ，性能优异，Flow 是关键组件。

这篇文章清晰地阐述了 Flow 的数学基础、核心实现技巧及其在语音生成领域的两个里程碑式应用，展示了 Flow 在建模复杂数据分布（如语音）上的强大能力。

参考文献

• https://zhuanlan.zhihu.com/p/718997970

点个「赞」+「在看」❤️

让我们知道这份文字有温暖到你，也是我们持续创作的最大动力！

推荐

深度剖析：Kimi - Audio 中 BigVGAN 的神奇作用

为什么说分布变换是 Normalizing flow 的「灵魂操作」？

MATCHA-TTS 来了！条件流匹配让文本转语音效率飙升

从知识增长的角度提升RAG上下文的质量

MiniMax-Speech，零样本语音合成新突破，32 种语言轻松拿捏！

手把手教你创建 evol-instruct 数据集！附完整流程~

社交类聊天的 Query 分析与应答策略

SFT 中指令选择和响应选择哪个更重要？

角色扮演大模型技术分享2-超拟人模型的困境

最新！SpeechLLM 综述：架构、能力、挑战与未来全揭秘

如何低成本生成高质量指令微调数据？

从数量到质量：通过自引导数据选择来提升语言模型性能以实现指令调优

Kimi-Audio：开源音频基础模型全面解析

Kimi-Audio 的 TTS 效果如何？

Qwen 的训练数据是怎么做的？

GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比

基础模型中的新范式：为什么o1是不同的，以及它将如何改变LLM应用

Semantic token和连续特征在SLLM下的对比

从数量到质量：通过自引导数据选择来提升语言模型性能以实现指令调优

RLHF及其变体：进展和实际工程见解

胖东来与京东联手了

Freeze-Omni: 低延迟语音对话模型

Fully Sharded Data Parallelism (FSDP)

什么是置信度？置信度模型怎么做？

晦涩难懂的 Flow matching！图形化理解

中文指令微调数据，质量就是一切！

基于 LLM 的文本泛化

CosyVoice 2：基于大型语言模型的可扩展流式语音合成技术

Mini-Omni2: with Vision, Speech and Duplex Capabilities

FSQ的原理与VQ-VAE的区别和联系

大模型并行训练的一些知识——极简版

亲测有效！如何用 Address Sanitizer 精准定位内存漏洞？附保姆级操作指南

要用 AI 裁员 50% 的千亿独角兽，公开认错，重启招聘！

一些文档去重算法

single codebook和dual codebook在LLM中向量量化上有什么区别？

亲测有效！如何用 Address Sanitizer 精准定位内存漏洞？附保姆级操作指南

CosyVoice：一种基于监督式语义标记的可扩展多语言 Zero-Shot 语音合成器

Model Context Protocol (MCP)

MCP（模型上下文协议）是什么以及它是如何运作的

压力测试LLMs——大海捞针实现

picture.image

近日还在想要不要建个群呢？感觉自己是个i人，又懒，打理不来呀。但这个想法不自主的就冒出来了，还是要思考下。天人交战良久，得，一位朋友私我要入群，那就建一个吧，感谢。

欢迎入群，希望能有一个交流的地方。但群主是个i人，没事儿让他想静静，有事儿圈他。

群主不是万能的，不是万能的，不是能的，能的。