复刻 DeepSeek 奇迹?全球首个 GRPO 歌声转换模型 YingMusic-SVC 横空出世!

大模型智能语音交互机器学习
  1. 引言

我们之前探讨的许多期语音生成及语音识别专题:

但是尚未曾提及过如何合成“歌曲”。因为在真实世界中,我们往往会发现演唱歌曲和我们普通人一般说话的音频特征并不太一致——例如,在真实世界中,歌曲中往往夹带着背景的和声、各类器乐的伴奏以及歌手起承转合的长音、高低音等声音技巧。

相比正常对答中特定语言的指定发音,歌曲带来更多的声学细节。因而在传统模型中,拟合歌手的演唱模拟音色细节在缺乏大量语音数据表征学习的情况下,往往非常困难。

今天这篇由巨人网络带来的YingMusci-SVC的Zero-Shot的语音合成框架,在真实世界歌曲中旋律、和声等干扰情况下仍能较好的拟合人声细节的前沿工作,该任务首次将强化学习 (Flow-GRPO)引入 DiT 架构的 SVC 任务,并设计多目标奖励函数 优化艺术表现力,如下图1所示。

picture.image

图 1

论文标题:《YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases》

论文地址: https://arxiv.org/pdf/2512.04793

GitHub仓库地址: https://github.com/GiantAILab/YingMusic-SVC

  1. 简介

在现有的SVC(歌唱语音转换)系统中,当今工业界及学术界都存在以下两个痛点:

  1. 真实世界场景歌曲的鲁棒性较差:因专业歌唱歌曲中往往存在伴奏/和声等内容,通过辅助的人声分离模型进行分离时会有杂音残留。而分离的杂音则会导致生成歌曲内人声出现杂音,或音频音高不自然等不匹配问题(F0 Error)。
  2. 缺乏歌曲先验性:现有的歌曲合成框架设计大多直接套用语音 VC 模型,忽略歌唱特有的 大动态范围、丰富高频谐波、音色随音高变化 等特性。

因此,为了解决上述出现的问题,YingMusic提出了三大改进的方向:

  • 鲁棒性前端处理 :优化人声处理,减少人声分离的和声泄漏问题;
  • 模型级歌唱感知设计 :引入了f0感知的细粒度音色自适应模块,提高了模型捕捉动态音色范围的能力。
  • RL 后训练 :用 Flow-GRPO 优化人类偏好(自然度、音质、风格)。
  1. YingMusic-SVC

下图2为YingMusic—SVC的技术框架细节,因研究团队关注的任务目标是歌曲声音转换,那么其输入则是一段提示歌曲,同时根据输入的提示歌曲将其中原本演唱的人声细节转为目标歌手的声音,同时保留音乐内容(旋律和歌词)并最终输出。具体实现及训练的流程我们分为四个小节来阐述。

picture.image

图 2

2.1. 整体框架

2.1.1 三阶段训练

YingMusic的训练框架基于Seed-VC框架(当前SOTA DiT + rectified flow 架构),并采用三阶段的训练:

  • CPT(Continuous Pre-Training)
  • 微调 Seed-VC,适配新引入的歌唱专用模块(如 RVC 音色偏移器、F0-aware 适配器)
  • 目标: 稳定结构 ,注入 歌唱先验(inductive bias) ,生成“去音色化”的内容特征,避免内容编码器泄露源音色
  • SFT(Supervised Fine-Tuning)
  • 增强的歌唱数据 (含 F0 扰动 + 和声混合)上训练
  • 目标: 提升对真实世界噪声的鲁棒性
  • Flow-GRPO(强化学习微调)
  • 在 CPT+SFT 模型基础上,使用 online RL 优化多目标感知奖励
  • 目标: 提升自然度、音质、风格表现力

2.1.2 特征提取流程

我们根据图2细细拆解一下特征提取的流程,根据输入的X歌曲音频,第一阶段的特征提取将会提取三类音频特征:

  • 内容特征(Content):
  • 音色特征(Timbre):

(全局embedding)

  • F0特征(F0):

而后用我们通过论文给定的数学公式分析该流程:

  1. 首先,预训练 RVC 模型将

转换为随机歌手音色:

, 2. 而后将带音色相关的梅尔频谱特征提取 去音色化内容

。其最终目的是为了 抑制源音色泄露 ,迫使内容编码器专注歌词与旋律。

2.1.3 DiT条件输入组装

DiT的拼接采用 Seed-VC 的 simulated-inference masking 策略:

  • 通过随机采样时间边界
  • 第一个

帧主要由音色调节,而其余帧提供内容和音高线索,而后所有特征矩阵的梅尔帧长度都暂时通过近邻插值来对齐:

picture.image

并最终构造为混合内容特征

τ

  • 最终 DiT 条件输入:

τ

2.2 歌唱专用建模增强

除了训练策略之外,我们还对Seed-VC的框架引入了几个模型级的改进更好地处理歌唱声音的特点引入三项针对性设计 ,解决歌唱语音的三大特性:

  1. 音色-内容耦合严重
  2. 音色随音高动态变化
  3. 高频细节丰富但能量低

picture.image

图 4

(1) 引入了RVC Timbre Shifter(RVC 音色偏移器)

  • 方法 :用在 120 位歌手上预训练的 RVC 模型,将输入 x 转换为 任意其他歌手音色
  • 动机 :直接使用 x_x_ 提取内容特征会携带源音色(如共振峰、气息等),导致转换后音色不纯
  • 效果 :内容特征

说话人无关 (speaker-invariant),提升音色保真度与可懂度

创新点首次将 RVC 用作“音色打乱器” ,而非转换模型,实现更强解耦.

(2) F0-Aware Timbre Adaptor(F0 感知音色适配器)

  • 动机 :真实歌手在高音(头声)和低音(胸声)时音色不同,静态 speaker embedding 无法捕捉此动态
  • 结构 :如上图4所示,输入全局音色+局部F0特征,通过MLP预测loss,进而输出动态音色。

创新点首次在 SVC 中实现音高相关的动态音色建模 ,提升表现力与音色自然度

(3) Energy-Balanced Flow Matching Loss(能量均衡流匹配损失)

  • 问题 :梅尔谱中高频能量远低于低频 → MSE loss 忽略高频细节
  • 解法: 对 loss 加权
  • 能量反比权重

σ

  • 增强高频权重 (g(c)),对top30%的高频线性增益;
  • 后期去噪阶段加强细节 (s(t) = (1−t)²)。
  • 归一化 :保持loss尺度。

创新点专为歌唱高频丰富的特性定制损失函数 ,解决“转换后高频模糊”问题

2.3 面向真实场景的SFT

模拟工业 pipeline 中两大噪声源:和声残留 + F0 错误

(1) F0 Perturbation(F0 扰动)

picture.image

  • 为模拟真实世界的歌曲输入,SFT过程模拟了如下 扰动类型 ,如图5所示:
  • Jitter (抖动):模拟音高微抖
  • Glide (滑音):模拟连音
  • Jump (跳音):模拟八度错误
  • 采样策略 :混合概率

=0.1,

=0.1,

=0.3

  • 目的 :使模型对 F0 估计误差 鲁棒 ,避免音高失真

(2)和声混合增强

  • 方法:将 backing vocal 按比例 α 加入 lead vocal,但监督目标仍是 clean mel。
  • 目的:模型学会在 污染输入 下仍输出 干净目标

2.4 基于 Flow-GRPO 的强化学习

参考上图2的Stage3

  • 将 rectified flow 的 ODE 转为 SDE,引入随机性 → 视为 stochastic policy
  • 采用 Selective Noise :仅在 单个时间步 注入噪声,解决 credit assignment 问题;
  • 设计 多目标奖励函数
  • 美学质量 (Audiobox Aesthetics:

    ),提升听感愉悦度(Audiobox Aesthetics);

  • 歌词可懂度 (1 − WER,基于 ASR),保留歌词清晰度(ASR-based);

  • 音色相似度 (cosine similarity of speaker embeddings),保持目标音色(Resemblyzer)。

  • 使用 Group Relative Advantage (GRA)进行策略梯度更新。

该强化学习的方法有几个创新点:

  1. 首次将 GRPO 强化学习 应用于 SVC
  2. 首次在 SVC 中 联合优化技术指标(WER)与艺术指标(Aesthetics)
  3. 证明 RL 可提升 SFT 无法覆盖的“感知自然度”

2.5 Inference流程

工业级端到端 pipeline

  1. 分离 :用自研 Band RoFormer (3600 多轨歌曲训练)分离出:
  • (主唱)
  • (和声)
  • (伴奏)
  • 转换 :仅对

进行 SVC →

  • 合成 :用 BigVGAN2 vocoder 生成波形

  • 重混

γ

  • 跨性别转换 :F0 平移 ±12 半音,避免八度错误

最后,该项工作也提供了完整的Github开源代码可供工业化部署。(手动点赞)

  1. 评估实验结果

3.1 在分级难度测试集上的整体表现

为全面评估 YingMusic-SVC 在真实工业场景 下的鲁棒性,作者构建了三级难度测试集 ,逐级逼近实际应用中的复杂情况:

  • GT Leading(理想级) :使用原始多轨录音中的 干净主唱音轨 ,无伴奏、无和声,代表实验室理想条件;
  • Mix Vocal(挑战级) :将主唱与和声音轨 人工混合 ,模拟音乐分离模型失效后仍残留背景人声的典型问题;
  • Ours Leading(真实级) :使用自研 Band RoFormer 分离器 从完整混音歌曲中提取主唱,反映 端到端生产环境 中的真实输入质量。

picture.image

图 6

如上图6所示,在所有三级测试场景中,YingMusic-SVC 均显著优于当前开源最强基线 Seed-VCFreeSVC

  • GT Leading 上,YingMusic-SVC(Ours-Full)在 可懂度 (CER=9.26% vs. 10.89%)均优于 Seed-VC,且在 美学质量 (CE/CU)上达到最高分(5.86/6.56),表明即使在干净数据上,其歌唱先验建模也带来感知提升。
  • 在更贴近现实的 Mix Vocal 场景下,基线模型性能大幅下降:Seed-VC 的 CER 从 10.89% 恶化至 17.30%,音高一致性(LogF0PCC)从 98.29% 降至 84.02%,显示出对和声干扰极度敏感。而 YingMusic-SVC 凭借 鲁棒 SFT 训练策略 ,有效抑制了性能退化——Ours-Full 不仅保持高音高稳定性(86.47%),还在主观自然度(CMOS=3.31)和音色相似度(SMOS=3.12)上大幅领先,证明其对 分离残留 具有强抗性。
  • 最具说服力的是 Ours Leading (真实 pipeline)测试:即便输入来自真实分离模型(含未知噪声、轻微失真、F0 估计偏差),YingMusic-SVC 仍保持 最高综合表现 ——CMOS 达 3.91(vs. Seed-VC 的 3.46),音色相似度稳定在 0.801,且美学指标持续领先。这验证了整个系统(分离 + 转换)的 工业级可用性

核心结论 :YingMusic-SVC 的优势在越复杂、越真实 的场景中越显著,尤其在传统模型失效的“带和声+分离噪声”条件下,其鲁棒性设计真正发挥了价值。

3.2 多阶段训练的渐进式贡献

YingMusic-SVC 采用 CPT → SFT → Flow-GRPO 的三阶段训练流程,每阶段各司其职:

  • CPT (持续预训练)阶段通过引入 RVC 音色偏移器F0 感知适配器能量均衡损失 ,为模型注入 歌唱专属先验 。此阶段已全面超越 Seed-VC,例如在 Mix Vocal 下将 CER 从 17.30% 降至 15.70%。
  • SFT (鲁棒监督微调)通过 F0 扰动和声混合增强 ,显著提升模型在噪声下的稳定性。在 Ours Leading 场景中,SFT 将主观自然度(CMOS)从 3.51 提升至 3.86 ,音色相似度(SMOS)从 3.02 提升至 3.11 ,证明数据增强有效对齐了训练与推理分布。
  • Flow-GRPO (强化学习微调)进一步优化人类感知难以量化的维度。在 Mix Vocal 上,RL 将美学评分(CE/CU)从 5.73/6.35 提升至 5.75/6.40 ,CMOS 再升至 3.31 。值得注意的是,RL 并未牺牲音色或可懂度,说明其 多目标奖励设计有效平衡了艺术性与技术性

关键洞察 :三阶段并非简单堆叠,而是递进互补 ——CPT 提供专业“歌唱感”,SFT 筑牢“抗干扰能力”,RL 精调“听感偏好”,共同构成面向落地的完整训练范式。

3.3 消融实验

3.3.1 歌唱专用模块的贡献

如下图7所示,三项核心设计均带来可测量增益:

  • RVC 音色偏移器 (RVC-ts)对 音色保真可懂度 贡献最大,尤其在噪声环境下。移除后,Mix Vocal 的 CER 从 15.70% 恶化至 16.30%,音色相似度下降 0.006,证明其有效解耦了内容与音色。
  • F0 感知适配器 显著提升 音高-音色一致性 ,移除后美学评分(CE/CU)普遍下降,尤其在高音/低音极端区域表现失真。
  • 能量均衡损失 (EB loss)增强高频细节,但在部分场景下轻微牺牲可懂度(CER 略升),反映出 高频保真内容清晰度 的固有权衡。作者通过 λ=0.4 的超参平衡了该 trade-off。

3.3.2 强化学习设置分析

  • 噪声强度 a :a=0.4 为最优。a 过大(≥0.6)破坏音色结构,a 过小(=0.2)则探索不足,均导致性能下降。

  • 时间窗口 Swindow=1 更优:虽初期奖励波动大,但收敛更快、最终性能更高,证明 细粒度 credit assignment 对多目标 RL 至关重要。

  • RL 训练动态 :初期所有指标短暂下降,属正常探索行为;后期模型学会 协同优化 音色、可懂度与美学,最终全面超越 SFT 基线,验证了 RL 在 SVC 中的可行性与必要性。

picture.image

图 7

  1. 结论

YingMusic-SVC 是一个面向真实世界部署零样本歌唱语音转换 (zero-shot SVC)系统,旨在弥合当前学术研究与工业应用之间的鸿沟。

通过多阶段协同训练框架 (CPT + 鲁棒 SFT + Flow-GRPO)与三项歌唱专用创新设计 (RVC 音色偏移器、F0 感知音色适配器、能量均衡流匹配损失),该系统在音色保真度歌词可懂度感知自然度 上均取得显著突破。

实验表明,YingMusic-SVC 不仅在理想干净数据上表现优异,更在含伴奏、带和声、经分离器处理 的真实歌曲中展现出卓越鲁棒性 ,全面超越当前开源最强基线。尤其在工业级测试集(Ours Leading)上,其端到端性能验证了从分离 → 转换 → 重混 全流程的实用性。

此外,该工作首次将强化学习 (Flow-GRPO)引入基于 DiT 的 SVC 任务,并设计多目标奖励函数 ,成功优化了传统监督学习难以覆盖的艺术表现力 维度,为未来语音生成系统的人类偏好对齐 提供了新范式。

最后,所有代码与模型已开源,有望推动 SVC 技术在虚拟歌手音乐创作社交娱乐 等场景的规模化应用。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论