最近重新测试了一批中文TTS方案后,一个感觉越来越明显:
AI配音行业,正在经历一次非常明显的架构切换。
以前很多TTS系统,本质上还是:
“多模块拼接”。
例如:
文本处理 → 音素 → 时长预测 → Mel频谱 → Vocoder → 音频生成。
但到了2026年,越来越多模型开始转向:
端到端(End-to-End)语音生成。
尤其:
- CosyVoice
- Fish Speech
- VALL-E系
- Qwen3-TTS
- VoxCPM2
这一类新模型,已经开始把TTS当成:
“语音语言建模问题”。
而不是传统声学工程。
最近顺便整理一下这两年TTS架构上的几个明显变化。
一、传统TTS为什么越来越难满足长文本场景
前几年很多中文TTS,本质上还是:
级联式(Cascade)架构。
典型流程大概是:
Text
→ Frontend
→ Phoneme
→ Duration
→ Acoustic Model
→ Vocoder
→ Audio
这种架构的问题其实很明显:
模块越多,
误差越容易累积。
尤其:
- 长文本
- 情绪旁白
- 多角色
- 实时语音
场景里,会开始频繁出现:
- 停顿异常
- 节奏漂移
- 情绪断层
- 机械感
尤其影视解说和有声书场景。
长时间生成后,“AI念稿感”会越来越明显。
二、VALL-E路线,开始改变TTS底层思路
这两年变化最大的,其实是:
Neural Codec Language Model(神经编解码语言模型)。
代表方向包括:
- VALL-E
- RALL-E
- Fish Speech
- VoxCPM2
这类模型开始把语音:
“token化”。
类似LLM预测文字Token一样。
现在很多模型已经开始预测:
Audio Token。
简单理解就是:
以前TTS在“生成声音波形”。
现在越来越像:
“生成语音语言”。
这也是为什么现在很多模型开始具备:
- 零样本声音克隆
- 情绪迁移
- 环境音保留
- 多角色连续生成
这些能力。
三、Flow Matching与Diffusion,开始进入主流
最近另一个非常明显的变化,是:
越来越多模型开始引入:
- Flow Matching
- Diffusion
- Next-Token Diffusion
这类生成架构。
以前很多TTS的问题,是:
语速和节奏容易“硬”。
但Flow类架构在:
- 情绪连续性
- 呼吸感
- 长文本自然度
上,提升会明显很多。
例如:
CosyVoice2现在已经开始使用:
chunk-aware causal flow matching。
而微软最近的:
VibeVoice,
甚至已经开始支持:
最长30分钟、
4角色连续播客生成。
这其实已经不是传统意义上的“配音”。
而更像:
语音内容生成模型。
四、中文TTS开始进入“多角色时代”
最近测试一些新模型时,一个变化特别明显。
以前很多AI配音,本质还是:
“单旁白”。
但现在:
- 短剧
- 小说推文
- AI播客
- 虚拟主播
开始大量依赖:
多角色连续生成。
尤其:
- 情绪切换
- turn-taking
- 呼吸停顿
- 对话节奏
已经开始成为新的竞争点。
最近测试时,我一般会先试听:
- 男主低沉感
- 女主情绪变化
- 对话转场
- 高情绪段
目前不少轻量方案也开始往这个方向靠。
例如:
- 剪映AI配音
- 魔音工坊
- 配朵朵
- 叮叮配音
- 媒小三配音
这一类封装型方案,更适合作为:
前期voice_type试听层。
尤其:
- 多角色节奏
- 情绪推进
- 长句停顿
会比直接调API更直观。
五、实时流式生成,正在成为下一阶段重点
最近TTS行业还有一个很明显的变化:
从“离线生成”
转向:
实时语音。
尤其AI Agent爆发后。
现在很多团队更关注:
- 首Token延迟
- Streaming TTS
- 双向语音流
- 打断能力
而不是单纯:
“声音像不像真人”。
例如:
Fun-CosyVoice 3
已经开始支持:
双向Streaming TTS,
延迟可低至150ms。
这意味着:
未来很多AI语音系统,
会更像:
“实时对话”。
而不是:
“提前生成音频”。
六、开源TTS,对行业冲击会越来越大
最近社区里一个特别明显的趋势,是:
本地TTS正在快速崛起。
尤其:
- Fish Speech
- Kokoro
- CosyVoice
- Qwen3-TTS
- VoxCPM2
这些模型。
已经开始能在消费级硬件运行。
最近不少开发者已经开始:
- 本地部署
- 私有化语音生成
- 本地声音克隆
- 边缘端TTS
甚至部分Apple Silicon设备,
已经可以实现:
3倍实时语音生成。
这会对传统云TTS形成非常大的冲击。
七、未来TTS真正竞争的,可能已经不是“音色”
最近重新整理这些变化后,一个感觉越来越明显。
未来TTS真正拉开差距的,可能已经不只是:
“声音像不像真人”。
而是:
- 长文本稳定性
- 情绪连续性
- 多角色调度
- Streaming能力
- Voice Agent集成
- 低延迟推理
这些底层能力。
因为现在AI配音行业,
已经开始从:
“语音工具”
慢慢进入:
“语音基础设施”阶段。
