AI语音的Her Moment: 个性化交互达到临界点 - 文章 - 开发者社区

picture.image

AI语音的 Her Moment 正在逐渐逼近。当无数智能体与硬件设备，以前所未有的方式进入我们的生活，AI语音交互也应声迎来爆发式的增长。大量终端、客户和创作者的个性化需求，需要同一套底层模型来规模化满足，在自然、富有温度的语音体验之外，「个性化语音」必须被解决。

当前领先的文本转语音（TTS）模型虽然令人印象深刻，但通常只提供有限的音色和语种选择。这不仅限制了用户的选择，也未能捕捉到人类语言中蕴含的文化多样性。

我们研发了基于AR Transformer 模型的高质量 TTS 系统——MiniMax Speech 02。 模型具有足够强的泛化能力，能够轻松驾驭32语种、不同口音、不同情绪的人声。

该模型系统的核心创新之处在于其 内在的 Zero-Shot 能力，我们将其命名为Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder。在架构上，我们设置了一个「会学习的音色提取器」它能和AR Transformer灵活地协同。

我们将它与和AR Transformer 一起训练，让语音合成的效果有了明显提升。也正因此，我们可以通过一个模型，提供 任意语言 × 任意口音 × 任意音色的无限组合 ，大大丰富了语音生成的多样性。

在国际权威的 Artificial Analysis 上，MiniMax Speech 02也通过全球用户测评，位列全球第一。

picture.image

在两项全球权威语音基准测评榜单：Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中， MiniMax Speech（在榜中对应为Speech-02-HD）超越了 OpenAI、ElevenLabs 等全球性能优异的模型，双双位列第一。

在专业指标测评外，Arena 榜单的 ELO 评分，是根据用户在随机听取并比较不同模型的语音样本时，选出更优的结果来得出的；榜单结果证明，从用户体验上， MiniMax Speech 02 的听感更加优异。

picture.image

Artificial Analysis Speech Arena 评测榜单

picture.image

Hugging Face TTS Arena 评测榜单

在提供更优异听感同时，MiniMax Speech 02 做到了价格更低，分别是 ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。

picture.image

「会学习的音色提取器」本质上是一个人声编码器（speaker encoder），它能够将任意长度的音频片段转化为固定尺寸的条件向量，从而实现高质量、灵活的声音表达。

picture.image

Zero-Shot 带来超拟人的音色： 只需要一段参考音频，不需与之对应的文本；这种 Zero-Shot 的方式中，编码器仅从参考音频中提取音色特征，因此更能捕捉声音的本质——音色、音调和风格等特征，从而带来对韵律更灵活广泛的解码空间，最终的输出效果媲美真人，且比真人更加稳定。
32种语言高质量合成： 在处理参考音频过程中，Speaker encoder处理音色特征时与语义内容解耦；由于 Speaker encoder 是 learnable的，它可以在训练数据集所涵盖的所有语言上进行训练。这也是MiniMax Speech从本质上支持32种多语种，且跨语言效果更优异的原因。
可扩展功能与个性化表达: 由于speaker encoder 所实现的条件向量本身也可解耦，赋予MiniMax Speech下游应用扩展的灵活性，我们实现了任意音色灵活情感表达、基于语音描述生成音色、以及基于特定说话人的克隆增强等功能。这些功能使得MiniMax Speech进一步丰富个性化语音空间。

更多技术细节、实验对比数据、以及开源的多语言测试集，欢迎阅读技术报告：

GitHub:

https://github.com/MiniMax-AI/MiniMax-AI.github.io/blob/main/tts\_tech\_report/MiniMax\_Speech.pdf

Hugging Face:

https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report

picture.image

音色表现力：

富有感染力的演讲音色

"What if I told you the best performing marketing strategies right now are the exact ones most experts would warn you to not even try?

You've been told to follow the rules, play it safe, stick with what's proven. But here's the twist. Some of the weirdest, most backward-sounding marketing tactics out there are quietly crushing everything else. And yes, there's data to back it up ……

Pretty much every marketing agency out there has tested this over and over and time and time again. Ugly or amateur-looking Facebook and Instagram ads often get significantly better click-through rates and lower cost per click. And it's not just a fluke, it's a pattern."

用ASMR的方式打开互主体性理论

"Habermas的互主体性理论啊，它的核心呀是交往理性范式～他认为呢，真理必须通过主体间的有效对话才能达成共识～哦～理想言谈情境呀，需要建立在四个有效性声称之上呢：可理解性、真实性、正当性和真诚性。"

多语言：

泰语："สวัสดีค่ะ วันนี้อากาศดีมากเลย คุณจะไปทานอาหารกลางวันที่ไหนคะ ฉันกำลังคิดว่าจะไปร้านอาหารไทยแถวนี้"

波兰语："Młoda sowa siedzi cicho na gałęzi sosny, obserwując leśną polanę w świetle księżyca. Wiatr delikatnie porusza liśćmi drzew."

日语："電車が遅延している影響で、渋谷駅がとても混雑しています。次の山手線は約10分後に到着予定です。お急ぎのお客様は、他の路線もご利用ください。"

Zero-Shot 跨语言输出case：

日语+韩语：

"最近の天気予報によりますと、今週末は桜の開花に最適な気温になる予定です。東京都内の各公園では花見客で賑わうことが予想されますが、서울에서도 벚꽃이 피기 시작했다고 하네요. 이번 주말에는 여의도 공원에서 벚꽃 축제가 열린다고 하니 많은 분들이 찾아오실 것 같습니다."

英语+中文：

"Kiddo! Come come come, 学如逆水行舟，不进则退。I see you're using AI tools already - so smart! But eh, cannot just rely on tools only lah! The future belongs to those who can work alongside AI, not those scared of it."

英语+西班牙语：

"Mi abuelita always told me "el que persevera, alcanza". If you persevere, you'll achieve your dreams！Guess what! They choose me to play the lead role in our BIG show!"

文生音：

声音描述：English-speaking middle-aged male voice, slightly husky, speaking at a moderate-to-slow pace with a deep tone. Like someone telling an old story, conveying a nostalgic feeling, with a relaxed and composed manner of speaking.

"That was back in the late 1970s. I remember when our village first got electricity - everyone was so excited. In the evenings, people would bring their stools and gather under the big banyan tree by the village committee office to watch movies projected on the wall. Even now, thinking back to those moments still fills me with warmth."

声音描述：中国女青年的声音，音色清脆，说话速度偏快，语调活泼，像是在做游戏直播，声音中带着愉快的感觉整体音调较高，整体氛围比较轻松。

"啊！这里有个宝箱！让我们看看里面是什么～哇！是传说中的紫色装备！运气也太好了吧！谢谢小伙伴们的打赏，我们继续往前探索......"

欢迎前往MiniMax Audio页面可以体验MiniMax Speech的强大功能：

https://www.minimax.io/audio

https://www.minimaxi.com/audio

picture.image

MiniMax Speech支持32种语言的合成。为评估其多语言性能，我们构建了一个专用测试集，并与 ElevenLabs 的 multilingual_V2 进行比较评估。

两个模型均以Zero-Shot的方式克隆语音并生成；
WER （字错率）计算中，使用 Whisper-large-v3 或 paraformer-zm 进行转录；
SIM（语音相似度）通过计算 Speaker embeding 间的余弦相似度来确定。

测试结果表明：

在SIM（语音相似度）指标上，MiniMax Speech 02在所有语种中都优于ElevenLabs；这表明，MiniMax Speech 02 在 Zero-Shot 条件下的多语言表现力更胜一筹。
MiniMax Speech 02在英语、法语、意大利语和葡萄牙语等主流欧美语种上，均展现出色的准确性。相较之下，粤语、泰语、越南语、日语等一些亚洲语种上，ElevenLabs的字错率会超过10%。这充分表明Speech MiniMax在多语言适应上更加强大和可靠。

picture.image

为了优化生成语音的质感，我们采用Flow-VAE将音频压缩为隐层特征，并通过Flow Matching模型来建模这一隐层特征。

picture.image

传统VAE通常假设 latent space为标准正态分布，Flow-VAE则引入flow模型。该方案可以将编码器输出分布约束到正态分布而非标准正态分布，从而提升编码器的信息表达能力。

Flow-VAE提供了比传统梅尔频谱图信息更丰富的音频表征；Flow Matching则能准确建模这些音频表征的分布。两者结合，使得MiniMax Speech 02在生成语音时表达更多细节。在听感上，带来更高音质、高相似度的体验。

未来，我们将致力于进一步提升模型的可控性与效率。

在海外，我们已支持大量内容创作者，通过低门槛的语音工具用自己的声音灵活接单，为广告、短片尽情声音表演，赋能零工经济。此外，通过对稀缺珍贵小语种的支持，MiniMax 希望通过AI，把多语种的声音以当地最地道的发音传向全世界，让全球每一种语言都被听见、每一种文化都被理解。

语音团队正在招聘，如果你也想和我们一起创造打动人心、个性化的语音，欢迎加入我们，一同探索声音的无限可能。

picture.image