阿里开源的这款TTS，能复现《her》的声音 - 文章 - 开发者社区

如果你看过《her》，你应该知道，AI仅凭声音，就能让骗过你，甚至让你情绪波动，产生感情。为什么《her》描述的AI 就可以骗过人类？因为她的声音带有情绪，不是冷冰冰的将声音发出来，而是会呼应当下的场景，当时的情绪。

听下这段声音：

阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间自然语音交互的框架，代表了语音处理领域的最新进展。

picture.image

FunAudioLLM其实有两个模型：SenseVoice 和 CosyVoice。 Sens eVoice 是用来听的， CosyVoice是用来说的。

SenseVoice：精准多语言识别与情感辨识

● 多语言识别：采用超过 40 万小时的数据训练，支持超过 50 种语言，在中文和粤语上的识别准确度提升超过 50%。

● 情感辨识：具备出色的情感识别能力，在测试数据上达到或超过当前最佳情感识别模型的效果。● 声音事件检测：能够识别多种情绪和交互事件，如音乐、掌声、笑声、哭声等。● 模型架构：包括自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED），能够适应不同应用场景。

CosyVoice：模拟音色与提升情感表现力

● 多语言合成：采用了总共超 15 万小时的数据训练，支持中英日粤韩 5 种语言的合成，合成效果显著优于传统语音合成模型。● 极速音色模拟：仅需要 3 至 10 秒的原始音频，即可生成模拟音色，包含韵律和情感等细节，甚至能够实现跨语言的语音生成。● 细粒度控制：支持通过富文本或自然语言形式，对生成语音的情感和韵律进行细粒度控制，大大提升了生成语音在情感表现力上的细腻程度。● 模型架构：包含回归变换器，用于生成输入文本的语音标记；基于 ODE 的扩散模型（流匹配），用于从生成的语音标记重建梅尔频谱；以及基于 HiFTNet 的声码器，用于合成波形。FunAudioLLM 不仅在技术上有所突破，其应用前景也十分广泛。基于 SenseVoice 和 CosyVoice 模型，该项目可以支持多种人机交互应用场景，例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等。