阿里开源的这款TTS,能复现《her》的声音

智能语音交互大模型数据库

如果你看过《her》,你应该知道,AI仅凭声音,就能让骗过你,甚至让你情绪波动,产生感情。为什么《her》描述的AI 就可以骗过人类?因为她的声音带有情绪,不是冷冰冰的将声音发出来,而是会呼应当下的场景,当时的情绪。

听下这段声音:

阿里巴巴通义实验室近日发布并开源了 FunAudioLLM,这是一个旨在增强人与大型语言模型(LLMs)之间自然语音交互的框架,代表了语音处理领域的最新进展。

picture.image

FunAudioLLM其实有两个模型:SenseVoice 和 CosyVoice。 Sens eVoice 是用来听的, CosyVoice是用来说的。


SenseVoice: 精准多语言识别与情感辨识

● 多语言识别:采用超过 40 万小时的数据训练,支持超过 50 种语言,在中文和粤语上的识别准确度提升超过 50%。

● 情感辨识:具备出色的情感识别能力,在测试数据上达到或超过当前最佳情感识别模型的效果。● 声音事件检测:能够识别多种情绪和交互事件,如音乐、掌声、笑声、哭声等。● 模型架构:包括自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED),能够适应不同应用场景。


CosyVoice: 模拟音色与提升情感表现力

● 多语言合成:采用了总共超 15 万小时的数据训练,支持中英日粤韩 5 种语言的合成,合成效果显著优于传统语音合成模型。● 极速音色模拟:仅需要 3 至 10 秒的原始音频,即可生成模拟音色,包含韵律和情感等细节,甚至能够实现跨语言的语音生成。● 细粒度控制:支持通过富文本或自然语言形式,对生成语音的情感和韵律进行细粒度控制,大大提升了生成语音在情感表现力上的细腻程度。● 模型架构:包含回归变换器,用于生成输入文本的语音标记;基于 ODE 的扩散模型(流匹配),用于从生成的语音标记重建梅尔频谱;以及基于 HiFTNet 的声码器,用于合成波形。FunAudioLLM 不仅在技术上有所突破,其应用前景也十分广泛。基于 SenseVoice 和 CosyVoice 模型,该项目可以支持多种人机交互应用场景,例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等。

  1. 语音对语音的翻译,无需经过文字的处理

picture.image

  1. 带有情绪的对话 通过SenseVoice模型理解对方的情绪,再通过CosyVoice发出有情绪的声音

picture.image

  1. 可以有提示框架的生成声音

picture.image

  1. 台词配音

picture.image

看完这个模型的介绍,感觉以下几个行业可能被取代:

台词配音

电呼客服

电台播音


是不是很有趣。

是不是也和某些商业挂钩。

目前还在使用中,晚点再出篇体验报告。

提供的服务:

强烈推荐生成式AI课程(免费学习且有证书)

如何获得达摩院人工智能训练师高级证书

想进群获取论坛直播地址,请加这个微信为好友

关键词:TTS

picture.image

既然看到这里了,如果觉得不错,请订阅公众号,然后点个赞、在看、转发。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论