Fish Agent :最新开源AI实时语音对话代理!音色克隆,模仿情感,声音自然

大模型智能语音交互关系型数据库

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

以前写过一个叫 Fish Speech 的TTS项目,效果还不错,也是第一梯队的TTS模型。

Fish Speech:最新开源tts项目,Chat-tts和Seed-tts平替,热门角色音色模型,一键使用,可克隆自己声音

现在他有一个衍生项目:Fish Agent

picture.image

由Fish Audio开源,支持实时语音对话,能够模仿情感并生成自然声音。

特点为:端到端架构、零样本声音克隆、30亿参数的紧凑模型,支持多语言和快速响应。训练数据包括70万小时的多语言音频。基于Qwen-2.5-3B-Instruct继续预训练而来。

模型名称为 Fish Agent 3B版,自动集成了ASR和TTS组件,无需外部模型,实现了真正的端到端处理,区别于传统的三阶段(ASR + LLM + TTS)流程。

他的音色克隆效果还不错,我用Openai TTS的一个常用男声: onyx

作为被克隆音色,你查看下面的视频可以发现他可以语音对答,克隆的音色也还不错:

对了,上面视频提供的被克隆音频出自昨天写的一个AI播客的项目。

开发时,用了以前的文章写的众多AI编码代理中的一些,总共不到半天时间,基于Next.js完成的全栈开发( 对Next.js不熟悉 )。

虽然界面呈现是Demo效果,不过我主要想实现的AI播客功能是有了,总得来说可能

我以前低估了AI编程 / 自然语言编程的实力。

picture.image

picture.image

最后想说, 跟进最新的 AI技术,有趣又 有 意义。


          
github:https://github.com/fishaudio/fish-speech Agent
          
Demo:https://huggingface.co/spaces/fishaudio/fish-agent
          
模型:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
          
Fish Speech论文:https://arxiv.org/abs/2411.01156
      

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

picture.image

往期推荐

Bolt + 免费的Mistral 和 Github API:免费且强大的AI代理工作流,无需V0(o1-preview免费)

媲美GPT4o!教你用智谱GLM-4-Plus在Fastgpt、Dify中构建知识库,并结合o1思维链和工具调用!

MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )

开源向量数据库哪个好?Milvus、Chroma 和 Qdrant 的选择指南

Claude 3.5 Sonnet 升级后,很强。用它写代码不知道有多爽。

👽Submission:kristjahmez06@gmail.com

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

picture.image

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论