Fish Agent ：最新开源AI实时语音对话代理！音色克隆，模仿情感，声音自然 - 文章 - 开发者社区

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

以前写过一个叫 Fish Speech 的TTS项目，效果还不错，也是第一梯队的TTS模型。

现在他有一个衍生项目：Fish Agent

picture.image

由Fish Audio开源，支持实时语音对话，能够模仿情感并生成自然声音。

特点为：端到端架构、零样本声音克隆、30亿参数的紧凑模型，支持多语言和快速响应。训练数据包括70万小时的多语言音频。基于Qwen-2.5-3B-Instruct继续预训练而来。

模型名称为 Fish Agent 3B版，自动集成了ASR和TTS组件，无需外部模型，实现了真正的端到端处理，区别于传统的三阶段（ASR + LLM + TTS）流程。

他的音色克隆效果还不错，我用Openai TTS的一个常用男声： onyx

作为被克隆音色，你查看下面的视频可以发现他可以语音对答，克隆的音色也还不错：

对了，上面视频提供的被克隆音频出自昨天写的一个AI播客的项目。

开发时，用了以前的文章写的众多AI编码代理中的一些，总共不到半天时间，基于Next.js完成的全栈开发（对Next.js不熟悉）。

虽然界面呈现是Demo效果，不过我主要想实现的AI播客功能是有了，总得来说可能

我以前低估了AI编程 / 自然语言编程的实力。

picture.image

最后想说，跟进最新的 AI技术，有趣又有意义。


          
github：https://github.com/fishaudio/fish-speech Agent
          
Demo：https://huggingface.co/spaces/fishaudio/fish-agent
          
模型：https://huggingface.co/fishaudio/fish-agent-v0.1-3b
          
Fish Speech论文：https://arxiv.org/abs/2411.01156

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

picture.image