🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
以前写过一个叫 Fish Speech 的TTS项目,效果还不错,也是第一梯队的TTS模型。
Fish Speech:最新开源tts项目,Chat-tts和Seed-tts平替,热门角色音色模型,一键使用,可克隆自己声音
现在他有一个衍生项目:Fish Agent
由Fish Audio开源,支持实时语音对话,能够模仿情感并生成自然声音。
特点为:端到端架构、零样本声音克隆、30亿参数的紧凑模型,支持多语言和快速响应。训练数据包括70万小时的多语言音频。基于Qwen-2.5-3B-Instruct继续预训练而来。
模型名称为 Fish Agent 3B版,自动集成了ASR和TTS组件,无需外部模型,实现了真正的端到端处理,区别于传统的三阶段(ASR + LLM + TTS)流程。
他的音色克隆效果还不错,我用Openai TTS的一个常用男声: onyx
作为被克隆音色,你查看下面的视频可以发现他可以语音对答,克隆的音色也还不错:
对了,上面视频提供的被克隆音频出自昨天写的一个AI播客的项目。
开发时,用了以前的文章写的众多AI编码代理中的一些,总共不到半天时间,基于Next.js完成的全栈开发( 对Next.js不熟悉 )。
虽然界面呈现是Demo效果,不过我主要想实现的AI播客功能是有了,总得来说可能
我以前低估了AI编程 / 自然语言编程的实力。
最后想说, 跟进最新的 AI技术,有趣又 有 意义。
github:https://github.com/fishaudio/fish-speech Agent
Demo:https://huggingface.co/spaces/fishaudio/fish-agent
模型:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Fish Speech论文:https://arxiv.org/abs/2411.01156
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
往期推荐
Bolt + 免费的Mistral 和 Github API:免费且强大的AI代理工作流,无需V0(o1-preview免费)
媲美GPT4o!教你用智谱GLM-4-Plus在Fastgpt、Dify中构建知识库,并结合o1思维链和工具调用!
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
开源向量数据库哪个好?Milvus、Chroma 和 Qdrant 的选择指南
Claude 3.5 Sonnet 升级后,很强。用它写代码不知道有多爽。
👽Submission:kristjahmez06@gmail.com
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~