15.1K Star!Fish Speech 1.5 正式上线!全球领先的多语言 TTS 工具!可本地部署“调教”。

点击上方“蓝色字体”关注我,每天推送“实用有趣的项目”!

如果说语音合成是未来 AI 的一个重要分支,那么 Fish Speech 1.5 的发布毫无疑问让这一领域变得更加精彩。

picture.image

作为新一代的 TTS 工具,这款模型不仅在准确性、稳定性和跨语言能力上遥遥领先,还新增了五种语言支持,真正实现了“听得懂、说得好、用得广”的目标。

在介绍1.5的版本亮点之前,我们先回顾关于 Fish Speech 的项目信息。

项目介绍

FishSpeech 是由 FishAudio 团队开发的一款TTS语音生成工具,与ChatTTS属于同时期(2024年6-7月)开源的超热门的TTS项目。

而说起其团队成员,更是GitHub上的各类SVC大佬,也就是专做AI声音克隆的教父们。

picture.image

FishSpeech 在我刚开始看到它的时候,在GitHub上就有了3.1k Star量,如今5个月过去了,已经揽获了15.1k Star量。

picture.image

可见用户增长之快,因为确实好用,质量也上乘。

其功能也吸引了众多用户青睐。

主要功能

  • 零样本 & 小样本 TTS :只需 10-30 秒的声音样本,即可生成高质量语音,完美支持语音克隆需求。
  • 无音素依赖的强泛化能力 :Fish Speech 的模型对音素无依赖,可以轻松处理任何文字表示的语言,让 TTS 应用场景更加广泛。
  • 超高准确率 :在 5 分钟的英文文本上,字符错误率(CER)和词错误率(WER)仅约 2%。
  • 用户友好的多界面支持
  • WebUI :基于 Gradio 的网页用户界面,兼容主流浏览器(Chrome、Firefox、Edge)。
  • GUI 推理 :提供 PyQt6 图形界面,与 API 服务器无缝协作。
  • 轻松部署 :无论是本地还是云端,都支持快速部署,最大限度减少速度损失,为开发者提供极大的便利性。

了解了Fish Speech的基础特性后,我们再来看看Fish Speech 1.5 的亮点更新功能。

Fish Speech 1.5 的亮点

1、全球第二的强悍性能

在 TTS-Arena 排名中,Fish Speech 1.5(匿名参赛)获得了全球第二名,这足以证明其技术实力!

picture.image

2、超大规模训练数据及多语言支持

使用了 100万 小时的多语言训练数据,支持多达 13 种语言,包括 英语、中文、日语、韩语、法语、德语、西班牙语 等,真正实现了跨语言自由切换。

3、极速语音合成

延迟低于 150ms ,满足即时语音克隆的需求。

4、预训练模型开源

预训练模型完全开源,开发者可以自由探索和定制。

5、新增实时无缝对话功能 (即将推出)

后期将支持用户随时切换语音库进行交互式聊天,体验感进一步提升。

快速上手

今天就不详细说本地部署上的步骤了。喜欢折腾的小伙伴可以参考speech.fish.audio文档研究。

picture.image

官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

第一个就是已上线的官网首页 fish.audio,特别多人在用。

其次是在抱抱脸(HuggingFace)上部署的简易版。

picture.image

直接看看官网上线的项目,比较有看头一些。

界面功能

首页进入主页后,就可以立即体验1.5的文生语音及语音转文本的功能了。

picture.image

「发现」标签页下有海量人物音色可以直接使用,包括明星人物、游戏角色、动漫角色等。

picture.image

这里上传了许多创作者训练的各种人物音色,比如理塘丁真、郭德纲等明星音色,还有游戏及动漫角色纳西妲、赛马娘等,还有海量音色可直接使用。

这也是其他开源TTS模型所不具备的,如果有现成的创作者训练好的音色模型,也不用我们自己去找,去训练,可以直接使用。

语音合成,一秒即用

打开「语音合成」标签页,输入需要进行语音转换的文本,选择想要转换的声音音色(可直接用上面的海量音色库),点击创建即可完成文本转语音功能。

picture.image

刚好用了一段动漫台词,让奶龙配个音。

“我早就闭上了双眼,我的目的只在于黑暗之中。”宇智波佐助——《火影忍者》

是不是很有感觉,真怕它给你来个「我是奶龙,我才是奶龙啊」。

从情感、语调语速、音色上都比较贴合。

自定义训练声音模型

FishSpeech 训练不像So-VITS-SVC需要填写一大堆训练参数,有时候还需要进行微调。

点击「构建声音」标签页,即可跳转到声音训练界面,只需要提前准备好相关的同一个角色的音频文件,所有文件合集不可大于150M,填写好角色模型名称即可开始训练。

picture.image

同时它支持私有训练选项,训练完成后只供个人使用,别人在FishSpeech是看不到的。

写在最后

Fish Speech 1.5 的更新,对于语音克隆爱好者及配音人员,是真的利好。

不论是用来自训练语音模型,还是借助它进行动漫角色配音、AI翻唱或是搞怪剪辑都是可以轻松实现的。

可以收藏起来,将来让你的项目“声”动起来!

官网主页:https://fish.audio

GitHub 项目地址: https://github.com/fishaudio/fish-speech

HF Demo:https://huggingface.co/spaces/fishaudio/fish-speech-1

picture.image

一款改变你视频下载体验的神器:MediaGo

新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

Star 50.3k!超棒的国产远程桌面开源应用火了!

四款国内外远程桌面软件横测:ToDesk、向日葵、TeamViewer、AnyDesk

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
评论
未登录
暂无评论