一款可定制声音的开源音频克隆工具—OpenVoice

火山方舟向量数据库大模型

加入我们的社区

picture.image

加入我们的 Discord 社区[1] 并在加入时选择 Developer 角色,以获得我们仅限开发者频道的独家访问权限!不要错过宝贵的讨论和合作机会。

[2]简介

正如我们在我们的 论文[3] 和 网站[4]中详细介绍的,OpenVoice的优势有三个方面:

1. 准确的音色克隆。 OpenVoice能够准确地克隆参考音色,并生成多种语言和口音的语音。

2. 灵活的声音风格控制。 OpenVoice使得对声音风格(如情感和口音)以及其他风格参数(包括节奏、暂停和语调)的粒度控制成为可能。

3. 零样本跨语言声音克隆。 生成的语音的语言或参考语音的语言都不需要在大规模的多语言训练数据集中呈现。

picture.image

[5]

OpenVoice自2023年5月起一直在为 myshell.ai[6] 的即时声音克隆功能提供动力。截至2023年11月,声音克隆模型已被全球用户使用数千万次,并见证了平台上用户的爆炸性增长。

[7]主要贡献者

•Zengyi Qin[8] 在MIT和MyShell •Wenliang Zhao[9] 在清华大学 •Xumin Yu[10] 在清华大学 •Ethan Sun[11] 在MyShell

[12]现场演示

picture.image[13]

picture.image

[14]

[15]免责声明

这是一个实现,它近似地表现出 myshell.ai[16] 的内部声音克隆技术的性能。myshell.ai中的在线版本有更好的 1) 音频质量,2) 声音克隆相似性,3) 语音自然性和 4) 计算效率。

[17]安装

克隆这个仓库,并运行


          
conda create -n openvoice python=3.9
          
conda activate openvoice
          
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
          
pip install -r requirements.txt
      

从 这里[18] 下载检查点,并将其解压到 checkpoints 文件夹

[19]使用方法

1. 灵活的声音风格控制。 请查看 demo_part1.ipynb[20] 以了解如何利用OpenVoice对克隆声音进行灵活的风格控制的示例。

2. 跨语言声音克隆。 请查看 demo_part2.ipynb[21] 以了解MSML训练集中见过或未见过的语言的示例。

3. Gradio 演示。 使用 python -m openvoice_app --share[22] 启动一个本地的Gradio演示。

4. 高级使用。 基础发声模型可以替换为用户喜欢的任何语言和风格的模型。请使用在演示中展示的 se_extractor.get_se 函数提取新基础发声者的音色嵌入。

5. 生成自然语音的提示。 有许多单声道或多声道的TTS方法可以生成自然语音,并且容易获得。通过简单地将基础发声模型替换为你喜欢的模型,你可以将语音的自然度推向你所期望的水平。

[23]路线图

• 推理代码 • 音色转换模型 • 多风格基础发声模型 • 多风格和多语言演示 • 其他语言的基础发声模型 • 更自然的EN基础发声模型

[24]引用


          
@article{qin2023openvoice,
          
title={OpenVoice: Versatile Instant Voice Cloning},
          
author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
          
journal={arXiv preprint arXiv:2312.01479},
          
year={2023}
          
}
      

[25]许可

此仓库采用创意共享署名-非商业性4.0国际许可证,禁止商业使用。MyShell保留检测音频是否由OpenVoice生成的能力 ,无论是否添加了水印。

[26]致谢

这个实现是基于几个优秀的项目,TTS[27],VITS[28],和 VITS2[29]。感谢他们出色的工作!

参考

更多信息请参考:https://github.com/myshell-ai/OpenVoice

References

[1] Discord 社区: https://discord.gg/myshell

[2] : https://github.com/myshell-ai/OpenVoice#introduction

[3]` 论文: *https://arxiv.org/abs/2312.01479*` [4] 网站: *https://research.myshell.ai/open-voice* [5]` : *https://github.com/myshell-ai/OpenVoice/blob/main/resources/framework-ipa.png*` [6] myshell.ai: *https://app.myshell.ai/explore* [7]` : *https://github.com/myshell-ai/OpenVoice#main-contributors*` [8] Zengyi Qin: *https://www.qinzy.tech/* [9]` Wenliang Zhao: *https://wl-zhao.github.io/*` [10] Xumin Yu: *https://yuxumin.github.io/* [11]` Ethan Sun: *https://twitter.com/ethan\_myshell*` [12] : *https://github.com/myshell-ai/OpenVoice#live-demo* [13]` : *https://www.lepton.ai/playground/openvoice*` [14] : *https://app.myshell.ai/bot/z6Bvua/1702636181* [15]` : *https://github.com/myshell-ai/OpenVoice#disclaimer*` [16] myshell.ai: *https://app.myshell.ai/explore* [17]` : *https://github.com/myshell-ai/OpenVoice#installation*` [18] 这里: *https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints\_1226.zip* [19]` : *https://github.com/myshell-ai/OpenVoice#usage*` [20]`

demo_part1.ipynb : *https://github.com/myshell-ai/OpenVoice/blob/main/demo\_part1.ipynb*` ``[21]`

demo_part2.ipynb : *https://github.com/myshell-ai/OpenVoice/blob/main/demo\_part2.ipynb*` ``[22]`

python -m openvoice_app --share : *https://github.com/myshell-ai/OpenVoice/blob/main/openvoice\_app.py*` [23]` : *https://github.com/myshell-ai/OpenVoice#roadmap*` [24] : *https://github.com/myshell-ai/OpenVoice#citation* [25]` : *https://github.com/myshell-ai/OpenVoice#license*` [26] : *https://github.com/myshell-ai/OpenVoice#acknowledgements* [27]` TTS: *https://github.com/coqui-ai/TTS*` [28] VITS: *https://github.com/jaywalnut310/vits* ``[29] VITS2: *https://github.com/daniilrobnikov/vits2*

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论