最近,AI孙燕姿在网上“重新出道”,引起了网友们的关注。在神奇的AI操作下,AI孙燕姿翻唱了一系列歌曲,其中翻唱的《发如雪》在哔哩哔哩平台点击量已经超过百万次。
在B站搜索AI孙燕姿的内容
在好奇心的驱使下,A君在B站也听过这首歌。如果单纯的从音色和唱歌风格来听,我压根儿就分辨不清歌手和AI歌手了。
更离谱的是,现在买一份专辑需要掏几十元,而拥有一个随身明星歌手只需要1-2天的模型训练。 只要数据够全,我们将喜欢的歌手声音输入AI进行训练后,就可以让“爱豆”随时为你唱歌。
了解完AI的骚操作后,本篇文章A君带大家一起了解下: 人类到底是如何打造AI歌手的?
0
1
AI歌手怎么“出道”
整个AI歌手的训练过程,最重要的东西就是“原声”数据; 其余的主要是时间成本了。
如果有一定的计算机基础,对常用的软件操作比较了解,可能两三天就可以做出来。
AI歌手背后核心的原理都是: 让AI通过算法学习数据中的音乐特征,再根据音乐特征生成出流畅的语音。
图片来源网络
通过从大量原歌手的原声数据中学习, 识别出歌手的歌声特征、确定音调,再做出正确的高音变化和节奏变化,然后一位AI歌手就此出道了。
最后再配合背景音乐,AI就可以随意模仿歌手的声音和风格进行演唱。
0
2
AI歌手的“培养”过程
整个AI歌手培养的过程, 完全可以理解为两部分:“语音合成”和“语音转换”。
先合成音调正确的歌曲,然后转化为指定歌手的声音。通过深度学习,AI会将文本或者音符转换为语音信号,生成一系列听起来自然和流畅的语音。
图 片 来源 网络
目前语音合成的技术有很多种,(文章后面会分享一些可以学习的博主教程链接,有兴趣大家可以自行了解下)而语音合成之后,怎么做到和原歌手一模一样的声音?
这就需要将一种语音信号转换为另一种语音信号, 利用“语音转换”来实现AI参考原歌手的音色进行变换。
图 片 来源 网络
同时,AI歌手也不仅仅局限在对于歌曲的翻唱,基于现在的大模型技术,可以通过训练完成的模型,根据给定的主题、风格或者旋律,生成一首全新的风格的歌曲。
分分种可以让“AI周杰伦”,唱一晚上的野狼disco。
0
3
“培养”AI歌手要准备什么?
在技术层面这些过程可以分为:准备数据集、预处理音频、训练模型、模型下载、模型推理这几个步骤。
为了便于理解,A君梳理了一张流程图。
如果在网上搜各大教程,我们很容易能找到一个名为So-VITS-SVC的开源项目。 这个开源项目,就是目前大部分AI歌手背后的关键秘诀。
整个开源项目中,最重要的就是训练模型,因为项目本身不提供任何音色的音频训练模型。 而预训练模型的第一步要准备数据集,是搜集准备好目标歌手的无音乐的“纯人声”。
将训练需要的纯人声放入固定文件夹
很多博主使用的工具,是一款名为“UVR5”来做伴奏与人声分离。 不过在处理前,最好把声音格式转成WAV格式,因为So-VITS-SVC只认这个格式,方便后面处理。
如果想要效果好一些,最好是处理两次背景音,根据不同的设置最大限度提高干声质量。
启动软件开始识别训练AI要用的数据集
得到处理好的音频后,还需要进行一些数据音频的预处理操作。
比如音频太长容易爆显存,需要对音频切片,推荐5-15秒或者再长一点。然后要重新采样到44100Hz和单声道,并自动将数据集划分为训练集和验证集,生成配置文件。
在数据集处理好之后,第二步就要开始模型训练和模型推理了。
将识别成功的素材进行预处理
需要注意的是,要确保模型训练顺利,需要电脑显卡在6G以上。如果是自己电脑配置不够, 推荐使用青椒云的AI套餐在云端训练AI,配置和效率会更加好一些!
根据网友的一些经验,云端电脑训练会方便一些, 因为训练会占用大量的显存,导致本地电脑在训练的时间段是没有做别的事情。
同时显卡的选择建议使用N卡会好一些。有相关的博主用RTX2060S测试过,训练自己的模型大概用了14个小时。
训练完成后查看训练日志中的具体参数
不同的数据集、参数原因也会导致训练的时间和模型质量有差异性。
不过,随着想要上手使用的人越来越多,也有不少博主推出了上手难度更低和更详细的食用指南。 有兴趣的朋友,我在这里直接放了链接,可以尝试去了解下。
-你可能错过的好文-
👇点击阅读原文「免费试用」
