每个人都是音乐家？Meta新开源模型AudioCraft闪亮登场，AI也能做音乐！ - 文章 - 开发者社区

picture.image

点击上方蓝字关注我们

picture.image

最近，科技巨头Meta AI（Facebook母公司）可谓大招不断，继前段时间发布LlaMa-2代开源大语言模型后，8月3日发布了新的开源项目：  **AudioCraft - 开源的、专注音频与音乐的生成式AI预训练模型系列** 。不同于大语言模型的文本生成，也不同于Midjourney的图像生成、Runway的视频创作，AudioCraft则专注于另一种常见的媒体形式：  **音频** 。

picture.image

AudioCraft初探

根据metaA的介绍，  **AudioCraft是一个从文本生成高质量音频与音乐的模型。** 简单的说，你只需要用自然语言和AudioCraft模型对话，AI会自动帮你生成你所需要的音频（比如鸟叫声、火车呼啸、飞机轰鸣）或者音乐（比如欢快的电子乐）。

应用场景

根据Meta的介绍，我们可以设想出以下的应用场景：

为你的社交媒体的帖子或者短视频添加一些与众不同的配乐或者音效，而又不用担心版权问题
预算有限的刚起步的公司，为新开发的游戏内虚拟世界制作逼真的环境音效或者配乐
使用AI制作电影预告片（参考本公众号上一篇“AI工具制作电影预告片”）的时候，需要有符合画面与氛围的配乐与音效
模型组成

AudioCraft，由MusicGen、AudioGen和EnCodec三个模型组合而成。

picture.image

AudioGen ：基于公共音效进行训练的预训练模型。可以通过文本生成与您描述相对应的 真实的环境声音和声音效果 ，比如狗叫声，汽车喇叭声等。
MusicGen ：基于大量授权的音乐训练的预训练模型，可以通过文本生成 复杂连续的音乐 ，比如视频配乐，游戏配乐等。

picture.image

MusicGen相比AudioGen生成环境音频更复杂，因为音乐更强调生成内容的连续性和协调性。根据Meta介绍，MusicGen 接受了大约 400,000 个录音以及文本描述和元数据的训练，总计 20,000 小时的音乐。

picture.image

EnCodec ：一个在以上两个模型训练过程使用的 高保真的音频编解码器 。简单的说，把音频转成大模型训练的“token”，或者在生成的时候把“token”再转成音频。

picture.image

AudioCraft实测

作为首次发布的AudioCraft的实际应用效果如何？

首先看官方给出的两个AudioGen生成环境音效的例子 ：

提示词：风呼啸而过（注意风是环境音）

提示词：警报器和嗡嗡作响的发动机接近并通过

从生成环境音效和真实声音的效果来看，还是非常惊艳的，具有相当高的还原质量，对于大部分人的声音辨别力来说，恐怕很难区分真实采样的声音与AI生成的声音。

接下来是网友使用MusicGen创作的不同风格的音乐：

应该说，在音乐风格的还原、乐器的使用、甚至是节奏的把控，都还是具备了较高的质量，与提示词的契合度很高。当然，作为非音乐制作的专业人士，我们普通人也很难做更深度的器乐角度的评判。此外，在提示词复杂度进一步上升后的效果怎样，还有待验证。

亲测结果（基于Huggingface的MusicGen模型生成）：

提示词：Pink Floyd的迷幻摇滚风，要有大段的电吉他Solo

提示词：80年代的复古迪斯科风格的背景音乐

怎么样？是不是还真有那么一点味道？或许在未来的某天，我们每个人不需要懂乐理，也无需会乐器，你只需要会说话，有一点基本的音乐常识，或许都能创作属于自己的BGM，甚至流行神曲呢。

如果你感兴趣，可以到Huggingface测试：

https://huggingface.co/spaces/facebook/MusicGen

开源地址：

https://github.com/facebookresearch/audiocraft

MusicGen论文：

https://arxiv.org/abs/2306.05284

AudioGen论文：

https://arxiv.org/abs/2209.15352

高保真解码器论文：

https://arxiv.org/abs/2210.13438

——The End——

点击下方关注我，不迷路

点击下方体验AI助手

picture.image