字节跳动智能音频信号处理的应用实践 - 文章 - 开发者社区

点击上方👆蓝字关注我们！

picture.image

本文整理自火山引擎开发者社区 Meetup 第五期演讲，主要介绍了字节跳动智能音频信号处理技术在高质量音频采集、声场重建和智能语音交互等场景中的应用。

作者｜徐宁，字节跳动语音信号处理算法工程师

音频信号处理发展趋势

从我这些年的工作过程中，我把音频信号处理分为了三个大的部分：

最基础的部分是算法，包括 自适应滤波器 、 阵列信号处理 以及 心理声学 和 深度学习 等算法技术。
算法基础可以保证上层 关键技术组件 的技术演进。比如自适应滤波器理论的发展大大加速了回声消除在各业务场景中的应用；阵列信号处理技术则确保了声源定位以及波束形成在消费电子以及音视频创作中的效果。深度学习和心理声学技术的发展也大大加速了多模态音视频信号处理技术的发展，保证了声音效果。
有了这些基础就可以为上层业务，比如 声场还原 、 人机交互 、 音视频处理 等提供更高质量的音频。

介绍了音频信号的几个组成部分，下面我们来看一下音频信号技术的整体发展趋势。

当提到音频信号处理时，不可避免地会提到贝尔实验室。贝尔实验室在 1979 年发明了系统单片机型的数字信号处理器（SoC DSP，用于调制解调器、无线电话等），从而奠定了音频信号处理的基础。

随着电子产品的普及，在 20 世纪 90 年代到 21 世纪初期，以松下、索尼为代表的 DV 机推动了麦克风阵列技术在消费电子中的应用，传统的波束形成技术得到了快速发展。

随着数字信号处理技术及芯片技术的迅速发展，以 Polycom、Zoom 为代表的音视频会议服务商，推动了全双工音频信号处理在实际场景中的应用，使得回声消除、声源定位、波束形成及降噪等技术在实际场景中得到了广泛的应用。

最近的 5-10 年，随着可穿戴设备的普及和发展，声场分析和 3D 音效为 VR 和 AR 打造了身临其境的声音效果，提升了沉浸式的音频体验。

随着谷歌在音视频通讯中采用音视频结合的音频处理技术，极大程度的改善了音频质量，为传统的单独音频信号处理往多模态维度扩展提供了开拓性的思路。

我们可以看到音频信号处理技术的发展，从传统的基于先验假设的数字信号处理技术逐渐向基于深度学习的多模态音频处理技术过渡。而在字节跳动的业务中，多模态音频处理和声场还原对于高质量的内容创作也至关重要。

智能音频信号处理在高质量音频采集中的应用

智能音频信号处理主要有三个应用场景：

音视频的录制创作
直播
VoIP

picture.image

从上图可以看到，不同场景对技术能力的需求是不同的，但对于录音硬件的需求都是共同的。录音硬件不仅包括已有的视频硬件，在视频创作中我们也有一些专门的硬件来提供高质量的音视频。

在算法层面，各场景对于 回声消除 、 音频缩放 、降噪以及后端的 增益控制 和 声音均衡 也都有一定的需求。

随着目前技术的发展，更多的技术关注在降噪方面。降噪关注的是音频质量，但是对于多模态音频的处理，我们更关注的是它如何结合更多维度的信息，来打造更好的音频体验。

因此这里主要会介绍 音频缩放 这个技术，尤其是 多模态的音频缩放 技术。

多模态音频缩放技术应用

多模态音频缩放技术不仅结合了声源信息，也结合了视频场景分析的信息。

picture.image

除了多模态音视频的场景分析技术之外，我们还关注如何从视频中获取高质量的音频。上图中间的部分主要是基于深度学习技术来提取高质量音频，这里用到的技术主要是 多模态语音增强 以及 模型波束 等技术。相比于传统的针对信号处理的波束形成技术，基于模型的深度学习的方法可以设计出更好的波束指向性以及更好的频率响应，来实现空间声音指哪打哪的效果。

提取出来视频画面中的各个声源之后，还要做更多的后处理，包括声音和画面的增益同步以及多音源的音量均衡，来保证音频相比原始的视频来说质量不降低。

通过这三个部分的深度优化和结合，就能实现更好的多模态音频缩放的技术。

在多 人说话场景中 ，多模态声音缩放技术可以匹配视频和音频的聚焦焦点，实现视频画面和音频同步增强和放大的效果。这样在会议和消费电子场景中，就可以得到更高质量的音频。

除了多人场景之外，我们还可以提 取出视频画面中的各个音源 （比如非人声的音源）。传统多模态技术很难提取出非人声的音源，因此在这种场景下，我们需要一种额外的阵列信息的辅助。下面的视频可以看到我们用基于阵列的硬件录制的视频的效果。

原始视频

视频对比

高质量、低延时 VoIP 应用

除了在视频场景的应用之外，我们还研发了全链路的高质量、低延时的 VoIP 技术。该技术相比于传统技术有一定的创新，尤其是在系统的稳定性以及声音美化的部分：

在 系统稳定性 方面：基于整体的硬件状态检测，实时切换音频。
在 音频质量提升 部分：我们研发了混响抑制、噪声消除以及增益控制等技术，可以持续改善音频质量。
在 声音美化 部分：可结合不同声音的特性进行动态 EQ 以及人声增强。

基于以上这些特点我们可以保证 VoIP 整体的使用效果。

声场重建应用实践

介绍完了高质量音频采集，下面将和大家分享我们在声场重建的应用实践。在声场重建的过程中，我们主要会重建 3D 的声音效果，目前针对线上场景我们做的是立体声效果，可以更好地还原真实的声音。

声场重建应用场景

首先来介绍一下声场重建的应用。

首先是在视频/音频创作中，对各个声源进行声场重建，打造画面感声音引擎。网站上现有的存量视频很难获得高质量的沉浸式体验。因为音频更多的是一种单声道存在，画面中不同声源所处的方位很难从声音中体现出来。我们通过声场重建，可以对原视频的各个声源进行分离/分割，再进行融合，这样就能打造出更高质量的音视频。
其次在 AR 以及 VR 产品中，结合声场重建技术，也能打造出更沉浸式的音视频体验。

如何实现视频画面的声场重建

要实现比较好的声场重建，至少需要两部分的内容：

声场分析 ：需要对声源的相对位置、声源路径和声音种类做判断。
声源提取 ：需要对视频画面中的各个声源进行提取。利用声源分割/分离、波束形成、多模态语音增强等技术，对视频画面中的各个音源进行针对性的提取，然后结合声场分析出各音源对应的位置路径等信息，送入 3D 空间生成的部分，再结合多音量均衡的技术，实现最终的声音重建的效果。

下面以实际录制的一个视频为例，看一下声场分析以及视频声场还原的工作过程。首先是我们拿一个真实的设备录制的音视频。

原始视频

可以看到原视频画面中，说话者的运动路径是忽左忽右的，但是我们听到的音频其实是固定的。在听类似报告或者看类似视频的时候，我们很难体会到人物走动的路径信息，也很难把声音跟视频对应上。利用声场重建技术，我们可以把视频的画面和音频的声场进行深度还原。

下面的视频是声场还原后的效果及对应的原理介绍。

视频对比

可以看到在这个视频播放的同时，视频上面会有一个横条，是实时进行的声场分析过程。这样，我们可以将声场分析和声场还原的技术都应用到这个视频进行重建，视频画面和音频画面就能更好地匹配。

声场重建除了可以应用在实时录制的视频中，也可以应用在已有的视频中。我们以西瓜视频上的一个 vlog 视频为例，看看如何让存量视频具备更好的声音效果。

原始视频

这个视频放里面我们需要关注这几个点：

背景音乐的声音
男生唱歌的声音
男生的音质。因为在声场还原的过程中，尽量要求不损失已有视频的音质。这个目前对于存量视频来说是一个很关键的技术。

下面是声场还原之后视频的效果。

视频对比

从这个视频可以看到，通过声场还原之后，视频中声源的位置可以跟我们听到的音频位置得到更好的匹配，这样在欣赏视频或观看电影时就能有更好的沉浸式体。

前面介绍的都是在视频场景下声场重建技术的应用。除此之外，我们在多播小说场景中的声场环境重建也有一些应用实践。

多播小说声场环境打造

多播小说相比于单播小说的一个最大区别就是它会用一个小说篇章的 NLP 来对小说中的每一个角色进行划分，有旁白、氛围以及每个角色对应的音色。多播小说在合成之后再经过后期制作，相比于传统只使用一个音色播放的小说，能达到更好的沉浸式体验效果。我们可以来听一下目前多播小说在这种实际产品中的应用效果。

这段音频是悬疑/惊悚类小说的合成。小说是靠旁白来渲染每个声源的位置或种类，包括忽远忽近、旋绕、旋转等效果。但是在这段音频中还是需要靠人去想象每个声源的位置。我们可以结合空间声或者声场重建的技术，对每个声源进行 3D 重建。

实现这种声场重建我们要利用两个技术：除了刚刚说的空间声的生成之外，还需要对人物进行声场分析，得到的结果是声源的种类、运动路径和声源位置等信息，之后再送入空间声生成，经过后期制作，就可以得到更好的身临其境的效果。

可以通过下面的音频来感受一下多播小说加入空间声之后的效果。

经过空间声场的重建之后，对于声音和画面的重建可以得到明显不一样的效果。这样就使得我们在享受音频内容的同时，会更具有身临其境的效果。

智能语音交互中的音频信号处理

前面介绍了音频信号处理在音视频内容创作、音频录音等场景的应用，现在随着智能音箱的发展， 智能语音交互 也是音频信号处理的一个主要应用场景。

picture.image

在智能语音交互中，我们主要有几个大的技术部分：

完整的底层能力，像语音交互中的 回声消除 、 混响抑制 ，基于针对信号处理的 声源定位 、 波束形成 ，为了解决远距离的 增益控制 ，以及在播放侧打造更好的声音效果的 EQ 技术 等等。
这些技术向上支持的是 全链路语音交互 ，包括远场语音交互以及通话降噪。
在具体的应用场景中，目前主要在 教育智能硬件 、 智能家居 以及 智能穿戴 等产品中会应用到智能语音交互。

展望未来

以上就是字节跳动智能音频信号处理技术主要的应用实践，目前我们的技术能力主要应用于智能音箱、智能会议以及智能手机等产品中。结合未来的业务规划，我们会打造一些软硬一体的智能语音处理模组，将其应用在便携式、可穿戴的 IoT 设备上。为了更好地打造多播小说的体验，我们也会投入更大的精力去研发基于文本的声场分析，做到更好的自动化。

此外，我们也会从传统的智能硬件场景升级到智能模组，应用在 VR/AR 产品以及音视频智能创作中，这样就能大大扩展音频信号处理的应用领域。

Q&A

Q：智能时代的算法技术有什么特点？在医疗行业中有应用吗？

A ：我从音频这个领域来介绍一下。目前我们可以看到在医疗行业有一些智能问诊，尤其在线下医院场景中，可以利用智能语音技术实现线下导诊，加速挂号或其他线下就诊流程。除此之外，基于沉浸式的声场还原、超低延时 VoIP、音视频传播等技术，远程问诊以及远程手术也能获得更好的远程操作效果。当然这些应用除了音频技术之外，还需要其他技术能力的协同。

Q：NLP 能分析出对话时的空间是在山洞还是水边吗？

A ：可以。在前面演示的多播小说场景里面其实是做了这样的功能的。它的实现原理是，声场分析过程中关注的更多的是声音中的混响。我们要获得的并不是具体的某一个工作环境，而是工作环境距离的远近、混响的大小以及运动的路径等。我们需要找到的是每一个关键词对应的混响的大小，这样我们在空间声重建的时候就能达到更好的效果了。

Q：算法落地在移动端侧部署有什么心得？

A ：对于音频信号处理这样的技术，我们在端侧部署时其实更关注的是它的功耗以及内存。因为端侧，尤其是移动端，对于耗电量是很关注的。所以从算法上，会尽量使用传统信号处理和深度学习结合的方式来平衡算法效果和计算量，同时尽量避免一些访存密集型的操作。今天讲到的这些技术效果，其实都是可以实时在端侧部署的，因为它们整体的算法计算量和内存相对来说都是比较小的。这两个是我们目前在端侧最为关注的效果。

关注👇👇公众号，后台回复【

925

】获取本文对应的 PPT 。

picture.image