AI 技术正在成为辅助内容生产和传播的“利器”。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷，以 AI 技术作为“创作工具”将为内容生产带来新变革。

以字节跳动为例，字节跳动拥有全球化的内容平台，内容形式经历了图文、音频和视频各个阶段。在这个过程中，内部对智能语音技术的需求日益增强，如有声书内容生产，短视频中的内容审核、自动字幕和配音功能等。

自 2017 年开始重点布局智能语音技术以来，该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景。实践证明，作为新型的生产工具，智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力。

近日，字节跳动 AI-Lab 智能语音 / 语音合成 Leader 殷翔博士接受 InfoQ 的专访，介绍了智能语音技术上在字节跳动的研发进展以及应用实践，并分享了智能语音赋能内容生产的思考。以下为采访实录。

字节跳动的智能语音技术布局

InfoQ ：首先请您做一下自我介绍，您自何时加入字节跳动，以及目前主要负责的工作是？

殷翔：我是 2018 年加入字节跳动人工智能实验室，负责音频生成算法团队，研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。

InfoQ：字节跳动从什么时候开始布局智能语音技术的？公司内部对智能语音技术的需求主要来自哪些场景？

殷翔：字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。

InfoQ：字节跳动如何定位智能语音技术，如何看待它在公司整体的 AI 布局中所处的位置？

殷翔：字节跳动拥有全球化的内容平台，内容形式经历了图文、音频和视频各阶段，如何高效理解、创作、互动和分发内容，给 AI 技术带来了机遇和挑战。随着深度学习和机器算力的不断发展，智能语音技术已经迈进了端到端时代，并借助丰富场景下的海量数据，显著提升了内容理解的精度、内容创作的质量。智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具，例如：通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产，能够将番茄小说海量网文转成有声书，供用户聆听。在短视频方面，能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品。

InfoQ：除了您所在的团队 (AILab)，字节跳动内部还有哪些团队在做语音技术的研究，各部门的侧重点分别是什么，又是如何协作的？

殷翔：字节跳动产品研发和工程架构部门也在做相关研究。AILab- 智能语音属于 AI 中台，使命是做“大而全”的技术支持，对某些需要深入合作的业务部门，会专门派同学 BP，进行“精且深”的解决方案打磨。最终我们的愿景是将 AI 中台能力做成定制方案，提供 ToB。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向，与业务一起成长，做到 BU 化。在协作方面，对于共有能力，会依照业务场景进行划分。对于差异化能力，会依照业务方的需求，形成组合方案，提供支持。

InfoQ：近期字节跳动在智能语音领域取得了哪些重要技术成果？

殷翔：在语音识别方面，通过无监督预训练 + 少量有监督的技术，参加国际低资源多语言语音识别挑战赛（MUCS21），取得多语言语音识别赛道第二名；音乐技术方面，我们参加了 MIREX2020 翻唱识别竞赛，取得第一名，mAP 领先第二名 8%；语音合成上，我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务。

InfoQ：端到端语音识别时代已来临，端到端识别技术近些年成为了学术界和业界研究的热点。目前，字节跳动在端到端识别算法的研究和应用进展如何？

殷翔：我们在 RNN-T 上做了不少原创性工作，包括加速 RNN-T 的训练和推理，结合端云一体进行了多项创新，目前已将该技术上线到各类业务场景中。同时，我们还在打造下一代端到端识别算法框架，并已取得了较大的进展。

InfoQ：接下来字节跳动在语音技术领域的重点研究方向是什么；您所在的团队接下来的规划是?

殷翔：以语音识别和合成为例。语音识别方向上，重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架；语音合成方向上，重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等。我们团队接下来重点发展的规划，包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等。

智能语音广泛落地于字节跳动的内容平台

InfoQ：你们团队研发的语音技术目前在字节跳动内部的哪些场景应用？公司外部，有哪些应用场景?

殷翔：团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景，主要以服务调用或 SDK 的形式使用。对于外部场景，会通过火山引擎控制台对外提供服务。

InfoQ：你们如何评估智能语音技术在各个场景的应用效果？

殷翔：我们会通过调用量、语音处理 / 生成时长等纯技术指标来衡量使用情况，同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果。

InfoQ：在字节跳动的内容平台由图文 - 音频 - 视频不断演进的过程中，如何看待语音技术的重要性？

殷翔：语音技术在内容形式不断的演化过程中，可以持续通过对语音和语义的理解，来帮助平台筛选出违禁的内容。通过机器 + 人工的方式，大大提升审核的效率；同时，通过对语义的理解和语音 / 图像信号的重建，为平台提供丰富的不同模态内容，供用户消费。

InfoQ：字节跳动的语音技术在有声书合成应用场景中，有没有一些难突破的技术点，是怎样解决的？最终达到的朗读效果与真人朗读相比，还有哪些差距？

殷翔：在有声书合成应用场景下，存在的难点主要是如何接近真人播讲的效果，使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果。我们会通过小说篇章理解来将网文转换成剧本，标识出每句对话是哪个角色来读和以什么情感来读，再采用对应音色结合情感合成得到音频内容。最终的朗读效果与真人相比，差距在于无法做到根据不同上下文语境展现不同风格，只能表现出音库单一的录制风格。

InfoQ：针对有声书合成，共训练了多少种声音，是否有根据不同（年龄）人群的需要和兴趣定制更个性化的声音或者多（分）角色有感情朗读？或者是否有配合不同的书籍类型去创作不同的声音？

殷翔：针对有声书合成共训练了 30 多种声音，我们目前根据番茄小说平台用户喜欢的头部小说，归类出头部书中最感兴趣的角色，再通过机器 + 人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。

InfoQ：近几年短视频非常火热，单字节跳动的短视频平台就拥有数亿日活的用户，每天会产生数量庞大的短视频，在针对短视频的二次智能创作方面，语音技术具体会进行哪些创作？用户的反馈效果如何？

殷翔：语音技术会进行字幕添加、文字配音和模版玩法等，从而提升视频的丰富度。这很大程度上促进了用户的投稿率，成为视频工具不可或缺的功能。

智能语音技术赋能内容生产的趋势

InfoQ：与以前的视频化相比，现在已经进入了超视频化时代，内容在更多地往视频演进。超视频时代的来临，对智能语音技术在视频场景的应用带来了哪些机会和挑战？

殷翔：机会在于我们可以面向广大用户群体提供丰富的内容创作工具，挑战则在于我们需要更理解用户，分析清楚采用何种功能能够激发他们的创作兴趣。

InfoQ：字节跳动的智能语音技术，从研究方向和落地应用来看，有哪些独特的优势？

殷翔：我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的，一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用，我们会 BP 到不同的业务部门，与他们的业务指标对齐，再拆解成技术指标跟进。因此，AI 中台既能够直接拿到业务收益，业务目标也可以与 AI 技术目标同步。

InfoQ：据您判断，接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势？

殷翔：智能语音技术作为生产工具，是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内，一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展，借助技术的提升，不断推动 AI 产业化和规模化的进步。