豆包大模型支持实时语音通话了！ - 文章 - 开发者社区

生成式人工智能正以令人惊叹的速度实现突破，像与 ChatGPT、豆包这类 AI 智能助手对话，不再局限于文字，也可以通过语音通话进行实时、生动的交流。语音是人类最自然便捷的沟通方式，语音交互大幅降低与 AI 对话的门槛。人们只需说出需求，AI 就能快速理解并反应，无需复杂的操作，都在简单的话语中。

在这一趋势推动下，诸多领域出现 AI 实时语音创新应用，如 AI 社交陪伴、AI 口语学习、游戏 AI NPC 及 AI 呼叫中心等。这些应用既展现 AI 技术潜力，也体现人们对更自然、更丰富的 AI 交流体验的期望。

WebSocket VS RTC，RTC更快、更高效的网络基础设施

我们与 AI 交互的流畅度和效率，不仅取决于大模型毫秒级的理解生成能力，还依赖于所选择的网络传输技术。起初，开发者鉴于 WebSocket 广泛的应用及普及性，常常选用它来构建语音对话。但随着方案的演进以及用户需求的提升，其局限性也逐渐展露：

响应延时：WebSocket 基于 TCP 协议构建，在公共互联网上进行高带宽的数据传输时，尤其是在网络的“最后一公里”中，容易受到网络条件不佳的影响，导致传输延迟不稳定，影响用户的交流体验。

打断回声：我们发现当前主流 AIGC 语音通话应用少有能实现用户随时打断，体验上更像“对讲机”而非“打电话”。因为用户在智能体输出时讲话，会混入智能体的回声，导致用户所说内容无法准确识别。

拓展限制：WebSocket 对于视频或多人交互场景显得“力不从心”。视频比音频使用更多的网络带宽，丢失和延迟的数据包也会更频繁；随着交互个体的增多，音视频流的发布和订阅管理也变得更加复杂。

为了提供更流畅自然的用户体验，适应大模型向多模态方向的快速发展，AI 实时语音方案采用实时通信（RTC）技术更为合适。RTC 技术能够更好地适应用户网络条件的变化，提供更优的实时传输性能。

picture.image

自然流畅的AI实时语音应用，一站式搞定

火山引擎推出对话式 AI 实时交互解决方案，搭载火山方舟大模型服务平台，通过火山引擎 RTC 实现语音数据的高效采集、处理和传输，并深度整合豆包·语音识别模型和豆包·语音合成模型，简化语音到文本和文本到语音的转换过程，提供卓越的智能对话和自然语言处理能力，帮助应用快速实现用户和云端大模型的实时语音通话。

豆包·语音合成模型：解锁「豆包」同款音色，提供自然生动的语音合成能力，善于表达多种情绪，演绎多种场景。

豆包·语音识别模型：更高的准确率及灵敏度，更低的语音识别延迟，支持多语种的正确识别。

火山方舟：提供模型精调、推理、评测等全方位功能与服务，提供丰富的插件生态和 AI 原生应用开发服务，全方位保障企业级 AI 应用落地。

picture.image

对话式 AI 实时交互服务方案架构

开箱即用快速搭建，只需调用标准的 OpenAPI 接口即可配置所需的语音识别（ASR）、大语音模型（LLM）、语音合成（TTS）类型和参数。而火山引擎 AIGC RTC-Server 负责边缘用户接入、云端资源调度、文本与语音转换处理以及数据订阅传输等环节。整体简化开发流程，让企业应用更专注在对大模型核心能力的训练及调试，加速 AI 实时语音场景创新。

随时打断，交流自然

要让与 AI 的交流像和朋友一样自然，随时打断甚至直接插话，关键在于：当用户和 AI 同时说话时，如何解决互相干扰的音频“双讲”现象。火山引擎 RTC 基于成熟的音频 3A 处理技术，针对“双讲”通过传统回声消除算法和深度学习算法的结合，不仅有效去除回声，还能避免用户语音被过度处理，确保云端语音识别（ASR）能准确捕捉和识别用户的语音信息。此外，火山引擎 RTC 通过简化算法提高处理速度，避免因算法复杂性带来的额外延时。

实时秒回，全球畅聊

火山引擎 RTC 依托于 WebRTC 传输网络（WTN），优选全球海量优质节点，实现全球用户就近接入和音视频数据超低延传输，即使在复杂弱网环境下也能保持低延时、高质量的通信能力。同时，火山引擎 RTC 结合云端语音识别流式处理，优化端到端链路延迟，整体响应延时可低至1s。此外，火山引擎实时信令 RTS 可提供稳定可靠、低延时、高并发的信令收发能力，可对文字信令高效传输。

不受限于 AI 服务部署区域，用户无论身处何地，是语音交流还是文字对话，都可以享受无延迟、流畅的 AI 交互体验。

产品融合，高效架构

在方案中，客户端提供音频帧级别的语音活动性检测（VAD），可以精准检测出音频信号中何时有人正在说话，何时是静默状态。帮助整体语音系统更有效地处理语音输入，更准确地识别和理解用户的指令或话语，减少误识别。同时，避免对无意义的背景声进行处理，从而节省计算资源，提高系统的整体效率。

当前人工智能领域创新和突破正以前所未有的速度发生，几乎“每周”都有新的进展。AIGC 交互形态和规模也在快速发展中，如从文字到语音再到视频等多模态，从1对1到多人多 Agent 互动。火山引擎大模型多模态实时交互服务在支持实时语音基础上，也支持拓展多模态视频对话和多人群聊等场景，帮助开发者能够快速迭代和创新，不断推出新的应用场景和玩法。

灵活、多样化的接入方案

对于追求快速部署 AI 实时语音功能的企业来说，火山引擎提供的一站式解决方案，让企业能够专注于打造核心功能和创新，而不必深陷底层技术的细节。此外，火山引擎也提供多样化的接入方案，以满足不同企业在开发应用时的具体需求。以下是另外两种接入方案：

自集成方案：企业可以利用火山引擎 RTC 的音视频采集处理能力、云端媒体服务和音视频数据传输技术，结合 ASR、LLM 以及 TTS 等技术构建一个完整大模型语音处理流程，实现更自主、灵活的架构设计。

WebRTC 传输网络（WTN）方案：对于在客户端拥有自主研发音视频技术的企业，火山引擎提供了基于 WebRTC 标准协议构建的传输网络（WTN）。通过接入 WTN，企业能够轻松获得全球范围内的超低延迟、稳定可靠的实时音视频传输服务，提升端到端多模态大模型的响应效率。

通过这些方案，企业可以根据自己的技术栈和业务场景，选择最合适的接入方式，实现高质量的 AI 实时语音场景。

火山引擎方案不仅与业内头部大模型合作打造端到端多模态大模型，在 AI 原生应用上，也已为国内 Top AI 虚拟人物聊天应用提供鲜活逼真的 AI 实时语音能力，给用户带来了全新的互动体验。火山引擎将持续以高质量音视频能力、灵活的技术方案和出色的 AI 能力，助力广大企业在 AI 实时音视频领域实现创新，激发业务增长潜能。