多模态大模型系列 | 20：低延迟、零遗忘：语音多模态新范式-Freeze-Omni - 文章 - 开发者社区

简介 ========

语音交互是人机沟通的未来，但现有多模态大语言模型在保持模型原始智能的同时实现低延迟对话一直是一大挑战。Freeze-Omni通过创新的三阶段训练策略，在不微调大语言模型的前提下，实现了高效、智能的端到端语音对话，为多模态LLM研究开辟了新路径。

Q1: 这篇文章想要解决什么问题？

A1: 本文致力于解决大型语言模型(LLM)在语音交互中的两个关键挑战：

如何在不破坏LLM原有智能的情况下实现语音输入输出能力
如何以低延迟、低计算成本的方式实现端到端的语音对话

Q2: 这篇文章如何解决这些问题？

A2: 提出Freeze-Omni方法，其核心创新点包括：

在整个训练过程中保持LLM参数冻结
设计三阶段语音输入和输出建模训练策略
使用分块式流式语音编码器和解码器
引入基于chunk级别的状态预测多任务训练方法

Q3: 文章所提出方法的效果如何？

A3: 实验结果表明：

语音输入ASR性能优秀
语音输出解码错误率低
口语问答准确率接近文本模态
端到端平均延迟控制在约1.2秒
仅使用6万条多轮问答数据和少量语音数据即可实现

Q4: 文章所提方法还有哪些不足？

A4: 主要局限性包括：

目前仅支持单说话人场景
语音编码器仍局限于语音输入
未探索更复杂的多任务训练方法
非统计延迟测量仍需手动进行

方法 ========

Freeze-Omni是一个语音对语音的对话模型，其"智能"特性源于基于"冻结"的文本模态LLM构建。这种设计使其能够保持原有LLM骨干网络的智能性，避免了在整合语音模态过程中由微调导致的遗忘问题。具体而言，Freeze-Omni包含一个支持流式语音输入的语音编码器和一个生成流式输出语音的语音解码器。该系统采用了三个关键策略来实现语音对语音的对话系统：

分块式流式输入：Freeze-Omni的语音编码器支持分块式流式语音特征输入，以实现对输入的快速响应。通过三阶段训练策略来保持强大的声学鲁棒性。
自回归语音输出：Freeze-Omni采用基于单一码本的自回归语音解码器，能够实现低延迟的流式语音输出。通过前缀调优方法，仅需在少量问答数据上训练即可实现高质量的语音合成能力。
分块级状态预测：Freeze-Omni在骨干LLM的最后一层后添加了一个分类层来预测不同状态。这些状态将决定用户是否中断对话，从而实现用户与机器人之间的双工对话。

此外，该模型实现了"模型即服务"策略。首先同时启动多个模型作为服务器。当触发用户的语音活动检测(VAD)时，语音会以分块形式发送到服务器，服务器负责调度决定由哪个空闲模型响应当前分块。由于在推理过程中分离了语音编码器和LLM的所有kv缓存和CNN缓存，服务器只需为每个用户保存推理缓存。这样，服务器中的任何模型都可以响应任何用户的任何分块，无需指定具体哪个模型作为监视器或生成器。

picture.image

模型架构

Freeze-Omni由三个主要组件构成：

分块式流式语音编码器：将语音特征转换为高维表示
基于token的语音解码器：包括NAR预填充和AR生成阶段
冻结的骨干LLM（本文使用Qwen2-7B-Instruct）

训练策略

采用三阶段训练方法：

语音输入建模

第一阶段：使用ASR数据训练语音识别能力
第二阶段：通过适配器连接语音编码器和LLM
第三阶段：使用多轮问答数据微调prompt embedding

语音输出建模

第一阶段：训练单编码簿codec模型
第二阶段：使用文本-语音配对数据训练语音解码器
第三阶段：引入LLM隐藏状态，微调前缀语音解码器

双工对话设计

使用声学VAD模块检测语音起始点
在LLM最后一层添加状态预测分类层
实现"以模型为服务器"的对话调度策略

实验结果 ==========

3.1 数据集和模型配置

使用Qwen2-7B-Instruct作为骨干LLM
语音编码器：4层卷积+24层Transformer
语音解码器：4层Llama解码器
训练数据：约11万小时ASR数据、3000小时TTS数据

3.2 主要评估指标

语音输入：字符错误率(CER)和词错误率(WER)
语音输出：语音合成的ASR准确率
口语问答：多数据集准确率
端到端延迟

3.3 实验结果

ASR性能：在中英文评估集上表现出色
语音输出CER：随着top-k增加，错误率持续下降
口语问答准确率：接近文本模态LLM水平
端到端延迟：平均约1.2秒

总结

Freeze-Omni主要贡献

提出了一种在冻结LLM的情况下实现语音交互的新方法
设计了低计算资源消耗的多模态训练策略
证明了在保持LLM原有智能的同时扩展其语音交互能力

Freeze-Omni为多模态LLM研究提供了新思路，通过冻结LLM参数，巧妙实现了低延迟、低成本的语音交互。未来工作将focus于：

将语音编码器升级为音频编码器
探索更多多任务训练方法
支持多说话人合成和更丰富的语音输出风格

这篇论文为语音-文本多模态LLM研究提供了一个创新且实用的解决方案，具有重要的学术和实践价值。