MaLa-ASR: Multimedia-Assisted LLM-Based ASR - 文章 - 开发者社区

Abstract

随着视频等信息丰富的数据越来越多，利用多模态辅助信息增强音频任务已经引起了广泛的研究兴趣。最近对基于LLM的音频模型的研究激增，为解决音频任务提供了新的视角。鉴于 LLM可以灵活地摄取多个输入 ，我们提出了基于LLM的ASR模型 MaLa-ASR ， 该模型可以整合从演示幻灯片中提取的文本关键字，以提高会议内容的识别能力 。MaLa-ASR在SlideSpeech语料的L95和S95子集上的平均WER分别为9.4%和11.7%，与SlideSpeech中报道的基线模型相比，相对WER显著下降了27.9%和44.7%。 MaLa-ASR强调了LLM在语音任务中的强大性能和方便地集成辅助信息的能力 。通过在输入提示符中添加关键词，偏词错误率(B-WER)相对降低了46.0%和44.2%，在该数据集上建立了新的SOTA。

Introduction

目前，各种形式的大量数据都可以在网上获得。涉及多模态信息的任务已被广泛研究，例如利用视频中的视觉和文本信息来辅助自动语音识别(ASR)。传统的多模态语音识别模型使用专用的编码器从每个模态中提取特征，并复杂地设计复杂的架构，以有效地将其他模态的特征与音频特征结合起来[1,2,3,4]。基于大语言模型(LLM)的语音识别模型[5,6,7,8,9,10,11]的最新趋势为处理这一任务提供了新的视角。

从广泛的训练数据中获得的大型语言模型的深刻理解、生成和泛化能力已经在广泛的基于文本的任务中产生了突破性的性能。最近的研究发现，大型语言模型具有超越文本形态的能力;他们可以理解其他形式的信息，如图像和音频。SALMONN[12]和Qwen-Audio[13]等模型是通用的基于llm的音频模型，能够处理多种音频类型，包括语音、声音和音乐，并擅长语音识别、情感识别和音乐字幕等各种音频任务。

采用具有大型语言模型的音频模型作为解码器的传统方法 首先是利用编码器从音频输入中提取特征 。然后 通过适配器将这些特征转换为大型语言模型的文本标记空间 ，适配器通常使用线性投影仪或Q-former[14]。随后， 经过处理的音频嵌入与为特定任务量身定制的文本指令提示连接起来，并一起馈送到大型语言模型中 。最后， 大型语言模型自动回归生成所需的目标文本输出 。

大型语言模型的输入数据可以是高度灵活和定制的，前提是输入与LLM的文本标记空间兼容 。此外，当前强大的大型语言模型通常 可以容纳长度为数千个标记的大量输入序列 。因此，基于llm的音频模型本质上非常适合集成多模态辅助信息和上下文信息，以帮助完成音频任务。

本文提出了一种基于llm的语音模型MaLa-ASR，该模型利用多模态信息来增强ASR任务。一个合适的数据集是SlideSpeech[15]，我们 将从演示期间使用的幻灯片中提取的关键文本信息放入提示符中，以帮助LLM解码器识别 命名实体和 发音不明显的单词 。MaLa-ASR分别在L95( 473 小时)和S95( 161 小时)数据集上训练，平均WER分别为9.4%和11.7%，与SlideSpeech的上下文ASR基线相比，相对WER显著降低了27.9%和44.7%。这也印证了基于LLM的语音模型架构在语音任务中的优异表现。通过整合关键字信息，MaLa-ASR的平均WER为9.0%和11.2%，相对于没有关键字的模型，相对WER降低了3.6%和4.1%，B-WER显著降低了46.0%和44.2%。此外，我们研究了将历史长期上下文信息纳入提示以增强语音识别任务;有趣的是，这种直接的方法并没有产生显著的收益，这需要进一步的探索。

Related works

人类往往通过对多模态信息的处理来达到更准确的理解和判断。多模态信息可以相互补充，消除歧义，增强理解[16,17]。最近的研究[18,19,20,21,22]越来越多地致力于利用来自其他模式的信息来增强音频任务，其中视听语音识别是这些研究的主要焦点。一系列的研究集中在 利用嘴唇运动来辅助语音识别，这可以显著提高准确性，特别是在有大量背景噪音的环境中 。AV-HuBERT[19]和RAVEn[20]等模型在这一任务上表现优异。它们通常使用专用的音频和视觉编码器分别从音频波形和裁剪的唇形图像中提取特征。然后将这些特征以各种方式融合到一个组合解码器中，包括一个投影层和一个Transformer解码器，用于混合CTC/注意力[23]训练。LRS3[24]和LRS2[25]数据集是该任务通常使用的基准，并辅以VoxCeleb2[26]和AVSpeech[27]等数据集进行self-supervised预训练，这些数据集主要以面部区域为中心的视频片段为特征。

另一系列研究主要利用从视频和图像中提取的文本信息。SlideSpeech在在线会议视频上构建了一个大规模的AVSR数据集，主要由幻灯片演示组成。类似地，SlideAVSR[28]使用科学论文解释视频构建数据集。这些幻灯片旨在促进理解，不仅总结了与讨论内容相关的关键信息，还包括技术术语和命名实体。这两项工作都是捕捉每个视频片段的中间帧图像，并将它们输入文本检测(TD)和光学字符识别(OCR)模块，以提取幻灯片中的文本。SlideSpeech利用上下文ASR基线模型，该模型由一个交叉注意模块组成，该模块允许语音嵌入从上下文短语嵌入中集成有用的信息。SlideAVSR将识别的文本作为提示发送到Whisper large-v3模型[29]进行微调和推理。LCB-NET[30]提出了一种创新的长上下文偏向网络，用于在视频中利用长上下文信息。另一项相关工作[31]利用了来自Instagram和Facebook上公开视频的内部数据集。他们将包含主题和命名实体信息的视频标题和描述集成为补充的外部上下文，以提高语音识别。具体来说，他们将文本上下文集成到提示符中，并将其与音频标记一起传递到使用LoRA[33]适配器进行微调的7b参数LLaMA[32]语言模型中，然后生成可识别的口语文本。

Proposed MaLa-ASR

非常适合离线处理，可以结合多模态做语音相关任务（如语义完整性判定），结构简单。如果要做流式，需要Speech Encoder支持流式建模，同时Prmopt和speech的位置需要对掉下，因为流式时语音是一点儿一点儿累积的。

picture.image 在本节中，我们将详细介绍拟议的MaLa-ASR，这是一种基于多媒体辅助LLM的ASR模型。如图1所示，整个模型架构由三个部分组成，一个语音编码器、一个线性投影仪和一个大型语言模型解码器。我们使用官方的 WavLM [34] Large 模型作为我们的语音编码器，该模型在包括LibriLight [35]， GigaSpeech[36]和VoxPopuli[37]在内的 94,000 小时数据上进行预训练。WavLM是一个功能强大的基于语音的SSL模型，擅长全栈down-stream语音任务，通常用于提取语音特征。我们使用公共 Vicuna 7B [38]作为我们的大型语言模型解码器。Vicuna通过使用从ShareGPT收集的对话进行监督指令微调，从LLaMA基础模型进行微调。 为了将语音特征空间与LLM文本令牌空间对齐，适配器是必要的 。受SLAM-ASR[9]的启发，我们使用了一个结构简单的线性投影仪，由 一个1维卷积层和两个线性层组成，卷积层将50Hz(20ms)提取的语音特征采样到10Hz(100ms)，中间隐含层维数为2048 。

训练过程如下: WavLM编码器接受以16kHz采样的输入语音，输出维度为1024的50Hz(20ms)特征序列 。然后 对特征序列进行下采样和投影，得到扩展维度为4096的10Hz(100ms)语音嵌入 。包含任务指令和辅助信息的提示通过tokenization和编码进行处理，以生成提示文本嵌入。 将语音和提示文本嵌入连接起来形成统一的表示，然后将其输入LLM并进行解码以产生目标文本自回归 。我们 只训练lightweight projector ，并冻结模型的其余部分。我们 只计算目标假设和转录本之间的交叉熵损失 ，这是训练基于llm的语音模型的常见做法。

Experiments

Experimental Setup

Dataset

我们使用slidespespeech[15]语料库作为我们的数据集。SlideSpeech语料库是一个大规模的视听数据集，由YouTube上的在线会议视频生成，其中包含高质量的转录语音和同步幻灯片。除了 720p 格式的视频和 16kHz 采样的音频外，语料库还提供了预处理的 OCR 结果，并为 每个片段提取相应幻灯片的关键字 ，丰富了数据集的实用性。

SlideSpeech有两个不同大小的训练数据集。大型训练数据集(L95)包含473小时的音频，而小型训练数据集(S95)包含161小时的音频，从大型训练数据集中采样。开发集和测试集分别包含5.07和8.75小时的音频。

Training

训练数据样本的格式为“ USER: ASSISTANT: ”。

为对齐后的语音嵌入，其 维数与LLM相同，为4096 。

为了引导LLM利用相关幻灯片的关键字，我们将设计为“Transcribe speech to text. Use keywords in PPT to improve speech recognition accuracy. But if the keywords are irrelevant, just ignore them. The keywords are {}”，并用相应的关键字填充。当没有关键字时，提示被简化为“Transcribe speech to text”。

指的是演讲的ground-truth 转录。

在训练过程中，只训练了 lightweight projector ( 15.7M )，而语音编码器( 315.5M )和LLM ( 6.7B )被冻结。 LM损失仅在上计算 。该模型训练了11万步。在前1k步中，学习率从0线性增加到5e-5的峰值速率，然后在剩余的训练时间内线性衰减到零。我们使用AdamW[39]优化器，其参数为:

=(0.9,0.999)，权重衰减为零。我们在4个80GB的A800 gpu上进行实验，并将批处理大小设置为6。对于使用LoRA适配器的实验，我们在每个self-attention模块的key、query、value和output投影层中添加了LoRA模块。我们将rank设为32, alpha设为32, dropout设为0.05，这样LLM的可训练参数就增加了33.6M。

Inference

测试数据样本的格式为“ USER: ASSISTANT:”。

有了前面的输入，LLM将自回归地生成转录。我们使用波束搜索算法，并将波束大小设置为4进行解码。

Experimental Results

Results

表1给出了MaLa-ASR在SlideSpeech数据集上的性能。接下来[15]，我们使用WER、偏词错误率(B-WER)、无偏词错误率(U-WER)和关键词列表中单词的召回率来评估性能。B-WER仅对关键字列表中的单词进行计算，而U-WER对不在关键字列表中的单词进行计算。召回率是正确识别的单词出现在关键字列表和ground truth转录中的比例。 picture.image 我们的MaLa-ASR基线模型分别在L95和S95数据集上进行了训练，实现了9.4%和11.7%的平均WER，与SlideSpeech中提出的上下文ASR基线模型相比，平均相对降低了27.9%和44.7%。加入补充关键词信息后，MaLa-ASR在L95和S95上的平均wer分别为9.0%和11.2%。与没有关键词的模型相比，WER相对降低了3.6%和4.1%。

整合关键字信息后，MaLa-ASR的B-WER在L95和S95上分别从10.8%和14.9%显著降低到5.8%和8.3%。召回率从89.4%提高到94.4%，从85.3%提高到92.0%。总体而言，B-WER大幅下降，召回量明显增加，而U-WER基本保持不变。这是 模型从提示中有效利用与语音内容相关的关键字信息的直观证明 。我们的模型不仅在B-WER和Recall方面比现有的热词模型有更大的改进，而且结构也更简单。SlideSpeech基线模型采用了一个由双向LSTM、基于多头交叉注意的偏向层和CPP网络组成的上下文编码器来整合关键词。相反，我们 只需要在提示符中添加文本关键字 。

为了进一步提高模型性能，我们使用LoRA适配器对LLM进行了微调。使用LoRA适配器，在L95上训练的MaLa-ASR实现了8.7%的平均WER，与原始MaLa-ASR相比，WER平均相对降低了6.9%。利用关键字信息，WER可以进一步降低到8.4%。

表2提供了MaLa-ASR使用关键字纠正识别结果的具体示例，特别是命名实体、专有名词和发音不清楚的单词。 picture.image

Analysis

为了更深入地了解模型如何利用关键字，我们特别计算了有多少关键字在修正预测中发挥了作用。如表3所示，大约88.8%的关键字是容易识别的常用词。MaLa-ASR能够正确识别它们，而不管它们是否出现在提示符中，这就解释了关键词信息带来的平均相对WER降低了3.9%，这一幅度看似不大。剩余关键字中有53.3%成功帮助模型在评价集上正确识别，证明了所提方法的有效性。

picture.image

在这里插入图片描述

考虑到真实测试数据中可能缺乏辅助信息，我们在表4中的消融实验显示，使用关键字训练但不使用关键字推断的模型S3的WER结果与在训练和推理阶段都不使用关键字的模型S1相当。这证明了模型的稳健性，并表明它在现实生活中关键字不可用的情况下的实用性。模型S4的结果表明，如果模型没有被训练来利用关键字信息，那么它就不能有效地利用基于提示的关键字。

picture.image

在这里插入图片描述

都加是最好的，都不加其次，其它次之。训练、预测匹配才是最好的。

Exploration of Utilizing Prior Context

常见的ASR模型[40]是在话语层面进行训练和评估的，然而，在会话和演示等实际场景中，语音通常以长内容形式呈现。由于语境的内容和逻辑往往紧密相连，某些词语可能会被再次提及，因此许多研究试图整合历史语境信息，以更好地解码当前句子。例如，[41,42,43]研究了在传感器架构中集成历史上下文信息，[44,45]在AED架构中建模长上下文场景。

由于MaLa-ASR可以很容易地输入辅助信息，我们还探索了在提示符中加入历史上下文信息，以更好地帮助LLM解码当前语音。具体来说，我们从当前文本之前的几个句子中截取一定长度的转录文本，并将其填充到以下提示模板中:“Using previous context:{}, improve speech recognition for this audio. Apply relevant details from the previous context.”如表5所示，无论是否进行LoRA微调，历史上下文都不会带来显著的增益，因为WER与基线大致相同。我们设计了各种提示，并对不同的上下文长度进行了实验，但有趣的是，这种方法并没有产生实质性的性能改进。我们假设某些关键词与语音内容紧密直接相关，而前面的信息主要与当前句子的背景、主题和领域一致。因此，采用相同的方法来利用先前的信息被证明是无效的。基于LLM的ASR模型如何利用历史背景仍然是一个值得进一步探索的有趣问题。 picture.image

Conclusion

在这项工作中，我们努力利用多模态辅助信息来改进基于llm的语音模型架构的ASR任务。我们的实验表明，基于llm的语音模型表现良好，显示了其在语音任务中的巨大潜力。此外，它可以毫不费力地嵌入辅助信息，并有效地利用它来增强语音识别，远远超过基线模型，并在SlideSpeech数据集上建立新的SOTA。此外，我们将历史长期背景直接纳入提示的方法并不有效，需要进一步研究。我们的方法有一定的局限性。具有大量参数的大型语言模型需要大量的内存占用，而自回归解码方法导致解码速度降低。在未来，我们将继续探索利用关键字和其他方法来有效利用幻灯片的改进方法。我们也对使用视觉编码器从幻灯片中提取特征感兴趣，旨在捕获图像和文本中包含的有用结构信息，以辅助语音识别。

参考文献

https://arxiv.org/html/2406.05839v2