备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
语言自我监督预训练可以有效提高下游任务的表现。
然而,以前针对说话的自我监督学习(SSL)方法,如HuBERT和BEST-RQ,都集中在利用非因果编码器,具有双向上下文,并且对下游流式模型支持不足。为了解决这个问题,作者提出了基于随机投影量化器(NEST-RQ)的下一标记预测的说话预训练方法。NEST-RQ使用仅具有左侧上下文的有因果编码器,并将下一标记预测(NTP)作为训练任务。
在与BEST-RQ的大型数据集上的比较中,与BEST-RQ相比,提出的NEST-RQ在非流式自动语音识别(ASR)上达到可比的性能,并在流式ASR上实现更好的性能。
作者还分析了下一流式ASR的未来上下文大小,SSL的词表质量和编码器的模型大小等方面的实验。
总的来说,本文证明了NTP在说话自我监督学习和流式自动语音识别中是可行的,并提供了关于说话自我监督学习研究的实证证据和见解。
I Introduction
近年来,在语音自我监督学习(SSL)技术领域取得了巨大的进步,受到学术和产业界的广泛关注。通过从大量的未标注语音数据中挖掘信息,语音 SSL 可以为下游语音任务提供强大的表示或表示模型[8]。 SSL 正在将下游任务的性能推向新的高峰。例如,语音 SSL 已促使许多 ASR 模型在各种基准测试上实现最先进(SOTA)的性能 [9, 10]。这些研究证明了语音 SSL 在语音应用中的巨大潜力。
然而,大多数流行的 SSL 方法,如 Wav2vec 2.0 [3],HuBERT [5],Data2vec [6],专注于探索关注双向上下文的非因果编码器,而忽略了下游流式任务。将非因果编码器应用于流式模型不仅需要修改编码器 [11, 12] 和训练策略 [13, 14, 15, 16],而且可能产生次优的性能。因此,直接将流行 SSL 方法适配到下游流式任务是不容易的。另外,关于特定于下游任务的自监督学习(SSL)研究数量有限[17, 12]。
尽管 BEST-RQ [17] 探索了语音自监督预训练对于流式 ASR 模型的作用,但其中的一些结论仍然模糊,需要进一步研究,因为采用了不同的设置来处理流式和非流式 ASR 任务。在可以适应流式任务的 SSL 方法中,CPC [1] 和 APC [2] 使用因果编码器作为基础,并分别采用对比预测编码和自回归预测编码作为预训练目标。然而,这些方法尚未在目前的流行端到端 ASR 模型上进行评估,与当前流行的 SSL 方法在结构和性能上存在差距。
在本文中,作者提出了一个名为 NExt 标记预测基于 Speech 预训练 with R andom-projection Q uantizer (NEST-RQ ) 的语音 SSL 新方法,该方法将下一标记预测(NTP)作为预训练目标。目前,依赖 NTP 进行 SSL 的大型语言模型(LLM)已取得了成功,并广泛应用于许多领域 。
然而,由于语音的连续性,将 NTP 应用于语音 SSL 具有挑战性。借助随机投影量化器(RQ) [17],作者可以将语音转换为标记序列。因此,作者可以将 NTP 任务引入语音 SSL 中,并进一步优化以适应语音的特性。
本文验证了 NTP 在语音 SSL 中的可行性,并为音频和文本的联合自回归建模带来了更多灵感和启示。作者的贡献如下:
- 作者提出了一个名为 NEXT-RQ 的语音 SSL 新方法。首先,NEXT-RQ 的编码器设为因果结构。然后,RQ 将连续的语音特征转换为标记序列。最后,因果编码器使用连续语音特征作为输入,并以每个帧的编码器输出为多个连续帧的标记进行预测。
- 在一个涵盖了 30 万小时未标注语音和 3000 小时标注语音的大规模数据集上,证明了 NEXT-RQ 的有效性。在非流式 ASR 任务上,NEXT-RQ 与 BEST-RQ 达到可比性能;在流式 ASR 任务上,NEXT-RQ 超越了 BEST-RQ。NEXT-RQ 继承了 BEST-RQ 的简单性,同时保持了性能;
- 作者导出了针对 NEXT-RQ 在 SSL 中的代码书质量、 SSL 中的编码器尺寸和流式 ASR 中的未来语境的性能分析实验。实验表明,NEXT-RQ 在流式 ASR 不同设置下表现出一致的改进。
II Methodology
Preliminaries
随着人工智能(AI)技术的迅速发展,特别是在深度学习和计算机视觉领域的突破性进展,图像识别已成为人工智能研究的核心问题之一。本文旨在提出一种基于深度学习的图像识别方法。
作者的方法首先通过卷积神经网络(CNN)处理输入图像,然后利用条件生成对抗网络(GAN)生成更具鉴别性、准确性和多样性的假标签,从而提高识别性能。
此外,作者还提出了一种新颖的GAN结构,该结构旨在更好地融合正负样本,从而提高GAN模型的泛化能力和稳定性。本文所提出的方法在多个数据集上进行了实验,结果表明,与现有方法相比,作者的方法能够取得更高的准确率和稳定性。
Ii-A1 SSL Method
最佳-RQ是一种有效的语音文本到语音(Text-to-Speech, TTS)翻译方法。具体来说,该方法将语音特征中的某些部分进行了 Mask ,并将输入语音特征送入语音编码器。编码器通过学习预测被 Mask 的语音特征,这些学习目标由随机投影量化器(Random-Projection Quantizer, RQ)生成。随机投影量化器用随机的初始矩阵映射语音特征,在随机初始化的词表中找到最近的向量,并将该向量的索引用作目标标记。
在训练过程中,投影矩阵和词表保持固定。得益于简单的量化器设计和被广泛认可的 Mask 预测任务,最佳-RQ在文本到语音翻译方法中表现出独特优势。然而,最佳-RQ依赖于双向上下文来预测被 Mask 片段的标记,这使得它难以适应下游的流式模型。
Ii-A2 Downstream ASR Model
在本研究中,作者使用了因子化神经传输器(FNT)[25, 26]在下游ASR任务中。通过控制编码器的因果性,FNT可以执行流式和非流式ASR。如图1所示,FNT包括一个语音编码器、联合网络和词汇预测器和空格预测器。FNT分别预测空格标记和词汇标记,这样,词汇预测器就可以作为一个语言模型(LM)。因此,受研究[22, 27, 10, 28]将预训练的LLM应用于端到端ASR模型启发,作者直接使用一个预训练的LLM来初始化词汇预测器及其全连接层(FC)进行投影,并在训练过程中将它们冻结。
编码器的输出序列通过一个卷积层下采样为2倍,然后用于生成连接主义时序分类(CTC)[29]的logits。
Nest-Rq
作者提出了一个新的语音端到端学习方法NEST-RQ。NEST-RQ使用只能关注当前帧和过去帧的因果编码器,并将其作为预训练任务。因果编码器和NTP任务使得NEST-RQ更容易与下游流形模型相容。
NEST-RQ的训练任务在图2中得到说明。
Encoder Adaptation from SSL to ASR
在过去的SSL研究中,通常使用非因果编码器作为基础。 "非因果的"意味着编码器使用过去和未来的上下文,而 "因果的"则意味着编码器只能使用过去上下文。对于语音识别任务,非因果编码器适用于非流式模型,而因果编码器适用于流式模型。在本节中,作者专注于将预训练的因果或非因果编码器适应于流式和非流式ASR。
在本工作中,编码器的基本组成部分是共形块[30],它包括两个模块:注意模块和深度卷积模块,这两个模块会影响编码器的因果性。作者用NC-A表示关注当前帧,所有过去帧和所有未来帧的非因果注意模块,用C-A表示仅关注当前和过去帧的因果注意模块。同样,用NC-C表示覆盖过去、当前和未来帧的非因果卷积,用C-C表示仅覆盖当前和过去帧的因果卷积。
通过控制注意力 Mask ,作者可以轻松地在NC-A和C-A之间切换。然而,调整卷积的因果性则更为复杂。在这里,作者需要考虑两种情况:
1)将预训练编码器的NC-C转换为ASR编码器的C-C,作者需要移除卷积核的右侧参数。例如,如果原始NC-C的核大小为,那么相应C-C的核大小将为。
2)将预训练编码器的C-C转换为ASR编码器的NC-C,右边参数大小为的卷积核将用Xavier均匀分布的初始参数扩充,最终变成大小的核。
III Experimental Settings
Data
编码器的自监督度量(SIL)使用了300,000小时的内部未标注语音数据。ASR模型的监督细调(SFT)使用了30,000小时的内部ASR数据,而ASR测试集覆盖了五个子集。所有数据都涵盖了多种具有挑战性的场景,包括视频、直播等。所有输入语音特征都是80维的对数梅尔滤波器系数,每个帧的步长为10ms。用于ASR评价的度量是字符错误率(CER)。
Model
作者使用了不同大小的编码器:0.1亿,0.3亿,0.6亿。0.1亿和0.6亿编码器几乎具有与[31]中的结构相同的非因果卷积核大小。0.3亿编码器和0.6亿编码器具有相同的环境,但具有的一半一致性块数量。在这三个编码器中,0.3亿是默认的选择。对于非流式ASR,注意力模块是NC-A,卷积是NC-C。
对于 streaming ASR,底部块的注意力关注当前帧,过去的帧和1个未来的帧,而其他块中的注意力严格遵循因果性,卷积是C-C。控制着streaming ASR中的未来上下文大小,并且在默认情况下,M 设置为3。
FNT中使用的用于FNT的字符语言模型(LLM)是一种自有的具有超过10亿参数的内部LLM。
Training and Inference
Iii-C1 Ssl
作者进行了大约2个epoch的训练,batch size为1.5小时。作者使用了Transformer学习率调度器,有8k步的warm-up和峰值LR 3e-4。对于NEST-RQ,作者在multi-token预测中的N 设置为5。对于BEST-RQ,作者设置mask长度为400ms,mask比例p为0.012。RQ中的代码簿词汇量为1024,矢量维度为16。
Iii-C2 Sft
在自监督学习(Static Semantic Analysis,SSA)阶段,预训练的编码器被用于初始化下游语音识别模型中的语音编码器。在训练过程中,作者将语言模型(LLM)冻结并更新ASR模型中的其他模块。作者设置为1.0。
作者用批处理大小为1.5小时的模型训练了ASR模型3个周期。作者采用线性学习率调度器,其学习率在6k步之前增加到1e-4,之后逐渐衰减。 SpecAugment [32] 中的频谱 Mask 和时间 Mask 也得到了应用。在推理阶段,作者将束搜索的束大小设置为10。
IV Experimental Results
Results on the Large-Scale Dataset
表1显示,作者对大规模数据集的主要实验在0.3B编码器上进行。在非流式ASR中,BEST-RQ和NEST-RQ表现相当,而在流式ASR中,NEST-RQ超越了BEST-RQ。此外,与BEST-RQ(C-A,NC-C和C-A,C-C)中用于流式模型的预训练方法相比,NEST-RQ仍显示出进一步的改进。
NEST-RQ比BEST-RQ有几个优势: 1) 在训练期间,NEST-RQ比BEST-RQ更有效率,因为BEST-RQ仅在掩盖的段落上进行预测;2) NEST-RQ由于使用因果编码器,可以更好地适应 streaming 任务。最后但并非最不重要的是,NEST-RQ继承了BEST-RQ的简单性。在后续实验中,除非特别指明,BEST-RQ都配备了NC-A和NC-C。
此外,作者在表2中研究了NEST-RQ中预测标记数的影响。作者使用中的值来探索多标记预测的最佳N值。当N设置为5时,模型达到最佳性能。由于语音信号的平滑性,在短期内的相邻语音帧相似。
因此,当N太小(N=1)时,SSL训练任务趋于简单,模型难以学习有意义且高质量的表示。作者在所有其他NEST-RQ实验中都将N设置为5。
Analytical Results in Different Settings
Iv-B1 Analysis with Different Codebooks
作者进行了使用不同代码本的分析实验。随机投影量化的缩写形式仍为 RQ。此外,作者引入了两个高质量的代码本量化的额外量化器Q1和Q2。具体而言,Q1的代码本是通过将一个非因果编码器的35,000小时无标签语音的输出来进行聚类,聚类到1024个质心。
Q2的代码本是通过将另一个非因果编码器75,000小时无标签语音的输出进行聚类,聚类到32768个质心。如表3所示,在更强的代码本助力下,无论是BEST还是NEST都可以获得进一步的改善,验证了使用不同代码本的NEST方法的可扩展性。
然而,作者发现NEST在非流式ASR任务上(No Streaming Automatic Speech Recognition)的表现比BEST差。作者猜想这是因为衍生自用BEST-RQ训练的非因果编码器生成的高质量代码本,与BEST更为兼容。
Iv-B2 Analysis with Different Encoder Sizes
实验扩展到不同的编码器大小。作者探索了第III节中提到的三种模型大小。从表4中,作者可以观察到:
- BEST-RQ和NEST-RQ在流式和非流式模型上的性能随着编码器大小的增加而逐渐提高;
2)与BEST-RQ相比,NEST-RQ在流式ASR上始终带来相对误差率降低5%至7%,并在不同的编码器大小之间保持可比较的非流式性能。
Iv-B3 Analysis with Different Future Context Sizes
在流式ASR中,默认情况下,最低3个 conformer 块分别关注过去的帧、当前的帧和下一个帧。能够关注下一个帧的块数量越多,未来的上下文感受野就越大。因此,通过控制关注下一个帧的 conformer 块数量M,作者可以控制编码器的未来上下文大小。
表5显示了在M取值为{0,1,3,5,7}时的流式ASR性能。在所有设置中,NEST-RQ都显示出更好的性能。当未来上下文大小增加时,模型往往会变得更非流式,导致识别延迟增加,性能提升减少。
V Conclusion
在这篇论文中,作者提出了一种名为NEST-RQ的新颖语音自回归相似度(ASR)方法。NEST-RQ采用因果编码器,将后续位置的标记作为ASR任务进行预测。
因果编码器使得NEST-RQ在离线ASR任务上更适用于下游流式任务。在大型数据集上的实验表明,NEST-RQ在非流式ASR任务上达到了与BEST-RQ相媲美的性能,并在流式ASR任务上超过了BEST-RQ。
未来,作者将探索在更多下游任务上的NEST-RQ性能,并将其转移到语音和文本联合自回归模型中。
参考
[1].NEST-RQ: Next Token Prediction.