ABSTRACT
本文提出了一种简单而有效的emision正则化方法TrimTail,以改善流ASR模型的延迟。TrimTail的核心思想是直接对输入语音的频谱图施加长度惩罚(即通过修剪尾帧),而不需要任何对齐。
我们证明TrimTail在计算上很便宜,可以在线应用,并且可以在任何数据集上使用任何训练损失或任何模型架构进行优化,而无需任何额外的努力,通过将其应用于各种端到端流式ASR网络,无论是用CTC损失还是Transducer损失进行训练。
INTRODUCTION
流式ASR模型的目标是尽可能快速准确地发出每个hypothesized单词。然而,用WER测量快速发射而不降低质量是极具挑战性的。现有的改进流延迟的方法严重依赖于损失函数设计和强制对齐。
不幸的是,所有这些方法都绑定到特定的损失函数(Transducer或CTC),因此无法在任何ASR模型上实现无痛苦地减少流延迟的通用解决方案。在这项工作中,我们提出了一种新的针对各种ASR模型的发射正则化方法,我们称之为TrimTail。TrimTail是一种长度惩罚,直接应用于输入语音的频谱图,而不是修改损耗计算。根据经验,我们认为,通过修剪尾帧:
- 语音文本对齐空间将被“压缩”,并迫使后面的标记与前面的语音帧对齐,从而推动前面标记的发射以满足对齐的单调要求,从而显著降低延迟。
- 由于相应的帧在训练过程中被修剪,因此鼓励模型在说之前预测尾随的标记。
在端到端流ASR模型中,TrimTail在减少发射延迟方面比其他正则化方法有很多优点:
- TrimTail不需要任何语音-文本对齐信息。
- TrimTail很容易在任何数据集上插入任何ASR模型(无论是由Transducer还是CTC训练),而无需任何额外的努力。
- 使用TrimTail不需要额外的training、服务或工程成本。相反,可以简单地实现这样的策略,并从长度修剪中获益,从而实现更高效的计算训练。
我们将TrimTail应用于各种端到端流ASR网络和训练损失,并在ahell -1和librisspeech上实现了 100 ~ 200ms的延迟减少 ,精度相同甚至更高。此外,通过使用TrimTail,我们可以实现用户敏感延迟(见3.1节)的400ms算法改进,精度损失小于0.2。
METHODOLOGY
All-in-One U2++
TrimTail
EXPERIMENTS
First Token emission Dealy (FTD)(在本例中为100ms)定义为两个事件的时间戳差异,如图3所示:(1)在流识别结果中发出第一个令牌时,(2)通过强制对齐估计的第一个令牌的时间戳。
Last Token emission Delay (LTD)(在本例中为200ms)被定义为测量最终令牌的发射延迟。
为了分析中间识别结果的发射延迟,我们还报告了Average Token emission Delay (AvgTD)(在本例中为162ms),如下所述:
User Sensitive Delay (USD) (在本例中为600ms), LTD和端点延迟(在本例中为400ms)的结合,用于测量用户结束发言到决定关闭麦克风之间的时间。
Results and Discussions
TrimTail results on Aishell-1 and Librispeech
从ahell-1的结果中,我们发现TrimTail显着减少了100ms(transformer)~ 200ms(conformer,由CTC损耗、transducer损耗或两者同时训练)的最后令牌发射延迟,并且具有相同或更好的WER。