Introduction
典型的SSL方法要么区分相关的正样本和负样本(例如wav2vec 2.0),要么预测屏蔽区域上的离散伪标签(例如HuBERT/WavLM)。这两种方法都试图从大量的语音信息中隐式学习短时 phonetic 信息, 主要针对自动语音识别任务(SSL4ASR)的自监督学习。
在这项工作中,我们的目标是了解导致SSL4ASR在说话人识别中成功的因素。具体来说,我们试图回答以下问题:
- Can supervised ASR model benefit the SV task?
- How does SSL benefit the SV task?
- What is the best SSL setup for the SV task?
主要的发现有以下三点。
首先,在 apple-to-apple 的比较中,SSL4ASR模型比监督ASR模型具有更好的可转移性,这表明 SSL目标函数是实现优秀可转移性的关键因素 。
其次, HuBERT风格损失,掩码语音预测,略好于其他SSL损失 ,如对比学习和均方误差(MSE)损失。 而 如何生成伪标签对HuBERT风格模型的性能影响较小 。即使在原始输入上使用简单的聚类方法进行预训练,也可以在SV任务上提供良好的性能。在 WavLM中提出的数据增强是非常有用的 ,即使预训练数据扩展到94k小时。此外, 数据规模和模型规模对模型可转移性有很强的相关性 。
第三,我们的分析表明, SSL模型在预训练阶段只学习浅层次的说话人相关知识,而微调阶段可以释放模型的全部能力 。我们观察到SSL模型可以提供更广泛的优化,从而具有更好的抗小扰动能力,更强的泛化能力和更容易的SV模型优化。
Background
Why does SSL4ASR Benefit the SV task?
Can supervised ASR model benefit the SV task?
表1显示,SSL4ASR模型可以提供比手工制作的FBank特征更好的表示,而带有CTC损失的ASR模型和随机初始化的Transformer模型的表示不如FBank特征。这表明, SSL4ASR在SV任务上成功的关键 既不是Transformer结构,也不是微调管道,而 是自监督学习过程
What is the best SSL objective for the SV task?
表2表明,所有三种SSL方法都可以提供比FBank特性更好的表示,这归因于从屏蔽语音中学习上下文语音表示。HuBERT取得了最好的性能,表明伪标签预测损失比对比损失和MSE损失具有更好的泛化和有效性。
What is the best SSL quantizer for the SV task?
表3显示, 所有量化器在说话人验证任务上具有相似的性能 。即使我们使用phone序列作为与说话人信息无关的伪标签,我们仍然可以使用屏蔽伪标签预测SSL方法获得性能良好的说话人验证模型。
we explore the performance of different pseudo-label creation methods ( quantizers ) for HuBERT loss.
Besides the MFCC Clustering and Hidden State Clustering introduced by HuBERT, we also experiment with the labels obtained by Random Projection , VQ-VAE quantizers , and frame-phoneme alignment .