Why does SSL for Speech Recognition Benefit Speaker Recognition? - 文章 - 开发者社区

Introduction

典型的SSL方法要么区分相关的正样本和负样本(例如wav2vec 2.0)，要么预测屏蔽区域上的离散伪标签(例如HuBERT/WavLM)。这两种方法都试图从大量的语音信息中隐式学习短时 phonetic 信息, 主要针对自动语音识别任务(SSL4ASR)的自监督学习。

在这项工作中，我们的目标是了解导致SSL4ASR在说话人识别中成功的因素。具体来说，我们试图回答以下问题:

Can supervised ASR model benefit the SV task?
How does SSL benefit the SV task?
What is the best SSL setup for the SV task?

主要的发现有以下三点。

首先，在 apple-to-apple 的比较中，SSL4ASR模型比监督ASR模型具有更好的可转移性，这表明 SSL目标函数是实现优秀可转移性的关键因素 。

其次， HuBERT风格损失，掩码语音预测，略好于其他SSL损失 ，如对比学习和均方误差(MSE)损失。而 如何生成伪标签对HuBERT风格模型的性能影响较小 。即使在原始输入上使用简单的聚类方法进行预训练，也可以在SV任务上提供良好的性能。在 WavLM中提出的数据增强是非常有用的 ，即使预训练数据扩展到94k小时。此外， 数据规模和模型规模对模型可转移性有很强的相关性 。

第三，我们的分析表明， SSL模型在预训练阶段只学习浅层次的说话人相关知识，而微调阶段可以释放模型的全部能力 。我们观察到SSL模型可以提供更广泛的优化，从而具有更好的抗小扰动能力，更强的泛化能力和更容易的SV模型优化。

Background

picture.image

Why does SSL4ASR Benefit the SV task?

Can supervised ASR model benefit the SV task?

picture.image

表1显示，SSL4ASR模型可以提供比手工制作的FBank特征更好的表示，而带有CTC损失的ASR模型和随机初始化的Transformer模型的表示不如FBank特征。这表明， SSL4ASR在SV任务上成功的关键 既不是Transformer结构，也不是微调管道，而 是自监督学习过程

What is the best SSL objective for the SV task?

picture.image

表2表明，所有三种SSL方法都可以提供比FBank特性更好的表示，这归因于从屏蔽语音中学习上下文语音表示。HuBERT取得了最好的性能，表明伪标签预测损失比对比损失和MSE损失具有更好的泛化和有效性。

What is the best SSL quantizer for the SV task?

picture.image

表3显示， 所有量化器在说话人验证任务上具有相似的性能 。即使我们使用phone序列作为与说话人信息无关的伪标签，我们仍然可以使用屏蔽伪标签预测SSL方法获得性能良好的说话人验证模型。

we explore the performance of different pseudo-label creation methods ( quantizers ) for HuBERT loss.

Besides the MFCC Clustering and Hidden State Clustering introduced by HuBERT, we also experiment with the labels obtained by Random Projection , VQ-VAE quantizers , and frame-phoneme alignment .