Why does SSL for Speech Recognition Benefit Speaker Recognition?

技术

Introduction

典型的SSL方法要么区分相关的正样本和负样本(例如wav2vec 2.0),要么预测屏蔽区域上的离散伪标签(例如HuBERT/WavLM)。这两种方法都试图从大量的语音信息中隐式学习短时 phonetic 信息, 主要针对自动语音识别任务(SSL4ASR)的自监督学习。

在这项工作中,我们的目标是了解导致SSL4ASR在说话人识别中成功的因素。具体来说,我们试图回答以下问题:

  1. Can supervised ASR model benefit the SV task?
  2. How does SSL benefit the SV task?
  3. What is the best SSL setup for the SV task?

主要的发现有以下三点。

首先,在 apple-to-apple 的比较中,SSL4ASR模型比监督ASR模型具有更好的可转移性,这表明 SSL目标函数是实现优秀可转移性的关键因素

其次, HuBERT风格损失,掩码语音预测,略好于其他SSL损失 ,如对比学习和均方误差(MSE)损失。 而 如何生成伪标签对HuBERT风格模型的性能影响较小 。即使在原始输入上使用简单的聚类方法进行预训练,也可以在SV任务上提供良好的性能。在 WavLM中提出的数据增强是非常有用的 ,即使预训练数据扩展到94k小时。此外, 数据规模和模型规模对模型可转移性有很强的相关性

第三,我们的分析表明, SSL模型在预训练阶段只学习浅层次的说话人相关知识,而微调阶段可以释放模型的全部能力 。我们观察到SSL模型可以提供更广泛的优化,从而具有更好的抗小扰动能力,更强的泛化能力和更容易的SV模型优化。

Background

picture.image

picture.image

Why does SSL4ASR Benefit the SV task?

Can supervised ASR model benefit the SV task?

picture.image

表1显示,SSL4ASR模型可以提供比手工制作的FBank特征更好的表示,而带有CTC损失的ASR模型和随机初始化的Transformer模型的表示不如FBank特征。这表明, SSL4ASR在SV任务上成功的关键 既不是Transformer结构,也不是微调管道,而 是自监督学习过程

What is the best SSL objective for the SV task?

picture.image

表2表明,所有三种SSL方法都可以提供比FBank特性更好的表示,这归因于从屏蔽语音中学习上下文语音表示。HuBERT取得了最好的性能,表明伪标签预测损失比对比损失和MSE损失具有更好的泛化和有效性。

What is the best SSL quantizer for the SV task?

picture.image

表3显示, 所有量化器在说话人验证任务上具有相似的性能 。即使我们使用phone序列作为与说话人信息无关的伪标签,我们仍然可以使用屏蔽伪标签预测SSL方法获得性能良好的说话人验证模型。

we explore the performance of different pseudo-label creation methods ( quantizers ) for HuBERT loss.

Besides the MFCC Clustering and Hidden State Clustering introduced by HuBERT, we also experiment with the labels obtained by Random Projection , VQ-VAE quantizers , and frame-phoneme alignment .

Random Projection

picture.image

VQ-VAE quantizers

picture.image

frame-phoneme alignment

picture.image

Large-Scale SSL on SV task

picture.image

picture.image

Contribution Attribution

picture.image

参考文献

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论