Emo-DPO: 基于直接偏好优化的可控情绪语音合成 - 文章 - 开发者社区

Abstract

目前的情感文本到语音（TTS）模型主要通过监督训练 来学习从文本和期望的情感 到其情感语音 的转换，关注每个文本到语音对的单个情感 。这些模型只学习正确的情绪输出，而没有完全理解其他情绪特征，这限制了它们捕捉不同情绪之间细微差别的能力 。我们提出了一种可控的Emo-DPO方法，该方法采用直接偏好优化，通过对偏好情绪和非偏好情绪的优化来区分情绪之间的细微差别 。我们建议利用情感感知LLM-TTS神经架构来利用llm的上下文学习和指令跟随能力，而不是依赖现有情感TTS模型中使用的传统神经架构。综合实验证明，本文提出的方法优于现有的基线。

INTRODUCTION

人类在不同的情绪下自然会产生不同的语言。情感语音合成旨在通过从文本和期望的情感语气中生成类似人类的语音 来复制这种复杂性，通过机器学习技术取得了重大进展。为了生成真实的情感语音，情感文本到语音（TTS）模型必须考虑到简单文本输入之外的各种因素，例如通过重音、语调、节奏以及人类情感特征 的复杂相互作用来微妙地表达情感。

目前的情感TTS模型主要依赖于传统架构，如LSTM、BLSTM、Tacotron、FastSpeech、VITS、diffusion-based 模型和 flow-matching模型。他们忽视了大型语言模型（llm）的整合，以增强语音合成与llm在质量，自然度和情感表达方面的上下文学习和指令跟随能力。相比之下，llm通过有效地建模speech tokens并在zero-shot场景中实现高质量的合成语音，成功地推进了语音合成。尽管如此，llm在TTS模型中情感渲染的应用仍未得到充分的探索。本文旨在通过研究LLM在增强情感语音合成方面的应用，特别是在捕捉不同情绪之间的细微差别 方面，来解决这一差距。

监督学习主要用于训练现有的情感TTS模型，其中文本与相应的情感语音配对 ，通常每个instance关注一个情感 。这限制了模型对多种情绪的控制，并阻碍了它捕捉情绪之间韵律和语调的细微差异的能力 。为了解决这个问题，我们从人类反馈（RLHF）和直接偏好优化（DPO）的强化学习中汲取灵感。DPO最近在LLMs和生成模型中证明了区分preferred信号和 less preferred 信号的显著有效性。RLHF是现代LLMs成功的基础，它需要训练一个Reward模型来近似人类偏好 ，而DPO提供了一种更有效的方式来直接优化偏好数据，消除了对显式奖励模型的需要，减少了计算负担 。

(speaker, emotion, text, emotional speech) 同一个text可以用不同的emotion表达。

受DPO的成功及其在偏好一致性中的作用的激励 ，我们建议利用DPO来解决传统情感TTS模型仅控制 individual 情绪的局限性。Emo-DPO是一种情感TTS方法，利用DPO捕捉positive-negative负情绪对之间细微的韵律和语调差异，从而增强语音合成中的情感表达能力 。与缺乏情绪偏好 的传统监督学习方法不同，我们的Emo-DPO通过将TTS模型与偏好的情绪表达对齐来微调TTS模型，优化偏好情绪输出的生成，而不是不受欢迎的情绪输出 。Emo-DPO结合了positive和negative的情绪反馈，使表达性语音合成超越了单一的情绪建模，从而更好地区分情绪，产生更可控、更具表现力的情绪语音。

DPO样本，emotional feedback，（postive sample, negative sample)

我们的贡献包括：1) 超越单一情绪：我们提出了Emo-DPO，这是一种新的可控情绪TTS方法，首次利用直接偏好优化来区分情绪之间的细微差异；2) Emotion-aware LLM-TTS：我们研究了情绪感知llm在情绪TTS神经结构中的整合。

METHODOLOGY

我们提出了一种情绪性TTS的Emo-DPO方法，通过直接偏好优化（DPO）和基于llm的TTS神经架构，如图1所示。 picture.image

Emo-DPO Overview

我们提出了一种情感TTS方法Emo-DPO，旨在从text、speaker x-vector 和 desired emotion 输入合成 emotional speech。我们的方法结合了(a) instruction tuning 和 (b)Emotion-aware LLM-TTS集成的Emo-DPO训练，optimizing the likelihood of generating a speech token sequence that corresponds to the specified emotional prompt in predefined instruction data。在推理过程中，Emo-DPO从text、desired emotion和 speaker x-vector 输入生成语音令牌，然后通过冻结的流匹配模型和冻结的声码器生成情感语音（见图1 (c)）。接下来我们详细介绍了指令调优和Emo-DPO训练过程。

Emo-DPO, (speaker, desired emotion, text) -> (emotional speech)

Instruction Tuning

在第一阶段，我们建议使用平行情感文本到语音数据

对 LLM-TTS

进行监督微调，以受益于LLM的指令跟随和上下文学习能力，如图1 (a)所示。数据使用以下 instruction template 进行格式化：

picture.image

在这里插入图片描述

speech tokenizer提取语音标记序列，而LLM-TTS模型，包括一个text encoder和一个基于llm的decoder，预测emotional speech tokens 的概率分布(例如, happy)。和[20]一样，我们使用 label smoothing Kullback-Leibler （KL）损失来最小化由

引起的，预测概率分布

与target（happy）分布P之间的分歧： picture.image

Emo-Direct Preference Optimization Training

Motivation: 然而，简单地对

进行指令调整可能是不够的，因为模型只学会产生正确的输出，而没有完全理解为什么它是正确的。为了使模型具备捕捉期望的情感言语与具有相同语义内容的其他情感之间细微差异的能力 ，我们转向偏好学习以进一步改进其性能。DPO提供了一个有效的解决方案，允许模型直接从偏好数据中学习。这确保了生成的语音更接近预期的情感细微差别。

感觉这里了的DPO是为了继续优化相同text，不同emotiona下合成的speech的效果。可能是因为，相同text的不同emotional speech样本不足导致的。如果相同（speaker, text）对应不同emotion的speech足够多，有监督是可以学习到不同情绪的细微差异的。

picture.image

1） Beyond One Emotion - DPO Training：

第一阶段指令调优后的LLM-TTS模型表示为

。给定要优化的成对数据集

和LLM-TTS

， DPO目标定义为：

picture.image

在这里插入图片描述

DPO是偏好学习，区分度学习，度量学习。

Emo-DPO训练目标：为了进一步稳定训练，我们引入了两种正则化策略。一种策略是将 Jensen-Shannon （JS）散度操作引入DPO目标 ：

picture.image 以上操作平滑了优化过程，防止了logit的极端差异 ，从而提高了训练的稳定性 。此外，它们通过JS发散的有限性和对称性 提供了一个更加平衡和可解释的偏好学习 过程。

另一种策略是联合优化JS-regularized DPO目标、指令调优阶段1定义的 label-smoothing KL目标和附加的SFT目标 。其中，全损项定义为：

picture.image

在这里插入图片描述

EXPERIMENTS

Datasets and Experimental Setup

我们使用ESD数据集[34]的英语部分进行实验，10 个说话者表达5 种情绪：愤怒、快乐、悲伤、惊讶和中性，每个说话者和情绪有350个话语（大约1750个话语，每个说话者1.2小时）。我们遵循官方训练/有效/测试分割，其中验证和测试集由5种情绪和10个说话者的20和30个话语组成，得到1000和1500个话语。我们使用cosyvoice - 300m - directive模型（cosyvoice）和基于fastspeech的emospeech 作为强基线，两者都具有可公开访问的代码。从测试说话者的训练数据中提取cosyvoice和提议的EmoDPO的相同X-vectors。EmoDPO进行2 epoch的动态批处理训练，然后在4个gpu上进行3 epoch的8批DPO训练。Emo-DPO 中的 TTS-LLM、speech tokenizer 和text encoder都是从cosyvoice初始化的，具有相同的架构 ，推理使用预训练的flow-matching模型和HifiGan声码器。参数α， θ和γ设置为1，其他设置遵循cosyvoice。对于Emo-DPO训练，我们通过将期望的情感音频 标记为 preferred （例如，happy）而将其他情感音频 （例如，neutral）标记为 dis-preferred ，从而创建具有相同文本 的成对偏好数据 。

train: 10x5x350=17500, dev: 10x5x20=1000, test: 10x5x30=1500. 数据量不多。

Evaluation Metrics

进行了广泛的客观和主观评价，以比较拟议的Emo-DPO与基线。

Objective evaluation ：为了评估生成音频的可理解性，我们在音频上应用Whisper-Large-v3来识别文本并计算单词错误率（WER）。韵律相似度（SIM, Prosody similarity） ：我们使用AutoPCP作为话语级估计器来量化之后生成的语音样本和真实语音样本之间的韵律相似度。情感相似度（SIM, Emotion Similarity） ：我们使用emotion2vec-base模型从ground truth和生成的音频中提取情感嵌入，计算余弦相似度并在EMO SIM分数的测试集上平均结果。使用预训练的模型对生成的音频进行语音情绪识别，识别情绪类别，得分为1分表示正确，0分表示不正确。每个系统计算超过1500个测试话语的平均分数。

Subjective evaluations 包括平均意见得分（MOS ）、情感平均意见得分（Emotion MOS ）和AB偏好测验 。20名听众参与所有测试。MOS对整体音频质量和自然度进行评分，从1（差）到5（优秀），而情感MOS对真实音频和生成语音之间的情感相似性进行评分，从1（完全不相似）到5（非常相似）。在AB偏好测试中，听众根据质量和情感产生从两个系统（A和B）的样本中选择更好的一个。进行了两个AB测试：cosy vs. Emo-DPO 和 emospeech vs. Emo-DPO，每个测试使用8个平衡的情绪样本。在MOS和emotional MOS测试中，听众被要求对30个具有平衡情绪的样本（每种情绪6个样本）进行cosyvoice， emospeech和emoo - dpo模型的评分。

RESULTS AND DISCUSSION

我们研究了多重情绪控制、情绪感知LLM-TTS整合、SFT训练、DPO训练和训练目标设计的效果。客观评价结果见表1，主观评价结果见图2和图3。我们还在表2中进行了消融研究。

picture.image

CONCLUSION

本文提出了一种集成情感感知TTS-LLM架构的可控情感TTS方法，为在llm时代推进情感语音合成打开了大门。我们提出的Emo-DPO方法利用新颖的直接偏好优化和先进的目标设计，通过preferred emotions 而不是less preferred 的情绪来捕捉微妙的情感差异。大量的实验验证了Emo-DPO的有效性。代码将在接受后向研究界发布。

参考文献

https://arxiv.org/pdf/2409.10157v1