论文分享 | NoreSpeech：基于知识蒸馏的条件扩散模型实现噪声鲁棒的表现力语音合成

语音之家-AI工匠学堂

已认证账号

本次分享北京大学ADSP Lab、腾讯AI Lab和约翰霍普金斯大学联合投稿于ICASSP2023的表现力语音合成相关工作《NoreSpeech: Knowledge Distillation Based Conditional Diffusion Model For Noise-robust Expressive TTS》，该论文利用基于知识蒸馏的概率去噪扩散模型实现噪声鲁棒的表现力语音合成系统。

论文地址：

https:// arxiv.org/pdf/2211.0244 8.pdf

Demo地址:

http:// dongchaoyang.top/NoreSp eech_demo/

代码地址：

https:// github.com/yangdongchao /NoreSpeech

Abstract

富有表现力的语音合成(TTS)可以通过模仿参考音频的韵律和音色来合成新的说话风格，这面临着以下挑战: (1)参考音频中高动态的韵律信息难以提取，特别是当参考音频中包含背景噪音时。(2)TTS系统应该对未见过的说话风格有良好的泛化性。在本文中，我们提出了一个噪声鲁棒且富有表现力的TTS模型(Nore-Speech)，它可以鲁棒地将带噪声参考音频中的说话风格迁移到合成的语音中。具体来说，我们的NoreSpeech包括几个部分：(1)一个新颖的Diff-Style模块，它利用强大的概率去噪扩散模型，通过知识蒸馏从教师模型中学习与噪声无关的说话风格特征; (2)一个VQ-VAE模块，它将风格特征映射到一个可量化的潜在空间，以提高风格迁移的泛化性; (3) 一个简单但有效的无参数文本风格对齐模块，使NoreSpeech能够从长度不匹配的参考语句中将风格转换为文本输入。实验证明，NoreSpeech在噪声环境中比以前富有表现力的TTS模型更有效。

音频样本和代码见：

http:// dongchaoyangtop/NoreSpe ech_demo/

1 Introduction

文本到语音(TTS)旨在将文本转化为几乎与人类相似的语音，这引起了深度学习社区的广泛兴趣。如今，TTS模型已被用于更复杂的场景，包括多个说话人的音色、情感和说话风格，以实现富有表现力和多样化的语音合成。风格建模和迁移在TTS界已经研究了几十年。Wang等人提出使用全局风格标记来控制和迁移全局风格。Li等人采用多尺度风格编码器来辅助合成有表现力的语音。Min等人提出了Meta-StyleSpeech，它使用元学习训练策略进行多语言TTS合成。Huang等人提出了一个多层次的风格适配器迁移说话的风格。然而，这些方法假设参考音频是在理想的环境中录制的(没有噪声干扰)。这个假设使富有表现力的TTS模型无法应用于许多现实世界的场景中。例如，用户录制的参考音频可能包含噪音。Zhang等人证明了基频(F0)和能量可以通过添加噪声而受到影响，这些都是说话风格的关键组成部分。为了消除参考音频中的噪音影响，已经提出了许多方法。这些方法可以分为两类: (1)使用预先训练好的语音增强模型来消除参考音频中的噪声，这在很大程度上依赖于语音增强(SE)模型的性能;(2)通过对抗训练或信息瓶颈分解噪声信息。然而，对抗训练和信息瓶颈策略需要复杂的参数设置和训练技巧，这使得它们很难被广泛应用。总之，所有这些方法都试图直接将噪声信息从噪声参考中分离出来，然后从剩余部分提取风格信息。然而，它们忽略了噪声的多样性，而且噪声中高动态的时频信息也很难去除。

本文提出通过学习相关参数进行分布建模来重构风格信息，而不是从带噪声的参考音频中提取风格信息。具体来说， 我们提出了一个基于知识蒸馏的条件扩散模型，该模型可以直接在以噪声参考音频为条件的潜在空间中生成深度风格表示 ，命名为DiffStyle。我们的DiffStyle受到一个流行的基于扩散的语音增强模型CDiffuSE的启发，它表明扩散模型能够从被噪声污染的语音信号中恢复干净的语音。CDiffuSE模型以噪声频谱为条件重建干净的波形。NoreSpeech中的DiffStyle模块与CDiffuSE模型在以下方面不同:(1) DiffStyle是在更为压缩的帧级特征上工作，不是生成高度随机的时域音频信号（成千上万的采样点组成的1秒）。(2)CDiffuSE模型在时域上重建完整的语音信号，而DiffStyle则在预先训练好的教师模型的监督下学习生成与韵律相关的风格特征。此外，我们概括探讨改善风格迁移的两个方面:(1)为了将风格从长度不匹配的参考语料迁移到文本输入，我们提出了一个无参数的风格对齐模块;(2)为了迁移未见过的说话风格，我们使用VQ-VAE模块将风格特征映射到一个可控的潜在空间。

2 Proposed Method

在这一节中，我们首先提出了用于风格迁移的噪声鲁棒且富有表现力的TTS模型。然后，我们概述了提出的噪声鲁棒且富有表现力的TTS模型(NoreSpeech)，接着我们介绍了几个关键的组件，包括风格教师模型、DiffStyle和特征融合模块。

2.1 Problem formulation

风格迁移的目的是生成和语音样本相似的高质量语音，这些样本具有以前未见过的风格(例如，说话人的身份和风格)，并且这些风格来自于参考音频。由于TTS的发展，最先进的(SOTA)风格迁移TTS模型可以在高质量的参考音频中实现良好的风格迁移性能。在本文中，我们专注于一个更具挑战性的工作背景:参考语料包含背景噪音。与Sytler类似，我们猜想说话人的身份信息可以通过一个噪声鲁棒的说话人编码器从噪声参考音频中提取出来。然而，风格信息将受到噪声影响。因此，问题是要从有噪声的参考音频中获得与干净参考音频相似的风格特征。

2.2 Overview

我们采用SOTA风格的迁移TTS模型之一，GenerSpeech作为主干。图1显示了NoreSpeech的整体结构。NoreSpeech由四个部分组成:(1)编码器，将音素序列映射为深度表征;(2)DiffStyle，根据噪声频谱生成风格特征;(3)特征融合，融合风格和文本特征;(4)解码器，将特征映射到mel-spectrogram。编码器和解码器遵循与前面工作相同的结构。

2.3 DiffStyle

图1(b)是DiffStyle的示意图，它包括三个主要部分:一个条件扩散模型、一个说话人编码器和两个VQ-VAE块。条件扩散模型旨在生成代表说话人风格的细粒度风格特征，而说话人编码器则旨在生成代表说话人身份的全局说话人嵌入。这两个模型都以带噪声的参考语料作为输入。在下文中，我们将介绍说话人编码器和条件扩散模型。

2.3.1 Speaker encoder

我们使用一个可推广的wav2vec2.0模型来提取全局说话人的身份特征。Wav2vec2.0是最近提出的一个用于语音识别学习的自监督框架。在我们的实验中，我们在wav2vec 2.0编码器的基础上增加了一个平均池化层和一个全连接层，这使得我们能够对编码器在分类任务中进行微调。在微调过程中，采用了AMsoftmax损失。

2.3.2 Conditional diffusion model

我们的目标是训练一个条件扩散模型，该模型可以根据噪声音频生成不受干扰的风格特征。为了实现这一点，我们采用了知识蒸馏的思想，即使用风格教师模型从干净的语音中提取风格特征，然后将风格特征作为扩散模型的训练目标。

Style teacher models: 在本文中，我们探索了两种风格教师:(1)基于监督学习(SL)的富有表现力的TTS模型，GenerSpeech，它可以有效地从干净的语音中提取风格特征。(2)基于自监督学习(SSL)的语音分解模型，NANSY，它可以从干净的语音中提取语言和风格特征。我们事先对GenerSpeech和NANSY模型进行预训练，然后以这两种风格教师模型来指导NoreSpeech的训练，分别表示为NoreSpeech(T-SL)和NoreSpeech(T-SSL) 。

Diffusion model: 扩散概率模型(简称扩散)已被证明是几个重要领域的强大生成模型，例如，图像、语音和声音领域。扩散模型的基本思想是训练一个反向扩散过程的神经网络。为了实现我们的条件扩散模型，我们采用了条件语音增强的想法，它使用一个浅层卷积层来重塑带噪声的mel-spectrogram，然后将其送入一个WaveNet结构的扩散模型。在我们的研究中，x0代表风格特征而不是波形。训练损失函数可以定义为:

其中ST表示风格教师模型。yc表示干净的mel-spectrogram，yn表示带噪声的mel-spectrogram。t是时间步长的索引。表示可学习参数。

2.3.3 Vector Quantization

考虑到生成的风格特征具有可变性，我们使用向量量化模块将生成的风格特征映射到一个可控的潜在空间。我们定义一个潜在嵌入空间，其中K是离散潜在空间的大小，而H是指每个潜在嵌入向量ei的维度。在我们的实验中，我们设定K=H=256。为了确保表示序列给出一个嵌入，并且其输出不会增长，我们使用了commitment loss：

其中ze(x)是向量量化模块的输出，sg[·]代表梯度停止算子。

2.4 Feature fusion

特征融合模块旨在融合音素表达和风格特征。考虑到细粒度的风格特征和文本编码器输出之间的维度不匹配问题，我们设计了一个无参数的风格对齐模块来解决这个问题。假设时间维度的风格特征和文本特征分别为tstyle和ttext。当tstyle<ttext时，我们直接采用线性插值操作对样式特征进行上采样。当tstyle>ttext时，我们首先计算tstyle和ttext之间的比率。然后我们根据比率对连续的风格帧进行平均，对风格特征进行下采样。

2.5 Pre-training and loss function

Speaker encoder pre-training: 如2.3.1节所述，我们在LibriTTS数据集上对wav2vec2.0编码器进行了微调，我们基于s3prl框架来实现这个目标。

Pre-training style teacher: 对于GenerSpeech教师模型，我们根据他们的论文重新设计GenerSpeech。唯一不同的是，我们不使用情感嵌人。我们在LibriTTS数据集上训练GenerSpeech。之后，我们使用GenerSpeech的风格适配器，从干净的语音中提取细粒度的韵律特征。对于NANSY教师模型，我们首先在LibriTTS数据集上训练NANSY2。然后，我们使用预先训练好的模型来提取风格特征。

Loss function: 最终的损失由以下部分组成1) 持续时间预测损失Ldur:预测和真实音素级的持续时间之间的MSE; 2) mel重构损失Lmel; 3) post-net的负对数似然 Lpost; 4) commitment loss Lc:目的是根据公式(2)，约束向量量化层; 5) 根据公式(1)得到的扩散损失 Ldiff。

3 Experiment

3.1 Dataset，training setting and baseline models

我们在LibriTTS数据集上训练NoreSpeech。为了模拟带噪声的环境，我们使用DCASE 2019年挑战赛中声学场景分类任务的背景声音。带噪声语音的所有语音都与从DCASE采样的噪声混合，信噪比从5dB到25dB随机选择。为了评价NoreSpeech，我们从LibriTTS测试集中随机选择了20个句子作为测试数据，这些数据没有出现在训练阶段。

我们对这些语音数据进行预处理。1)将所有数据的采样率转换为16kHz;2)提取频谱图，FFT大小为1024，hop size为256，窗口大小为1024个样本;3)将其转换为具有80个频段的频谱图。我们对NoreSpeech进行了200,000步的训练。在前50000步中，我们直接将风格教师模型的输出输入到特征融合模块中。此后，我们使用由扩散模型生成的风格特征作为输入。对于DiffStyle，在任何步骤t，使用余弦调度策略，

其中s=0.008，T=1000。

我们使用HiFiGAN作为声码器，从生成的mel-spectrogram中合成波形。我们在Amazon Mechanical Turk上用MOS (平均意见得分)进行自然度评估，用SMOS (相似度平均意见得分)进行风格相似度评估。

Baseline models: 我们将NoreSpeech生成的音频样本的质量和相似性与其他系统进行比较，包括 1) Reference，参考音频; 2) Reference (voc.) ，即我们将参考音频转换为mel-spectrograms，然后用HiFi-GAN将其转换回音频; 3) FastSpeech 2，使用说话人编码器提取说话人嵌入; 4) Styler，使用对抗训练和信息瓶颈来消除噪音; 5) GenerSpeech, 'clean'、'nosiy’和'denoise'表示参考音频的类型。

3.2 Experimental results

表1显示了NoreSpeech和基线模型之间的MOS和SMOS的比较。我们有以下观察结果:

(1) 噪声对风格转换性能有很大影响，例如，当在参考音频中加入噪声时，GenerSpeech的SMOS从4.09下降到3.81。

(2) GenerSpeech (denoise)表示我们使用了SOTA SE模型之一来对噪声参考音频进行去噪，这可以带来轻微的改善。

(3)与之前的SOTA，富有表现力TTS模型(Styler和GenerSpeech)相比，我们的NoreSpeech在带噪声环境下具有更好的风格迁移能力。

(4)通过比较NoreSpeech (T-SL)和NoreSpeech (T-SSL)，我们可以发现使用无监督语音分解( NANSY)作为教师模型可以比使用GenerSpeech作为教师模型带来更好的性能。我们猜想，由于NANSY模型的自监督训练策略，它能从参考音频中提取更加鲁棒的风格特征。我们相信，可以探索更好的风格教师模型来提高NoreSpeech的性能。

为了进一步评估NoreSpeech的风格迁移能力，我们进行了风格相似度的AXY测试来评估风格迁移性能。要求评分者打出7点的分数(从-3到3)，并选择在风格表达方面听起来更接近目标风格的语音样本。我们进行平行和非平行的风格迁移。

Parallel style transfer (PST): PST表示输入的文本与参考音频的内容相同，表2列出了结果。与FS2、Styler和Generspeech相比，我们的NoreSpeech具有更好的风格迁移性能。

Non-parallel style transfer (N-PST): 我们还探索了N-PST中NoreSpeech的鲁棒性，其中TTS以参考的韵律风格合成不同的文本。我们可以看到，NoreSpeech显著提高了模型的说话风格，允许带噪声的参考样本指导任意文本的鲁棒性风格合成。这验证了NoreSpeech文本风格中对齐模块的有效性。

4 Conclusions

在本文中，我们提出了一个鲁棒的、且富有表现力的文本到语音模型，命名为NoreSpeech。得益于DiffStyle和style-align模块，NoreSpeech对任意文本进行了鲁棒的风格化合成，即使参考音频中含有噪声。我们证明了DiffStyle可以用两种风格的教师模型来训练，这表明DiffStyle可以通过训练更好的教师模型来进一步改进。我们相信DiffStyle也可以用于其他任务(如图像风格迁移)。将来我们会探索更好的风格教师模型，并减少DiffStyle的采样步骤。

论文翻译：内蒙古大学计算机学院2022级硕士研究生梁凯麟（导师：刘瑞研究员）；首发：智能语音新青年

发布于 2023-01-14 14:00 ・IP 属地北京

语音合成

扩散模型

知识蒸馏