universal background model[1]

  • 所有的数据训练出来一个UBM,需要保证训练数据的均衡
  • 训练多个UBM,然后合在一起,比如根据性别分成两个,这样的话可以更有效的利用非均衡数据以及控制最后的UBM。


使用MAP adaptation对UBM的高斯进行线性插值,获得speaker相关的GMM模型,该模型的均值作为supervector[2]。详细的训练过程参考[1].


identity vector


universal background model 使用gmm来刻画
UBM训练流程,最后得到 final.dubm

#gmm-global-init-from-feats 根据所有特征训练gmm
#gmm-gselect gmm-global-acc-stats 获取gmm训练的统计量
#gmm-global-est 根据统计量重新训练gmm
#gmm-global-copy 转化final.dubm为文本形式




#ivector-extractor-init 使用final.dubm初始化最开始的ivector
#gmm-global-get-post 根据final.dubm获取cmvn后的特征的后验概率
#ivector-extractor-sum-accs 获取统计量
#ivector-extractor-est 根据统计量获得最后ivector模型final.ie
ivector-extractor-init --binary=false --ivector-dim=100 --use-weights=false "gmm-global-to-fgmm final.dubm -|" txt #查看文本形式的ie





copy-feats --binary=false --compress=false ark:ivector_online.1.ark ark,t:ivector_online.1.ark.txt


[1].Speaker Verification Using Adapted Gaussian Mixture Models
[2].Support Vector Machines using GMM Supervectors for Speaker Verification
[3].Implementation of the Standard I-vector System for the Kaldi Speech Recognition Toolkit


近年来,说话人识别作为人机交互领域的一个主要研究方向之一,己经在现实 生活中得到了广泛的应用。然而在实际应用中,能够提取到的说话人语音较短,导 致系统识别效果较差。因此,本文研究的主要内容为短语音说话人识别系统。

在实际应用中,由于说话人语音中说话人信息和各种干扰信息掺杂在一起,不同的采集设备的信道之间也具有差异性,会使我们收集到的语音中掺杂信道干扰信息。这种干扰信息会引起说话人信息的扰动。传统的GMM-UBM方法,没有办法克服这一问题,导致系统性能不稳定。 在GMM-UBM模型里,每个目标说话人都可以用GMM模型来描述。因为从UBM模型自适应到每个说话人的GMM模型时,只改变均值,对于权重和协方差不做任何调整,所以说话人的信息大部分都蕴含在GMM的均值里面。GMM均值矢量中,除了绝大部分的说话人信息之外,也包含了信

"Useful Derivations for i-Vector Based Approach to Data Clustering in Speech Recognition" Yu Zhang 这篇文章较为详细地推到了i-Vecoter的由来,解答了许多困惑,salute! 假设Yi=(y1i,y2i,…,yTii)\boldsymbol{Y}^{i}=\left(\boldsymbol{y}_{1}^{i}, \boldsymbol{y}_{2}^{i}, \ldots, \boldsymbol void AgglomerativeClusterer::Cluster() { KALDI_VLOG(2) << "Initializing cluster as...

声纹识别声纹识别,生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。声音特征1、语音的特殊性。发音器官分为声门上系统、喉系统、声门下系统,每个人都有自己的一套发音器官,它们的形态、构造各有差别,每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性(也称语音四要素):音质、音...

二、d-vecto DNN 会输入一个固定长度的语音,对它做 Speaker Recognition。然后我们把这个模型的最后一层隐层抽取出来,它就是这段语音的 d-vector。不用 output layer 中的最后一层输出,因为它的维度是和训练时语者数目有关的。而是它前面的那一层隐层输出。 在实际预测的时候,输入语音是不等长的,会把语音截成多段,然后取这几段特征的d-vector的平均值作为最后的speaker embedding

本教程分为三个部分: 一是如何在ubuntu安装配置kaldi。 二是如何用kaldi的例子mobvoihotwords训练出模型,然后用训练出来的模型测试一条指定的语音是不是唤醒词"嗨小问"。 三是用其他的已经训练好的模型来测试指定的语音是不是唤醒词。需要修改代码。 四是可能遇到的问题 一.是如何在ubuntu安装配置kaldi? 1.安装git。如果使用gi

在深度学习的路上,从头开始了解一下各项技术。本人是DL小白,连续记录我自己看的一些东西,大家可以互相交流。