频谱图
哦咯咯,来科普一下! 1. 没有“frequency waveform”这种东西。声音最直接的表示方式是 波形,英文叫waveform,就是你贴的左边那张图。另外两种表示方式(频谱和语谱图)下文再说。波形的横轴是时间(所以波形也叫声音的时域表示),纵轴的含义并不重要,可以理解成位移(声带或者耳机膜的位置)或者压强。当横轴的分辨率不高的时候,语音的波形看起来就是像你贴的图中一样,呈现一个个的三角形。这些三角形的轮廓叫作波形的 包络…
上面有人给出了语音识别中最基础、最常用的MFCC特征的提取步骤。我来解释一下每一步为什么要这样做。 1. Take the Fourier transform of (a windowed excerpt of) a signal. 这一步其实说了两件事:一是把语音信号分帧,二是对每帧做傅里叶变换。 要分帧是因为语音信号是快速变化的,而傅里叶变换适用于分析平稳的信号。在语音识别中,一般把帧长取为20~50ms,这样一帧内既有足够多的周期,又不会变化太剧烈。每帧信号通常要与一…
各种谱函数的区别是什么,何时用何种函数?
对时域信号进行傅立叶变换(FFT)时,可以用多种不同的函数来表示计算结果,如频谱、自谱、功率谱密度等等,并且这些函数还有不同的格式,如Peak,RMS和Peak-Peak。到底用哪个函数来表示更贴切,它们有什么区别呢?在讨论这些谱函数之前,让我们明确一下Peak,RMS和Peak-Peak的定义。 1.Peak,RMS和Peak-Peak定义对于一个正弦波而言,假设其表达式为 X(t)= Asin(2πft+θ) 那么幅值 A称为单峰幅值Peak,幅值A的0.707倍称为有效值RMS…
机器学习中的音频特征:理解Mel频谱图
[图片] 如果你像我一样,试着理解mel的光谱图并不是一件容易的事。你读了一篇文章,却被引出了另一篇,又一篇,又一篇,没完没了。我希望这篇简短的文章能澄清一些困惑,并从头解释mel的光谱图。 信号信号是一定量随时间的变化。 对于音频,变化的量是气压。 我们如何以数字方式捕获此信息? 我们可以随时间采集气压样本。 我们采样数据的速率可以变化,但是最常见的是44.1kHz,即每秒44,100个采样。 我们捕获的是信号的波形,可以使用…
Matlab的FFT绘制频谱图
直接使用fft()绘制% 两个频率分别为15HZ 和 20HZ 的正弦信号 Fs=50;%采样频率50Hz f1=15; f2=20; t = 0:1/Fs:10-1/Fs % 0-9.98s 一共500个点 x = sin(2*pi*f1*t) + sin(2*pi*f2*t);%原始信号 N=length(x)% N=500 figure(1); plot(t,x); title('Original Signal'); xlabel('Time'); ylabel('Amplitude'); %直接使用fft figure(2); y0 = abs(fft(x)); %快速傅里叶变换的幅值 %将横坐标转化,显示为频率f= n*(fs/N) f = (0:N-1)*Fs/…
题主的问题中有一点不专业的地方:“因音色不同所导致频率不同”。我之前讲过( 不同元音辅音在声音频谱的表现是什么样子? - 王赟 Maigo 的回答 ),音色指的是频谱包络形状,而频率(一般指基基频)对应的是音高,二者是独立的。 我推测题主想问的是,为什么语音识别系统对不同的说话人都能给出恰当的识别结果,它为什么能够排除不同人的声音特色的影响。这是通过 特征和建模两方面来实现的。我在另一个回答( 语音识别技术中提…