《实时语音处理》语音端点检测
语音端点检测(VAD)
1、 简要描述
语音端点检测(VAD)用于判断给定的音频数据是否存在语音,其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率,VAD方法通常包括特征提取和语音、非语音判决两部分,当前使用的语音特征主要有时域和频域两种,时域特征包括能量波动、过零率、最大能量和最小能量等,频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类:能量、频域、倒谱、谱差、谐波和长时信息,基于能量的特征计算简单,如能量过零率,基于谱在低SNR可以获得较好的效果,当SNR为0dB时,基于语音谐波和长时语音特征判决方法的鲁棒性更强。
当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。在一个特定帧内,我们可以观察到的三个主要声音特征如下:
1.音量(Volume):代表声音的大小,可由声音信号的震幅来类比,震幅越大,代表此声音波形的音量越大。音量又称为能量(Energy)或强度(Intensity)等。
2.音高(Pitch):代表声音的高低,可由基本频率(Fundamental Frequency)来类比,这是基本周期(Fundamental Period)的倒数。声音的基本频率越高,代表音高越高;反之,声音的基本频率越低,代表音高越低。
3.音色(Timbre):代表声音的内容(例如英文的元音、辅音,汉语里面的鼻音),可由每一个波形在一个基本周期的变化来类比。不同的音色即代表不同的音讯内容,例如不同的字母有不同的发音,都是由于音色不同而产生。
如果用人声来说明,这些语音特征的物理意义如下:
音量(Volume):代表肺部压缩力量的大小,力量越大,音量越大。
音高(Pitch):代表声带震动的快慢,震动越快,音高会越高。
音色(Timbre):代表嘴唇和舌头的位置和形状,不同的位置和形状,就会产生不同的语音内容。
2、特征提取
1、好的特征应具备的性质
区分能力:含早语音和金汉噪声音频的分离度应尽量大。理论上,好的特征能够让语音特征和噪声特征分布没有交集。
噪声鲁棒性: 背景噪声会造成语音失真,这会影响提取的特征区分能力。
2、基于能量的特征
信号的能量强度是基于能量的VAD检测方法的主要依据,在满足语音能量大于背景噪声能量的假设下,当能量大于某一门限时,则可以认为有语音存在,当噪声能量达到和语音能量一样大时,能量特征无法区分是语音还是纯噪声。
3、短时能量过零率
采集到的语音信号在数字域上有正负之分,从坐标轴上看,有些在正半轴,有些在负半轴,过零率等于一段时间内穿过横轴的次数与总采样点数的比值,它反映了信号变化的快慢,其虽然是时域特征,但变化快慢在某种程度上反映了频域的信息。过零率对低频噪声敏感,实际使用可以过滤掉低频部分。
4、其它特征
频域特征、倒谱特征、基于谐波的特征、长时特征。