语音端点检测（VAD）

1、简要描述

语音端点检测（VAD）用于判断给定的音频数据是否存在语音，其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率，VAD方法通常包括特征提取和语音、非语音判决两部分，当前使用的语音特征主要有时域和频域两种，时域特征包括能量波动、过零率、最大能量和最小能量等，频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类：能量、频域、倒谱、谱差、谐波和长时信息，基于能量的特征计算简单，如能量过零率，基于谱在低SNR可以获得较好的效果，当SNR为0dB时，基于语音谐波和长时语音特征判决方法的鲁棒性更强。

当我们在分析声音时，通常以「短时距分析」（Short-term Analysis）为主，因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧（Frame），每一帧长度大约在 20 ms 左右，再根据帧内的信号来进行分析。在一个特定帧内，我们可以观察到的三个主要声音特征如下：

1.音量（Volume）：代表声音的大小，可由声音信号的震幅来类比，震幅越大，代表此声音波形的音量越大。音量又称为能量（Energy）或强度（Intensity）等。
2.音高（Pitch）：代表声音的高低，可由基本频率（Fundamental Frequency）来类比，这是基本周期（Fundamental Period）的倒数。声音的基本频率越高，代表音高越高；反之，声音的基本频率越低，代表音高越低。
3.音色（Timbre）：代表声音的内容（例如英文的元音、辅音，汉语里面的鼻音），可由每一个波形在一个基本周期的变化来类比。不同的音色即代表不同的音讯内容，例如不同的字母有不同的发音，都是由于音色不同而产生。

如果用人声来说明，这些语音特征的物理意义如下：

音量（Volume）：代表肺部压缩力量的大小，力量越大，音量越大。
音高（Pitch）：代表声带震动的快慢，震动越快，音高会越高。
音色（Timbre）：代表嘴唇和舌头的位置和形状，不同的位置和形状，就会产生不同的语音内容。

2、特征提取

1、好的特征应具备的性质

区分能力：含早语音和金汉噪声音频的分离度应尽量大。理论上，好的特征能够让语音特征和噪声特征分布没有交集。
噪声鲁棒性：背景噪声会造成语音失真，这会影响提取的特征区分能力。
2、基于能量的特征
信号的能量强度是基于能量的VAD检测方法的主要依据，在满足语音能量大于背景噪声能量的假设下，当能量大于某一门限时，则可以认为有语音存在，当噪声能量达到和语音能量一样大时，能量特征无法区分是语音还是纯噪声。
3、短时能量过零率
采集到的语音信号在数字域上有正负之分，从坐标轴上看，有些在正半轴，有些在负半轴，过零率等于一段时间内穿过横轴的次数与总采样点数的比值，它反映了信号变化的快慢，其虽然是时域特征，但变化快慢在某种程度上反映了频域的信息。过零率对低频噪声敏感，实际使用可以过滤掉低频部分。
4、其它特征
频域特征、倒谱特征、基于谐波的特征、长时特征。

语音端点检测（VAD）

1、 简要描述

2、特征提取

1、简要描述