语音信号处理(八)端到端语音分离与目标说话人抽取
这一章 主要介绍近几年来 语音分离 技术路线 的分类
语音分离与目标说话人抽取的区别就是
输出侧: 语音分离是当有多个说话人时,会将每一个说话人的语音分别输出出来。而目标说话人抽取就是只将特定说话人(感兴趣的)的语音提取出来。
输入侧: 目标说话人抽取。输入测除了接收语音输入之外,还要接收目标说话人的声纹特征(参考信息)。
传统语音分离:非负矩阵分解、主成分分析
一、端到端语音分离基本框架1.1、三段式的基本框架Encoder - Separator - Decoder (ESD框架)
Encoder— 将输入信号从时域变换到另一个域(domain)或潜空间(latent space)中,在潜空间中完成语音分离注意:一般分为频域与时域的方案。频域(傅里叶变换等,或其他频域变换方式)是早些年比较常用的,近些年来多采用时域的方案,就是将混合的时域语音信号输入到一种网络当中,这个网络将时域信号变化为另外的域当中,这种域很难用显示的公式表达出来,我们及将其称为潜空间。
Separator (+ Extractor)— 在潜空间中,为每个独立声源估计mask;这个mask 称为一种广义的 ...
语音信号处理(七) 基于DNN的语音分离
本章主要为单通道的语音分离,具体多通道的不会再这里展开
一、简介语音分离
目标:从背景干扰音中分理出目标语音
可以视为一种监督学习的任务
包含:
语音增强,(区分语音和非语音)
说话人分离,(多个说话人)
语音解混响
二、基于DNN 的语音分离模型:
y^{(m)}=s_d*h^{(m)}+n^{(m)}目标:从接收信号$y^{(m)}$(包含语音的混响、以及加性噪声)当中抽离出来干净的语音数据$s_d$
简单来说 通过深度学习的方式去处理就是这几大步骤
1、训练数据 training data准备 输入输出对的语音数据输入是带噪语音,输出是纯净语音
常用基于模拟的方案。自己加混响(冲激响应函数) 和 噪声(各种日常的噪声,如敲门等)
纯净语音与混响函数卷积,再叠加噪声。
这样就得到了输入输出对
2、特征提取 feature extraction常用的特征有:
1、语音识别等领域 MFCC、filter bank
2、DSP等领域 MFCC、PLP、PNCC、PITCH、GFCC
3、神经网络模型结构部分1、基础神经网络模型结构
全连接神经网络
CNN
RNN
LST ...
语音信号处理(六) 阵列信号处理
一、阵列信号处理的基本概念阵列信号处理大致可以分为两种用途:一个是滤波一个是估计。这两个用途其实在单通道的信号处理也有相似的概念,只不过这种滤波和估计被拓展到空间域之上。
1.1、阵列信号模型考虑一个三维立体模型,里面有n个任意位置摆放的阵元,且阵元都是全向阵元。声源从a方向入射。如图所示,模型可以提取两种信息:
1、N个权阵元的摆放位置
2、声源入射方向在这样两层信息的加持下,就可以写阵列输入信号的表达形式:
\begin{gathered}
\mathbf{x}(n, \mathbf{p})=\left[\begin{array}{c}
x\left(n, \mathbf{p}_{0}\right) \\
x\left(n, \mathbf{p}_{1}\right) \\
\vdots \\
x\left(n, \mathbf{p}_{N-1}\right)
\end{array}\right]
\end{gathered}
这个接受信号的矩阵其实也包含着两层信息:
由于每一个阵元接受的其实是同一个声源发出的信息,所以每一路信号包含着x(n)信号,也即是同源的
由于每一个 ...
语音信号处理(五)声学回声消除
一、声学回声消除 简介
应用场景
语音通信场景:在一般的通话场景中,如果能听到自己的回声,往往原因发生在“对端”,由于“对端”的回声抑制没有做好导致的
语音交互场景(打断场景)如 对正在播放音乐的 智能音箱 说“切歌”
在这种场景下,我们将扬声器端 叫做 远端信号或参考信号(far -end signal,reference signal),他是扬声器原始的音乐,没有没任何噪声污染 ;麦克可风 输入信号(实采信号,input signal) 包含了 近端信号 (near -end signal ),也是我们想识别的语音信号,此外还有其他信号比如噪声以及扬声器播放信号的干扰。
AEC:的任务就是把在回声存在的前提下,怎么把近端语音信号提取出来。
AEC的基本原理:对消
如果能设计一组自适应滤波器,使得自适应滤波器,他的输出 刚好与麦克风接受的回声信号反向,那么只需将自适应的输出信号与接收信号相叠加即可消除回声信号。
二、 基本模块构成
AEC 模块的输入有两个: 1、参考信号(远端信号),也即扬声器播放的纯净信号 2、麦克风接受信号
AEC 使用的模块:
1、 时延估计 ...
语音信号处理(四)噪声抑制
概念解读:
AEC: 声学回声消除,设备自身的(回声)干扰,这会对设备的声音识别等有干扰
NS :去除背景噪音,特别是环境噪声,位置放置 比较灵活,既可以放 AEC 后,也可以放在ASR前面
一、子带分解(DFT fliterbank) STFT 短时傅里叶变换信号的分频带处理,是语音信号处理中常用的手段首先回顾DFT 公式,他将离散的时域(周期)信号,转换到频域
\begin{aligned}
X(k) &=\sum_{n=0}^{N-1} x(n) W_{N}^{n k} \\
X(k, l) &=\sum_{n=0}^{N-1} x(l+n) W_{N}^{n k}
\end{aligned}k: frequency bin index (频率(点)序号)l:frame index ( 帧移 frame shift 总 大小)n: time bin index (帧内,时间序号)N:frame length如图:以每次帧移为1举例(其实这样有很大的overlap)
红圈部分可以视为一个子(频)带。
选取合适的帧移因子(也可以叫抽取因子,因为这是每隔M个点抽取) $M$ ,则 ...
《实时语音处理》语音端点检测
语音端点检测(VAD)1、 简要描述 语音端点检测(VAD)用于判断给定的音频数据是否存在语音,其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率,VAD方法通常包括特征提取和语音、非语音判决两部分,当前使用的语音特征主要有时域和频域两种,时域特征包括能量波动、过零率、最大能量和最小能量等,频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类:能量、频域、倒谱、谱差、谐波和长时信息,基于能量的特征计算简单,如能量过零率,基于谱在低SNR可以获得较好的效果,当SNR为0dB时,基于语音谐波和长时语音特征判决方法的鲁棒性更强。
当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。在一个特定帧内,我们可以观察到的三个主要声音特征如下:
1.音量(Volume):代表声音的大小,可由声音信号的震幅来类比,震幅越大,代表此声音波 ...
《实时语音信号处理》学习笔记 信号处理基础 发声机理
离散傅里叶变换 DFT 离散傅里叶变换(DFT)是离散信号时/频域变换的方法。作用类似于棱镜,将由多种频率混合而成的语音按频谱散射,经过种种处理后,再反变换到时域,就可以获得“提纯”后的语音信号。实数DFT的输入是实数,得到的频点有两个集合,分别是正弦(cos)和余弦(sin)函数的系数,对应于正频分量和负频分量。
\begin{aligned}
&\mathrm{X}(k)=\sum_{n=0}^{N-1} x(n) e^{-j \frac{2 \pi k n}{N}}, k=0, \ldots \ldots N-1 \\
&\mathrm{X}_{r e}(k)=\sum_{n=0}^{N-1} x(n) \cos \left(\frac{2 \pi k n}{N}\right), k=0, \ldots \ldots N-1 \\
&\mathrm{X}_{im}(k)=\sum_{n=0}^{N-1} x(n) \sin \left(\frac{2 \pi k n}{N}\right), k=0, \ldots \ldots N-1
\end{aligned}
短时傅里叶变 ...
语音信号处理(三)自适应滤波方法
自适应滤波 是一种理论体系,应用于内容都非常广泛
滤波器
作用:改变信号的频谱
模拟滤波器:由R、L、C构成的模拟电路,例如A/D前的抗混叠滤波器(anti-alias filter)
数字滤波器:由数字加法器、乘法器、延时器构成,基于数字信号运算实现。(数字通信系统中,不做特殊说明时 一般都指数字滤波器)
自适应滤波器:一种能够根据输入信号自动调整自身参数的数字滤波器。非自适应滤波器:具有静态滤波器系数的数字滤波器,这些静态系数构成了滤波器的传递函数。
自适应滤波器的应用场景:无法得知输入信号和噪声统计特性的情况(也即非平稳信号)。滤波器自身能够在工作过程中学习或估计信号的统计特性,并以此为依据调整自身参数,以达到某种准则/代价函数下的最优滤波效果。此外还能跟踪信号变化。
一、LMS(最小均方误差)算法这是一个最基本的自适应滤波的算法,应用多,原理也比较简单。
1.1、 从N阶线性系统出发设一个信号经过噪声因素被接受为$x(n)$
设接收信号$x(n)$通过了一个N阶滤波器,参数为{$w_i(n)$},则滤波器输出为:
y(n)=\sum_{i=0}^{N-1} w_ ...
语音信号处理(二)DSP基础
2、DSP基础2.1 DSP 基本运算模拟数据——》采样——》量化——》编码——》数字信号
线性卷积( linear convolution)$y(n)=\sum_{m=-\infty}^{\infty} x(m) h(n-m)=x(n) * h(n)$
卷积的计算方法卷积在按照定义计算可分为四步:翻褶、移位、相乘、相加
第二种方法比较简单但不太推荐如下:
在数字信号处理当中 信号通过一个线性时不变系统被抽象为一个卷积操作
圆周移位(circular shift)
等价于经过周期延拓,平移后加窗
圆周卷积(circular convolution)
如果$x_1(n)$和$x_2(n)$ 都是长度为N的有限长序列
$X_1(k)=\operatorname{DFT}\left[x_{1}(n)\right] \quad X_{2}(k)=\operatorname{DFT}\left[x_{2}(n)\right]$
且 $Y(k)=X_{1}(k) X_{2}(k)$那么\begin{aligned} y(n)=\operatorname{IDFT}[Y(k)] &=\left ...
语音信号处理(一)
语音信号处理概述1、语音交互(VUI)
优势:输入效率高、解放双手双眼(车载)、使用门槛低、信息“含量”高
劣势:信息接受效率低、复杂声学环境、心理负担
历史:
1952 Audrey
1962 IBM shoebox ……
2011 siri
2014 win8 cortana
2014 Amazon echo
2016 Google :Google Home 小米、百度、
人机语音交互流程
唤醒、开始一轮语音交互
语音输入
语音——> ASR(自动语音识别系统)——>指令文字
文本指令 ——>NLP(文本解析)——>用户意图
语义——>Skill——>回复文本
文本——>TTS——>反馈音频
语音交互适合场景家庭场景、车载场景、外出场景
2、复杂的声学环境:
方向性干扰,如人声
环境噪声(散射噪声)
远近产生的混响(本质上就是通信中的多径效应)
声学回声
前端处理意义: 让人听得清(提高SNR)、让机器听的请(语音识别率更高)
3、前端语音信号处理举例:
语音通话(免提通话)
电话/视频 远程会议
...