语音信号处理(七) 基于DNN的语音分离
本章主要为单通道的语音分离,具体多通道的不会再这里展开
一、简介
语音分离
- 目标:从背景干扰音中分理出目标语音
- 可以视为一种监督学习的任务
- 包含:
- 语音增强,(区分语音和非语音)
- 说话人分离,(多个说话人)
- 语音解混响
二、基于DNN 的语音分离
模型:
目标:从接收信号$y^{(m)}$(包含语音的混响、以及加性噪声)当中抽离出来干净的语音数据$s_d$
简单来说 通过深度学习的方式去处理就是这几大步骤
1、训练数据 training data
准备 输入输出对的语音数据
输入是带噪语音,输出是纯净语音
常用基于模拟的方案。自己加混响(冲激响应函数) 和 噪声(各种日常的噪声,如敲门等)
纯净语音与混响函数卷积,再叠加噪声。
这样就得到了输入输出对
2、特征提取 feature extraction
常用的特征有:
- 1、语音识别等领域 MFCC、filter bank
- 2、DSP等领域 MFCC、PLP、PNCC、PITCH、GFCC
3、神经网络模型结构部分
1、基础神经网络模型结构
- 全连接神经网络
- CNN
- RNN
- LSTM
- Transformer
2、损失函数选择
- 分类任务:softmax&cross entropy
- 回归任务: linear(或 sigmiod 等)、MSE
- GANs(基本上回归任务东可以用GAN网络改造)
- Multi-task Joint training:Speech separation & ASR
4、Training target
- Masking-based Targets
• Ideal Binary Mask (IdBM)
• Target Binary Mask (TBM)
• Ideal Ratio Mask (IRM)
• Spectral Magnitude Mask (SMM)
• Phase-Sensitive Mask (PSM)
• Complex Ideal Ratio Mask (cIRM)
一篇关于Masking-based Targets的介绍性的博客
- Mapping-based Targets
• Target Magnitude Spectrum (TMS)
• Gammatone Frequency Target Power Spectrum (GT-TPS)
• Signal Approximation
三、单通道语音分离算法
3 Monaural separation algorithms 用途
3.1 Speech enhancement
3.2 Speech dereverberation
3.3 Speaker separation
评论