本章主要为单通道的语音分离,具体多通道的不会再这里展开

一、简介

语音分离

  • 目标:从背景干扰音中分理出目标语音
  • 可以视为一种监督学习的任务
  • 包含:
    • 语音增强,(区分语音和非语音)
    • 说话人分离,(多个说话人)
    • 语音解混响

二、基于DNN 的语音分离

模型:

目标:从接收信号$y^{(m)}$(包含语音的混响、以及加性噪声)当中抽离出来干净的语音数据$s_d$

简单来说 通过深度学习的方式去处理就是这几大步骤

1、训练数据 training data

准备 输入输出对的语音数据
输入是带噪语音,输出是纯净语音

常用基于模拟的方案。自己加混响(冲激响应函数) 和 噪声(各种日常的噪声,如敲门等)

纯净语音与混响函数卷积,再叠加噪声。

这样就得到了输入输出对

2、特征提取 feature extraction

常用的特征有:

  • 1、语音识别等领域 MFCC、filter bank
  • 2、DSP等领域 MFCC、PLP、PNCC、PITCH、GFCC

3、神经网络模型结构部分

1、基础神经网络模型结构

  • 全连接神经网络
  • CNN
  • RNN
  • LSTM
  • Transformer

2、损失函数选择

  • 分类任务:softmax&cross entropy
  • 回归任务: linear(或 sigmiod 等)、MSE
  • GANs(基本上回归任务东可以用GAN网络改造)
  • Multi-task Joint training:Speech separation & ASR

4、Training target

  • Masking-based Targets
    • Ideal Binary Mask (IdBM)
    • Target Binary Mask (TBM)
    • Ideal Ratio Mask (IRM)
    • Spectral Magnitude Mask (SMM)
    • Phase-Sensitive Mask (PSM)
    • Complex Ideal Ratio Mask (cIRM)

一篇关于Masking-based Targets的介绍性的博客

  • Mapping-based Targets
    • Target Magnitude Spectrum (TMS)
    • Gammatone Frequency Target Power Spectrum (GT-TPS)
    • Signal Approximation

三、单通道语音分离算法

3 Monaural separation algorithms 用途
3.1 Speech enhancement
3.2 Speech dereverberation
3.3 Speaker separation

全部