avatar
文章
74
标签
64
分类
19

首页
文档
  • 时间轴
  • 标签
  • 分类
留言板
友链
日志
其他
  • 关于我
  • 关于主题
tのblog
首页
文档
  • 时间轴
  • 标签
  • 分类
留言板
友链
日志
其他
  • 关于我
  • 关于主题

tのblog

语音信号处理(八)端到端语音分离与目标说话人抽取
发表于2022-06-01|技术
这一章 主要介绍近几年来 语音分离 技术路线 的分类 语音分离与目标说话人抽取的区别就是 输出侧: 语音分离是当有多个说话人时,会将每一个说话人的语音分别输出出来。而目标说话人抽取就是只将特定说话人(感兴趣的)的语音提取出来。 输入侧: 目标说话人抽取。输入测除了接收语音输入之外,还要接收目标说话人的声纹特征(参考信息)。 传统语音分离:非负矩阵分解、主成分分析 一、端到端语音分离基本框架1.1、三段式的基本框架Encoder - Separator - Decoder (ESD框架) Encoder— 将输入信号从时域变换到另一个域(domain)或潜空间(latent space)中,在潜空间中完成语音分离注意:一般分为频域与时域的方案。频域(傅里叶变换等,或其他频域变换方式)是早些年比较常用的,近些年来多采用时域的方案,就是将混合的时域语音信号输入到一种网络当中,这个网络将时域信号变化为另外的域当中,这种域很难用显示的公式表达出来,我们及将其称为潜空间。 Separator (+ Extractor)— 在潜空间中,为每个独立声源估计mask;这个mask 称为一种广义的 ...
语音信号处理(七) 基于DNN的语音分离
发表于2022-05-30|技术语音信号处理
本章主要为单通道的语音分离,具体多通道的不会再这里展开 一、简介语音分离 目标:从背景干扰音中分理出目标语音 可以视为一种监督学习的任务 包含: 语音增强,(区分语音和非语音) 说话人分离,(多个说话人) 语音解混响 二、基于DNN 的语音分离模型: y^{(m)}=s_d*h^{(m)}+n^{(m)}目标:从接收信号$y^{(m)}$(包含语音的混响、以及加性噪声)当中抽离出来干净的语音数据$s_d$ 简单来说 通过深度学习的方式去处理就是这几大步骤 1、训练数据 training data准备 输入输出对的语音数据输入是带噪语音,输出是纯净语音 常用基于模拟的方案。自己加混响(冲激响应函数) 和 噪声(各种日常的噪声,如敲门等) 纯净语音与混响函数卷积,再叠加噪声。 这样就得到了输入输出对 2、特征提取 feature extraction常用的特征有: 1、语音识别等领域 MFCC、filter bank 2、DSP等领域 MFCC、PLP、PNCC、PITCH、GFCC 3、神经网络模型结构部分1、基础神经网络模型结构 全连接神经网络 CNN RNN LST ...
语音信号处理(六) 阵列信号处理
发表于2022-05-26|技术语音信号处理
一、阵列信号处理的基本概念阵列信号处理大致可以分为两种用途:一个是滤波一个是估计。这两个用途其实在单通道的信号处理也有相似的概念,只不过这种滤波和估计被拓展到空间域之上。 1.1、阵列信号模型考虑一个三维立体模型,里面有n个任意位置摆放的阵元,且阵元都是全向阵元。声源从a方向入射。如图所示,模型可以提取两种信息: 1、N个权阵元的摆放位置 2、声源入射方向在这样两层信息的加持下,就可以写阵列输入信号的表达形式: \begin{gathered} \mathbf{x}(n, \mathbf{p})=\left[\begin{array}{c} x\left(n, \mathbf{p}_{0}\right) \\ x\left(n, \mathbf{p}_{1}\right) \\ \vdots \\ x\left(n, \mathbf{p}_{N-1}\right) \end{array}\right] \end{gathered} 这个接受信号的矩阵其实也包含着两层信息: 由于每一个阵元接受的其实是同一个声源发出的信息,所以每一路信号包含着x(n)信号,也即是同源的 由于每一个 ...
语音信号处理(五)声学回声消除
发表于2022-05-23|技术语音信号处理
一、声学回声消除 简介 应用场景 语音通信场景:在一般的通话场景中,如果能听到自己的回声,往往原因发生在“对端”,由于“对端”的回声抑制没有做好导致的 语音交互场景(打断场景)如 对正在播放音乐的 智能音箱 说“切歌” 在这种场景下,我们将扬声器端 叫做 远端信号或参考信号(far -end signal,reference signal),他是扬声器原始的音乐,没有没任何噪声污染 ;麦克可风 输入信号(实采信号,input signal) 包含了 近端信号 (near -end signal ),也是我们想识别的语音信号,此外还有其他信号比如噪声以及扬声器播放信号的干扰。 AEC:的任务就是把在回声存在的前提下,怎么把近端语音信号提取出来。 AEC的基本原理:对消 如果能设计一组自适应滤波器,使得自适应滤波器,他的输出 刚好与麦克风接受的回声信号反向,那么只需将自适应的输出信号与接收信号相叠加即可消除回声信号。 二、 基本模块构成 AEC 模块的输入有两个: 1、参考信号(远端信号),也即扬声器播放的纯净信号 2、麦克风接受信号 AEC 使用的模块: 1、 时延估计 ...
语音信号处理(四)噪声抑制
发表于2022-05-21|技术语音信号处理
概念解读: AEC: 声学回声消除,设备自身的(回声)干扰,这会对设备的声音识别等有干扰 NS :去除背景噪音,特别是环境噪声,位置放置 比较灵活,既可以放 AEC 后,也可以放在ASR前面 一、子带分解(DFT fliterbank) STFT 短时傅里叶变换信号的分频带处理,是语音信号处理中常用的手段首先回顾DFT 公式,他将离散的时域(周期)信号,转换到频域 \begin{aligned} X(k) &=\sum_{n=0}^{N-1} x(n) W_{N}^{n k} \\ X(k, l) &=\sum_{n=0}^{N-1} x(l+n) W_{N}^{n k} \end{aligned}k: frequency bin index (频率(点)序号)l:frame index ( 帧移 frame shift 总 大小)n: time bin index (帧内,时间序号)N:frame length如图:以每次帧移为1举例(其实这样有很大的overlap) 红圈部分可以视为一个子(频)带。 选取合适的帧移因子(也可以叫抽取因子,因为这是每隔M个点抽取) $M$ ,则 ...
《实时语音处理》语音端点检测
发表于2022-05-17|技术语音信号处理
语音端点检测(VAD)1、 简要描述 语音端点检测(VAD)用于判断给定的音频数据是否存在语音,其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率,VAD方法通常包括特征提取和语音、非语音判决两部分,当前使用的语音特征主要有时域和频域两种,时域特征包括能量波动、过零率、最大能量和最小能量等,频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类:能量、频域、倒谱、谱差、谐波和长时信息,基于能量的特征计算简单,如能量过零率,基于谱在低SNR可以获得较好的效果,当SNR为0dB时,基于语音谐波和长时语音特征判决方法的鲁棒性更强。 当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。在一个特定帧内,我们可以观察到的三个主要声音特征如下: 1.音量(Volume):代表声音的大小,可由声音信号的震幅来类比,震幅越大,代表此声音波 ...
《实时语音信号处理》学习笔记 信号处理基础 发声机理
发表于2022-05-16|技术语音信号处理
离散傅里叶变换 DFT  离散傅里叶变换(DFT)是离散信号时/频域变换的方法。作用类似于棱镜,将由多种频率混合而成的语音按频谱散射,经过种种处理后,再反变换到时域,就可以获得“提纯”后的语音信号。实数DFT的输入是实数,得到的频点有两个集合,分别是正弦(cos)和余弦(sin)函数的系数,对应于正频分量和负频分量。 \begin{aligned} &\mathrm{X}(k)=\sum_{n=0}^{N-1} x(n) e^{-j \frac{2 \pi k n}{N}}, k=0, \ldots \ldots N-1 \\ &\mathrm{X}_{r e}(k)=\sum_{n=0}^{N-1} x(n) \cos \left(\frac{2 \pi k n}{N}\right), k=0, \ldots \ldots N-1 \\ &\mathrm{X}_{im}(k)=\sum_{n=0}^{N-1} x(n) \sin \left(\frac{2 \pi k n}{N}\right), k=0, \ldots \ldots N-1 \end{aligned} 短时傅里叶变 ...
语音信号处理(三)自适应滤波方法
发表于2022-05-13|技术语音信号处理
自适应滤波 是一种理论体系,应用于内容都非常广泛 滤波器 作用:改变信号的频谱 模拟滤波器:由R、L、C构成的模拟电路,例如A/D前的抗混叠滤波器(anti-alias filter) 数字滤波器:由数字加法器、乘法器、延时器构成,基于数字信号运算实现。(数字通信系统中,不做特殊说明时 一般都指数字滤波器) 自适应滤波器:一种能够根据输入信号自动调整自身参数的数字滤波器。非自适应滤波器:具有静态滤波器系数的数字滤波器,这些静态系数构成了滤波器的传递函数。 自适应滤波器的应用场景:无法得知输入信号和噪声统计特性的情况(也即非平稳信号)。滤波器自身能够在工作过程中学习或估计信号的统计特性,并以此为依据调整自身参数,以达到某种准则/代价函数下的最优滤波效果。此外还能跟踪信号变化。 一、LMS(最小均方误差)算法这是一个最基本的自适应滤波的算法,应用多,原理也比较简单。 1.1、 从N阶线性系统出发设一个信号经过噪声因素被接受为$x(n)$ 设接收信号$x(n)$通过了一个N阶滤波器,参数为{$w_i(n)$},则滤波器输出为: y(n)=\sum_{i=0}^{N-1} w_ ...
语音信号处理(二)DSP基础
发表于2022-05-13|技术语音信号处理
2、DSP基础2.1 DSP 基本运算模拟数据——》采样——》量化——》编码——》数字信号 线性卷积( linear convolution)$y(n)=\sum_{m=-\infty}^{\infty} x(m) h(n-m)=x(n) * h(n)$ 卷积的计算方法卷积在按照定义计算可分为四步:翻褶、移位、相乘、相加 第二种方法比较简单但不太推荐如下: 在数字信号处理当中 信号通过一个线性时不变系统被抽象为一个卷积操作 圆周移位(circular shift) 等价于经过周期延拓,平移后加窗 圆周卷积(circular convolution) 如果$x_1(n)$和$x_2(n)$ 都是长度为N的有限长序列 $X_1(k)=\operatorname{DFT}\left[x_{1}(n)\right] \quad X_{2}(k)=\operatorname{DFT}\left[x_{2}(n)\right]$ 且 $Y(k)=X_{1}(k) X_{2}(k)$那么\begin{aligned} y(n)=\operatorname{IDFT}[Y(k)] &=\left ...
语音信号处理(一)
发表于2022-05-11|技术语音信号处理
语音信号处理概述1、语音交互(VUI) 优势:输入效率高、解放双手双眼(车载)、使用门槛低、信息“含量”高 劣势:信息接受效率低、复杂声学环境、心理负担 历史: 1952 Audrey 1962 IBM shoebox …… 2011 siri 2014 win8 cortana 2014 Amazon echo 2016 Google :Google Home 小米、百度、 人机语音交互流程 唤醒、开始一轮语音交互 语音输入 语音——> ASR(自动语音识别系统)——>指令文字 文本指令 ——>NLP(文本解析)——>用户意图 语义——>Skill——>回复文本 文本——>TTS——>反馈音频 语音交互适合场景家庭场景、车载场景、外出场景 2、复杂的声学环境: 方向性干扰,如人声 环境噪声(散射噪声) 远近产生的混响(本质上就是通信中的多径效应) 声学回声 前端处理意义: 让人听得清(提高SNR)、让机器听的请(语音识别率更高) 3、前端语音信号处理举例: 语音通话(免提通话) 电话/视频 远程会议 ...
1…678
avatar
taotaozi
文章
74
标签
64
分类
19
Follow Me
公告
最近的新任务是 : 努力啊
最新文章
JavaScript入门-JS进阶
JavaScript入门-JS进阶2023-08-08
boostrap学习(待写)
boostrap学习(待写)2023-08-01
JavaScript入门:WEBAPIs DOM BOM
JavaScript入门:WEBAPIs DOM BOM2023-07-28
JavaScript入门:基本语法
JavaScript入门:基本语法2023-07-27
经济学原理(曼昆)二- 市场如何运作
经济学原理(曼昆)二- 市场如何运作2023-07-26
分类
  • 技术72
    • Spring2
    • hexo1
    • java17
      • 单点登录1
    • linux1
    • 中间件4
    • 前后端1
    • 前端4
    • 操作系统1
    • 数据库8
    • 算法5
      • 回溯1
    • 计算机网络5
    • 语音信号处理9
    • 通信4
    • 项目6
  • 金融2
    • 经济学原理2
标签
java进阶 自适应滤波 AQS ReentrantLock 线程 引用 G1 编码 DSP 包装类 linux ElasticSearch Spring 对象 多线程 hexo HashMap redis 线程池 事务 JVM BootStrap 单点登录 RabbitMQ 字节码 语音信号处理 学成在线 计算机网络 JVM调优 类文件结构 java基础 阵列信号处理 JVM内存结构 MVCC 通信 hot100 Spring Cloud 前后端 类加载 Redis
归档
  • 八月 20232
  • 七月 20236
  • 六月 20235
  • 五月 20234
  • 四月 202316
  • 三月 20234
  • 十月 20226
  • 九月 20224
网站资讯
文章数目 :
74
本站总字数 :
359.9k
本站访客数 :
本站总访问量 :
最后更新时间 :
©2021 - 2023 By taotaozi
世上最幸运的事就是喜欢上一个人