首页 AI学术青年与开发者社区

10年语音专家带你实战特训:远场语音交互技术

开课时间:录播回放,在线学习
开课时长:20+课时,课程上线后,至少两次直播答疑
会员价¥399.00
现价:¥999.00
原价:¥1,999.00

  开通会员,立省600元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

汉宁窗相对汉明窗常用,因为在时域恢复的时候前后帧在叠加区域幅值相加为1。

 

不使用OVERLAP情况下,前后帧时域衔接时候会出现跳变,在频谱中体现为栅状结构。

语音信号在16ms内平稳

[展开全文]
方林 · 2017-07-26 · 基本概念 0

1)定位,波束形成,echo ti芯片,随时估计说话人方向,很难做到。

2)叮咚音箱,采用指向性mic,自然屏蔽,音箱出来的声音。中间突起,波束可以做到向上一些。全志+科胜讯codec芯片3+fpga,用于采集。

3)声智科技

去混响效果优异

[展开全文]

房间冲击响应

反射,拖尾

1.音效:声源卷积冲击响应

2.识别:实际声音去除混响得到声源

[展开全文]

单通道语音增强

噪声谱估计后,降低平稳噪声能量值,对瞬时噪声无效

enhance\omlsa.m

[展开全文]

多通道维纳滤波等效于MVDR 级联单通道语音增强。大幅简化

波束形成对于识别率有益处,比挑选某一路直接识别强

[展开全文]

 

ast_conv 可以实现低延时取代长卷基

512点滤波器,每次做128点

 

in 是256的阵,放s的前一时刻数据128点,后面补0,对in做fft

Y 是256x4的阵,放4帧的fft结果,叠加冲击响应W后ifft放在tmp里

method1:

把tmp前M点和上一帧数据后M点叠加放入y.

method2:

修改s填入方法,in的后M点,in的前M点放s。

这样,就省掉一次叠加了

y对比x(s长卷积h).看误差大小

 

PFBLMS:

x是输出给喇叭的信号,w是房间冲击响应可能是3000点的长序列,用fast_conv分段卷积的方法得到时域信号y,从mic得到的d中减掉y就是近端声音e了。由fast_conv实验得知,这种近似方法和长卷积误差很小。

[展开全文]

1.回声消除

喇叭和扬声器之间的距离。

声速。

合算为采样点。

不断的调整,对齐

NLMS 

16K采样率 房间回声200ms 就是3200点

喇叭到MIC 20cm,58ms,928点

维纳滤波

nlms,增加了功率归一化

 

[展开全文]

1. 非整数频率能量,FFT后,泄漏到周围频率上。

人耳的采样率是多少?普通人耳也分辨不出千分之5的频率差异啊。

2. overlap为了让相邻帧尽量不跳变,在通讯中一样的,要在每帧开始循环冗余。保证调制信号不要突变,因为突变信号很难传播远。

3.声音编辑工具,adobe audition

4.语谱图  功率谱

[展开全文]
nengtiansh · 2017-05-31 · 基本概念 1

授课教师

微信扫码分享课程