语音识别在线资源整理 | Linghui's blog

语音识别在线资源整理

2020-07-03 2 min read

语音识别在线资源整理

斯坦福大学《语音与语言处理》第三版draft

全文PDF
深蓝学院《语音识别：从入门到精通课程》
爱丁堡大学语音处理课程
Kaldi tutorial
Montreal Forced Aligner基于kaldi的强制对齐工具
移除静音帧工具ffmpeg 避免预料中一个sentence被分成几个utterance影响
VQ-VAE的codebase语音上的无监督离散化工作和zero speechzero speech
评估声学embedding工具UTD、ABX
CMU 11-785

Questions needed to be more solid so far 2020.03.09

GMM-HMM究竟怎么用在语音识别中的对齐部分，如何学习到边界，怎么确定三音子绑定状态下的决策树以及对应的问题集的设计问题？尤其注意流程、输入输出、训练摘要 参照
WFST与HMM模型构建的声学模型的shallow fusion？

A few knowledge in speech

ASR tricks

L1 norm可以加速得到attention和减少noisy样本干扰
tanh可以减少target range out的mismatch情况
CNN网络相比attention based和LSTM based网络参数量较少
End-to-End方法在low-resource场景下效果不如Hybrid系统
CTC可以帮助修正attention based软对齐问题，并加速解码

- 语音识别在线资源整理
  - A few knowledge in speech
  - ASR tricks

下一篇

文献阅读初探