语音识别在线资源整理
2020-07-03
2 min read
语音识别在线资源整理
-
Montreal Forced Aligner基于kaldi的强制对齐工具
-
移除静音帧工具ffmpeg 避免预料中一个sentence被分成几个utterance影响
-
VQ-VAE的codebase语音上的无监督离散化工作和zero speechzero speech
Questions needed to be more solid so far 2020.03.09
- GMM-HMM究竟怎么用在语音识别中的对齐部分,如何学习到边界,怎么确定三音子绑定状态下的决策树以及对应的问题集的设计问题?尤其注意流程、输入输出、训练摘要 参照
- WFST与HMM模型构建的声学模型的shallow fusion?
A few knowledge in speech
ASR tricks
- L1 norm可以加速得到attention和减少noisy样本干扰
- tanh可以减少target range out的mismatch情况
- CNN网络相比attention based和LSTM based网络参数量较少
- End-to-End方法在low-resource场景下效果不如Hybrid系统
- CTC可以帮助修正attention based软对齐问题,并加速解码