语音识别在线资源整理

语音识别在线资源整理

  1. 斯坦福大学《语音与语言处理》第三版draft

    全文PDF

  2. 深蓝学院《语音识别:从入门到精通课程》

  3. 爱丁堡大学语音处理课程

  4. Kaldi tutorial

  5. Montreal Forced Aligner基于kaldi的强制对齐工具

  6. 移除静音帧工具ffmpeg 避免预料中一个sentence被分成几个utterance影响

  7. VQ-VAE的codebase语音上的无监督离散化工作和zero speechzero speech

  8. 评估声学embedding工具UTDABX

  9. CMU 11-785


Questions needed to be more solid so far 2020.03.09

  • GMM-HMM究竟怎么用在语音识别中的对齐部分,如何学习到边界,怎么确定三音子绑定状态下的决策树以及对应的问题集的设计问题?尤其注意流程、输入输出、训练摘要 参照
  • WFST与HMM模型构建的声学模型的shallow fusion?

A few knowledge in speech

  1. shallow fusion、deep fusion和code fusion的关系
  2. ESPnet tutorialGithub ESPnet repository

ASR tricks

  1. L1 norm可以加速得到attention和减少noisy样本干扰
  2. tanh可以减少target range out的mismatch情况
  3. CNN网络相比attention based和LSTM based网络参数量较少
  4. End-to-End方法在low-resource场景下效果不如Hybrid系统
  5. CTC可以帮助修正attention based软对齐问题,并加速解码