Skip to content
This repository has been archived by the owner on Sep 5, 2020. It is now read-only.

Latest commit

 

History

History
24 lines (19 loc) · 483 Bytes

66-Day9.md

File metadata and controls

24 lines (19 loc) · 483 Bytes

Day 9

RNN Tensorflow 实现

神经图灵机NTM/DNC

语音识别 (Automatic Speech Recognition) & PyAudio

  • 为什么难
    • 词汇表的大小
    • 同音词
    • 口音, 语气, 腔调
    • 鸡尾酒问题
  • 语音有波形图, 频域图, 时频谱多种表示法
    • FFT 从 time domain $\to$ frequency domain.

给定 $X$ 语音信号, $$ W^* = \arg\max_M P(M|X) $$

评价指标WER。

可以利用 RNN, CTC折叠来对齐。

CLDNN

语音识别程序