- 控制器通过输入输出向量和外界交互。不同于标准神经网络的是,控制器还会使用选择性的读写操作和记忆矩阵进行交互。类比于图灵机,我们将网络的参数化这些操作的输出称为“读头”。最关键的是,每个组成部分都是可微的,这样可以更加直接地使用梯度下降进行训练。
- Hard to train.
- 语音信号的表示:波形图,频域图,时频谱
- 传统语音识别:贝叶斯后验概率估计
- 评价指标:WER 将标准答案和识别结果对齐,错误率等于替换、删除、插入的词数除以总词数,可能大于100%
- 挑战:X和Y都是变长的
- 通过RNN网络后形成一个概率分布矩阵,识别不同的序列,生成概率最高的序列。
- 预处理-训练-应用-手机app
- 步骤一:数据准备——语音样本
- 步骤二:模型训练:AudioNet;需要数据准备和数据增强(数据增强:增强模型的鲁棒性)
- 步骤三:把模型部署到手机上