给神经网络记忆
NTM组件:控制器,外部记忆,读写操作,输入输出
整个架构可微分训练
词汇表极大,同音词
口音,预期,强调
说话的方式,感情
……
形式:声波,时变
表示方法:波形图,频域图,时频谱图
遍历各种单词,找到这种语音下,实际是这种单词的最大可能
贝叶斯
词错误率 WER
计算方法:比较,错误率等于达到正确所需要的替换、插入、删除操作总数,再除以正确的单词数
CTC折叠??
输入信号进行时域卷积后,输出数据再进行频域的卷积以减少频谱的变化,然后通过三层的LSTM,最后通过一层DNN
训练过程中,时间卷积层和其他层会一起
语音指令设计 24条语音指令
语音指令录音 输出同一个是的
预处理工具
SOX 原始音频文件添加噪声,混响等劳动信号
ffmpg对音频文件转换
网络的训练将样本数据分批续联
安卓应用开发