Skip to content
This repository has been archived by the owner on Sep 5, 2020. It is now read-only.

Latest commit

 

History

History
107 lines (49 loc) · 1.79 KB

39-Day9.md

File metadata and controls

107 lines (49 loc) · 1.79 KB

39-Day9

神经图灵机(NTM)

给神经网络记忆

NTM组件:控制器,外部记忆,读写操作,输入输出

整个架构可微分训练

自动语音识别ASR

难点

词汇表极大,同音词

口音,预期,强调

说话的方式,感情

……

语音信号

形式:声波,时变

表示方法:波形图,频域图,时频谱图

基本方程与传统技术路线

image-20200415143224246

遍历各种单词,找到这种语音下,实际是这种单词的最大可能

贝叶斯

评价指标WER

词错误率 WER

计算方法:比较,错误率等于达到正确所需要的替换、插入、删除操作总数,再除以正确的单词数

循环网络处理语音识别

CTC折叠??

课程实践项目 声控智能

CLDNN

输入信号进行时域卷积后,输出数据再进行频域的卷积以减少频谱的变化,然后通过三层的LSTM,最后通过一层DNN

训练过程中,时间卷积层和其他层会一起

深智科技

课程项目--声控智能设计

声控智能设计

实验步骤

语音指令设计 24条语音指令

语音指令录音 输出同一个是的

实验过程
神经网络的训练与验证
计算平台使用
神经网络
部署

aduioplt

预处理工具

SOX 原始音频文件添加噪声,混响等劳动信号

ffmpg对音频文件转换

深度网络的实际训练过程

网络的训练将样本数据分批续联

aduioNet

数据增强

安卓应用开发

JAVA python

谷歌安卓开发环境