分享
中新经纬>>

live bet007,四川麻将规则,海贼王之缔造传说,吴易奚

2019-06-18 中新经纬

   

live bet007目前主流的语音识别都大致分为特征提取,声学模型,语音模型几个部分。目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种。下面介绍在语音识别中,RNN+CTC模型的训练详细过程,到底RNN+CTC是如何不用事先对齐数据来训练序列数据的。14(h)=(15(h)+15(a))y14h14(h)=(15(h)+15(a))yh14在我们的例子中,z=[n,n,n,n,n,n,n,i,i,i,i,i,i,h,h,h,h,h,h,h,a,a,a,a,a,a,o,o,o,o,o,o,o]z=[n,n,n,n,n,n,n,i,i,i,i,i,i,h,h,h,h,h,h,h,a,a,a,a,a,a,o,o,o,o,o,o,o],zz包含了每一帧的标签。在这种情况下有:

四川麻将规则=(y1q1y13q13+).y14h.(y15q15y30q15+y15r15y30r30)(yq11yq1313+).yh14.(yq1515yq1530+yr1515yr3030)Tt1ytk=1,ytk0t1Tykt=1,ykt0p(z|y)y14hp(z|y)yh14+路径q1:14+r14:30的概率?路径q1:14+r14:30的概率

海贼王之缔造传说可以看到,这里总的计算量非常小,计算和的计算量均大约为(音素个数)(音素个数),(加法乘法各一次),得到和之后,在计算对每个ytkykt的偏导值的计算量为(音素个数)(音素个数),因此总计算量大约为(音素个数)(音素个数),这是非常小的,便于计算。对于其中一个样本(x,z)(x,z),x=(x1,x2,x3,.,xT)x=(x1,x2,x3,.,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xiRmxiRm。xixi可以理解为对于一段语音,每25ms作为一帧,其中第ii帧的数据经过MFCC计算后得到的结果。这种神经网络+CTC的结构除了可以应用到语音识别的声学模型训练上以外,也可以用到任何一个输入序列到一个输出序列的训练上(要求:输入序列的长度大于输出序列)。过程入下图所示:

吴易奚在实际训练中并不知道每一帧对应的音素,因此进行训练比较困难。可以先考虑一种简单的情况,已知每一帧的音素的标签zz,即训练样本为xx和zz,其中zz不再是简单的[n,i,h,a,o][n,i,h,a,o]标签,而是:=14(h)14(h)y14h14(h)14(h)yh14=B()=zp(|y)y14hB()=zp(|y)yh14表示所有音素的集合

(编辑:董文博)
中新经纬版权所有,未经书面授权,任何单位及个人不得转载、摘编以其它方式使用。
关注中新经纬微信公众号(微信搜索“中新经纬”或“jwview”),看更多精彩财经资讯。
关于我们  |   About us  |   联系我们  |   广告服务  |   法律声明  |   招聘信息  |   网站地图

本网站所刊载信息,不代表中新经纬观点。 刊用本网站稿件,务经书面授权。

未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。

[京ICP备17012796号-1]

违法和不良信息举报电话:18513525309 举报邮箱:zhongxinjingwei@chinanews.com.cn

Copyright ©2017-2019 jwview.com. All Rights Reserved


北京中新经闻信息科技有限公司