基于CMN网络的低资源柯尔克孜语识别研究

2018-12-14 09:05:06 现代电子技术2018年24期

孙杰 吾守尔·斯拉木 热依曼·吐尔逊

关键词: 语音识别; 低资源; 柯尔克孜语; 跨语种声学模型; CMN; 音素映射

中图分类号: TN711?34; TP391 文献标识码: A 文章编号: 1004?373X(2018)24?0132?05

Research on CMN?based recognition of Kirgiz with less resources

SUN Jie1,2, Wushour Silamu1, Reyiman Tursun1

(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;

2. Department of Physics, Changji University, Changji 831100, China)

Abstract: As there exists low recognition rate caused by sparse training data during the speech recognition of minority languages, a cross?language acoustic model based on convolutional maxout networks (CMNs) is constructed in this paper for less?resource Kirgiz recognition. In the CMN model, the local sampling and weight sharing technologies of the convolutional neural network (CNN) are used to reduce network parameters. The convolutional kernel of the CNN is replaced by the maxout neuron to improve the extraction capability of network abstract features. The cross?language CMN is pre?trained by using the Uygur language with relatively?rich resources. The Dropout regularization training method is used to prevent over?fitting. The phoneme mapping set based on forced alignment of synonyms is created according to the similarities of the two languages. The to?be recognized Kirgiz data is marked. The CMN parameters are fine?tuned by using the limited corpus of the target language. The experimental results show that the word error rate of the proposed CMN acoustic model is 8.3% lower than that of the baseline CNN acoustic model.

Keywords: speech recognition; less resource; Kirgiz; cross?language acoustic model; CMN; phoneme mapping

0 引 言

“一带一路”倡仪的提出使得我国与周边国家的商贸往来和文化交流日趋频繁。多语言特别是小语种的自动语言翻译机成为地区间互联互通的迫切需求。

小语种语音识别面临的困难是标注数据匮乏难以建立鲁棒的声学模型。目前,低资源条件下构建跨语种声学模型是一个研究的热点问题。Schultz等人提出利用Bootstrap将多个单语种的声学模型集成为跨语言的通用音素集,对瑞典语识别时获得最低34.3%的音素错误率,但该方法不能将富语料语种音素的上下文关系转移到目标语声学模型[1]。为此,Imseng等人使用KL距离(Kullback?Leibler divergence) 构建了多语种三音素隐马尔可夫模型HMM(Hidden Markov Model)。该模型的主要思想是用MLP(Multi?Layer Percetron)估计音素的后验概率,用多项式分布描述HMM状态,利用相对熵作为损失函数度量两者之间的距离[2]。实验结果表明,在较小数据集情况下,KL?HMM模型比GMM?HMM[3]模型识别效果好。但该方法假定模型中每个音子的状态转移概率固定,会降低解码精度。Miao,Joy等人在SGMM(Subspace Gaussian Mixture Model)基础上提出了共享SGMM模型,分别使用多语言语料训练模型的共享参数和有限资源语料训练状态特殊的向量,较单语种SGMM在字识别准确率有5%的提升[4?5]。由于深度神经网络[6](Deep Neural Network,DNN)具有强大的抽象特征提取能力,Huang等人将经过多语种训练的深度神经网络的隐藏层用于低资源语种的识别[7],称为共享隐藏层技术(Shared Hidden Layers,SHL)。该方法取得很好的识别效果,但需要多个语种的大量数据对模型进行充分训练。

为了更好利用dropout具有的近似模型平均的功能,Goodfellow提出一种新型前馈maxout网络。基于这种思想[8],Miao提出了DMN[9](Deep Maxout Networks)、Cai引入了SPMN[10](Stochastic Pooling Maxout Networks)方法对有限数据的语言进行语音识别,在Babel数据集上的实验结果表明该方法能有效降低对数据的需求。

受此启发,本文在对语料资源匮乏的柯尔克孜语识别时,提出跨语种的CMN声学建模方法,与文献[9]和文献[10]相比本文的主要不同点是:

1) 借用同一个语系资源相对丰富的维吾尔语数据构建交叉语种的CMN网络,作为识别系统的底层特征提取器获得柯尔克孜语音素的后验概率;

2) 使用maxout激活函数替换CNN[11] (Convolutional Neural Networks)的卷积操作,增强模型的非线性表达能力;

3) 通过maxout神经元具有的仿射变换结构,在CMN训练时引入dropout方法,增加模型平均的能力。

最后,根据语言的相似性,对维语和柯语表示相同意义的词进行强制对齐,用数据驱动方法建立维语到柯语的音素映射集,并用映射结果标注柯尔克孜语,利用有限标注数据微调网络参数,进一步提高柯尔克孜语的识别精度。

1 跨语种的CMN声学模型

跨语种的CMN(Convolutional Maxout Networks)模型是一种前馈型网络,结构类似于卷积神经网络CNN,不同点是将CNN的卷积层和ReLU层替换为仿射变换层和maxout激活层,并在训练时引入dropout正则化方法。CMN网络结构如图1所示。

1.1 仿射变换层和maxout激活层

CMN网络中仿射变换层采用了CNN网络局部采样技术的思想。首先通过一组大小不同的滑动窗口(Window)沿语谱图的频域维度滑动,并将窗口中的每一个神经元与仿射变换层中的[k]个神经元进行全连接;然后对局部输入特征做仿射变换。与CNN卷积层类似,为减少网络的待调节参数,在CMN中定义一个滑动窗口对应一个仿射变换矩阵[W],并通过固定[W]实现不同输入单元共享权值。第[l]层第[i]个窗口对应的仿射变换定义为:

[zli=Wlixl-1+bli] (1)

式中:[Wli∈Rk×d]是仿射变换矩阵;[xl-1∈Rd]是[l]-1层局部输入向量,[d]代表滑动窗口的大小;[bli]为偏置量。

由式(1)可知仿射变换层中不同的滑动窗口产生不同的仿射特征图,而maxout激活层通过maxout函数对上一层仿射特征图中的[k]个节点取最大值,生成多张特征映射图。maxout激活层中特征映射图节点的激活值为:

[hli(x)=maxj∈[1,k]zl-1ij] (2)

maxout神经元具有非常强的拟合能力,可以拟合任意的凸函数。文献[8]证明当[k]足够大时,只需2个maxout神经元就可拟合任意凸函数。基本思想是任意的凸函数都可由分段线性函数以任意精度拟合,而maxout层神经元是取前一层k个节点的最大值,同时这些节点都是线性的。因此在不同的取值范围内最大值也被看作是分段线性的,分段的个数与k值相关。图2是用maxout神经元分别拟合正线性函数、绝对值函数和二次函数的情况。

1.2 跨通道聚合层

在CMN结构中,两个maxout层后通常接一个跨通道聚合层。跨通道聚合层采用池化(pooling)技术将多个特征映射层相同位置的特征点整合为新的特征,其功能主要有两个:一是压缩maxout激活层的特征维度,减少网络参数,从而减少对训练数据的需求;二是提升CMN网络声学模型的鲁棒性,即对输入特征的微小变化保持不变性(旋转、平移和伸缩等)。常用池化技术有最大池化(max?pooling)和均值池化(mean?pooling)等。本文采用均值池化,聚合后的神经元为:

[Pmi=averagej∈i?k…(i+1)?k(hmj)] (3)

式中:[Pmi]是第m层第i个神经元;k是采样因子。

1.3 全连接层和HMM

CMN网络末端是一个全连接层和一个softmax层以及一个HMM(Hidden Markov Model)模型。最后一个softmax层输出为音素的后验概率,其概率得分可以看作是隐马尔科夫模型的发射概率,定义为:

[p(y(i)=jx(i);θ)=eθTjx(i)l=1keθTlx(i)] (4)

式中:[θ]是权重矩阵;[l=1keθTlx(i)]是归一化因子。

1.4 Dropout正则化训练

深度神经网络DNN参数通常达百万数量级,当标注数据不足时网络会过度学习到训练集上的分类权重,在测试集上泛化性能较差。在CMN网络中,除使用共享权值矩阵防止过拟合外,还可利用maxout层的仿射变换结构引入dropout正则化训练方法,在每次训练时以一定的概率对网络的神经元进行舍取,减少网络待调节参数防止过拟合。应用dropout后第[l]层上神经元的激活值为:

[hl=σ(WTlhl-1+bl)?ml] (5)

式中:“[?]”代表向量对应元素相乘;[ml]为二进制掩码且服从[Bernoulli(1-p)]分布,[p]通常称为dropout的丢弃率。由于训练阶段神经元以[(1-p)]概率保持,测试时须还原出训练时的网络行为,需要通过比例因子[(1-p)]缩放激活函数,导致训练后模型不固定。反转dropout基本思想與dropout基本一致,只是在训练时对神经元激活值进行比例缩放,测试时保持不变,达到一次定义模型的目的。训练时反转dropout应用于第[l]层神经元的激活为:

[hl=(1-p)-1σ(WTlhl-1+bl)?ml] (6)

2 发音词典的转换

在交叉语种识别时要建立源语言到目标语发音词典的转换,实现目标语料的转写、发音词典的构建和识别结果的转换。

2.1 维语与柯语的语言学关系

维语和柯语分别是维吾尔语与柯尔克孜语的简称,其文字均以阿拉伯字母书写,同时辅以拉丁文进行补充和完善。按照谱系关系,二者被归于阿尔泰语系突厥语族,属于有亲属关系的两种语言。从语言学角度看,维语和柯语在语音、词汇和语法规则上存在一定的相似关系:

1) 维语和柯语的元音和谐律部分相同。突厥语语音相近程度的主要衡量标准是元音和谐律类型的异同[12]。在维语和柯语各自16种和谐模式中存在8种相同的规律:/a/?/a/,/a/?/u/,/a/??/o/,/u/?/u/,/u/??/a/,/y/??/y/,

/?/??/y/,/i/?/i/(使用IPA转写)。

2) 在维语和柯语中,有部分表达同一意思的词音节构成有具有对应关系,表现为元音之间的替换、增音和减音等。例如:“妈妈”/ana/(维语)?/ene/(柯语),“鸭子”/?d?k/(维语)?/?rd?k /(柯语),“学生”/oqu?u? ?i/(维语)?/oqu? ?u/(柯语)。另外,语言接触过程中产生了一些共同词汇,如:“爸爸”/ata/,“教育”/marip/等。

3) 维语和柯语表示不同语法意义是通过在词根后线性添加不同词缀实现,如 “画家的”/syr?t?i?ni?/(维语)?/syr?t?y?nin/(柯语),“我喝”/ i??i?m?n /(维语)?/i??e?men/(柯语)等。

2.2 维语和柯语的发音单元

维吾尔语和柯尔克孜语都是拼音文字,音素和音节都有本质发音的特点。突厥语的一个共性特征是都含有8个基本元音,且元音是构成音节的基础。维吾尔语保持了8个基本元音。柯尔克孜语除8个元音外,还增加了6个长元音。维吾尔语有24个辅音,柯尔克孜语有22辅音。另外,两种语言大约各有5 000个音节[13]。目前,音素作为维吾尔语识别基元已经成为一种共识[13?14]。

2.3 数据驱动的音素映射集

在维吾尔语和柯尔克孜语之间建立音素映射,最简便的方法是利用国际音标(International Phonetic Alphabet,IPA)分别转写维语和柯语的元音和辅音,然后寻找具有共同发音的音素组成映射对,本文称为启发式音素映射方法。对于一些不存在的音素使用发音最接近的音素进行匹配,因此这种方法很大程度上受到主观因素影响。

本文考虑到维语和柯语在语音、词汇和语法方面具有一定的相似性,从语言学角度提出将维语和柯语中的同义词进行强制对齐,用概率统计的方法计算两种语言之间音素映射频率,本文称为数据驱动音素映射方法。在给定两个音素集W和K的情况下,基于词强制对齐的数据驱动的音素映射表示为:

[K→W=argmaxWPwi kj] (7)

式中,[Pwi kj]表示统计词对中音素[kj]出现时[wi]出现的概率,计算方法如下:

[Pwi kj=o=1Nt=1MCwio,t,kjo,to=1Nt=1MCkjo,t] (8)

式中:N表示词的总个数;M表示词的长度;[Cwio,t,kjo,t]和[Ckjo,t]分别表示词对o中第t个位置音素[wi,kj]同时出现的频数和[kj]出现的总频数。

图3描述了汉语词汇“牧民”使用IPA转写为柯尔克孜语/?aban/和维吾尔语/mal?i/后进行音素映射的过程。容易看出柯尔克孜语音素/a/出现的总频数为2,与维吾尔语音素/?/在同一位置出现的频数为1,用式(8)计算映射概率P(w=‘?|k=‘a)=0.5。

由于维语和柯语表示相同意义的语句长度不同,在计算维语和柯语音素映射概率之前,音素序列使用动态规划(Dynamic Programming,DP)算法进行对齐。

3 实 验

3.1 实验数据

为使跨语种的CMN,CNN,DNN网络声学模型参数获得较为充分的训练,本文使用两个维吾尔语数据库:THUYG?20[15]和《维吾尔语电话语音数据库》。THUYG?20是清华大学公开的一个免费的20 h维吾尔语语音数据库,共有9 468句使用麦克风连接电脑录制的维吾尔语语音;《维吾尔语电话语音数据库》是由新疆大学多语种信息技术实验室创建,目前提供给部分科研院所、公司和实验室内部使用,处于半开放状态,未来逐步全面公开。该数据库通过手机收集了1 050对维吾尔族说话人自由交谈的语音数据,有效总时长约为500 h。柯尔克孜语语料由40个柯尔克孜族说话人(19男,21女)使用手机记录的自然对话语音组成,有效总时长约5 h,共计2 160句。

3.2 实验设计

实验使用Kaldi语音识别工具箱分别搭建CMN?HMM,CNN?HMM和DNN?HMM识别系统。CMN网络结构input+2maxout+pool+2maxout+pool+2FC;CNN網络结构为input+2conv+pool+2conv+pool+2FC;DNN网络结构为input+4hiddens+softmax,隐层节点为1 024个;CMN,CNN和DNN的输入层均为1 364维(由40维Fbank和其一阶、二阶差分,加上四维的韵律特征,进行前后各5帧共计11帧拼接组成);其中CMN滑动窗口大小为3×3@64,每个窗口对应仿射层神经元为7个,池化窗口大小为2×2;CNN网络的卷积层卷积核尺寸为3×3@64,池化窗口大小为2×2。实验中所有训练和测试语音数据采用G.723.1算法进行语音端点检测(Voice Activity Detection,VAD)和倒谱均值减(Cepstral Mean Substract,CMS)技术做降噪处理。使用误差反向传播算法(Back Propagation,BP) 对CMN,CNN和DNN网络训练,采用随机梯度下降(Stochastic Gradient Descent,SGD)调整网络参数。在训练过程中,对DNN和CNN在全连接层采用dropout方法,而CMN中的仿射变换和全连接层均采用dropout方法。在柯尔克孜语语音数据随机挑选2 000句语音组成训练集,剩余160句语音作为测试集。

3.3 实验结果

1) 实验1

单语种CMN,CNN和DNN混合系统识别实验。直接用柯尔克孜语数据训练DNN,CNN和CMN网络,训练时将dropout的丢弃率[p]分别设置为0.2,0.3和0.4;然后用最大似然准则训练单音子HMM模型,使用决策树算法做状态绑定后获得920个三音子状态。最后将3种网络和HMM模型结合对柯尔克孜语进行识别实验,并用WER(Word Error Rate)作为评价指标,识别结果见表1。

从表1三种网络混合模型的识别结果可以看出,CMN?HMM模型在不同的dropout丢弃率下的WER均低于CNN?HMM和DNN?HMM,说明CMN网络在单一语种且有限数据情况下的识别性能好于CNN和DNN。另外,由于DNN网络参数数量巨大,识别准确率随dropout丢弃率增大有所提升,而CMN和CNN网络模型在dropout为0.3时字错误率最低,当继续增加到0.4時WER开始变大,说明[p]=0.3时,网络识别准确率最佳。

2) 实验2

跨语种的CMN?HMM,CNN?HMM和DNN?HMM混合模型识别实验。首先使用维吾尔语数据对3种网络做预训练,设置dropout丢弃率为0.3;分别用启发式音素映射集和数据驱动音素映射集标注柯尔克孜语音;然后用柯尔克孜语调优网络(分为调优整个网络和仅调优softmax层);最后,使用EM算法训练单音子HMM模型,经状态绑定后获得10 800三音子状态。解码时使用维语文本数据训练得到的3?gram语言模型。识别结果如表2所示。

表2是跨语种CMN?HMM,CNN?HMM和DNN?HMM混合系统识别柯尔克孜语的识别结果。对比表1可以看出跨语种的三类网络模型均比单语种的网络模型识别率高,说明深度神经网络经过相似语种的预训练后可以获得很好的初始化参数,网络的多层结构和神经元之间的非线性连接可以提取到语言之间更加抽象的关系。从表2实验结果可以看出CMN网络识别效果好于CNN网络,在跨语种声学建模时仿射变换层要比卷积层更有优势。对比使用不同音素映射集标注语料的识别结果,可以看出数据驱动音素集比启发式音素集识别精度有1.8%~3.7%的提升。此外,单独对softmax层调整权重的识别效果优于对整个网络参数调整的识别效果,识别字错误率有0.8%~4.1%的降低。总体而言,CMN?HMM混合系统在使用数据驱动音素集标注低资源目标语料且只对softmax层调参的情况下,识别准确率最高,其WER为27.2%,相比CNN?HMM混合系统识别准确率有8.3%的改进。

4 结 语

本文结合卷积神经网络的特点和maxout神经单元的特殊结构提出跨语种的CMN网络模型,用于低资源的少数民族语言识别的声学模型构建,并将dropout正则化训练方法运用到CMN网络参数训练增强模型平均能量和防止过拟合。为进一步提高系统的识别准确率,采用概率统计方法获得富语种和低资源语种音素映射集,标注待识别语种数据。本文下一步的工作是在增加柯尔克孜语料的基础上,进一步完善CMN?HMM模型。

参考文献

[1] SCHULTZ T, WAIBEL A. Experiments on cross?language acoustic modeling [C/OL]. [2011?09?14]. https://wenku.baidu.com/view/b6ced1edf8c75fbfc77db2d3.html.

[2] IMSENG D, BOURLARD H, GARNER P N. Using KL?divergence and multilingual information to improve ASR for under?resourced languages [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 4869?4872.

[3] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257?286.

[4] MIAO Y, METZE F, WAIBEL A. Subspace mixture model for low?resource speech recognition in cross?lingual settings [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 7339?7343.

[5] JOY N M, ABRAHAM B, NAVNEETH K, et al. Improved acoustic modeling of low?resource languages using shared SGMM parameters of high?resource languages [C]// Proceedings of 22nd National Conference on Communication. Guwahati: IEEE, 2016: 1?6.

[6] DAHL G E, DONG Y, LI D, et al. Context?dependent pre?trained deep neural networks for large?vocabulary speech recognition [J]. IEEE transactions on audio speech & language processing, 2012, 20(1): 30?42.

[7] HUANG J T, LI J, YU D, et al. Cross?language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 7304?7308.

[8] GOODFELLOW I J, WARDE?FARLEY D, MIRZA M, et al. Maxout networks [C]// Proceedings of the 30th International Conference on Machine Learning. [S.l.: s.n.], 2013: 1319?1327.

[9] MIAO Y, METZE F, RAWAT S. Deep maxout networks for low?resource speech recognition [C]// Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc: IEEE, 2014: 398?403.

[10] CAI M, SHI Y, LIU J. Stochastic pooling maxout networks for low?resource speech recognition [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Florence: IEEE, 2014: 3266?3270.

[11] DAHL J V, KOCH K C, KLEINHANS E, et al. Convolutional networks and applications in vision [C]// Proceedings of IEEE International Symposium on Circuits and Systems. Paris: IEEE, 2010: 253?256.

[12] 吴宏伟.突厥语族语言的分类[J].语言与翻译,1992(1):19?24.

WU Hongwei. The language classification of Turkic branch [J]. Language and translation, 1992(1): 19?24.

[13] 那斯尔江·吐尔逊,吾守尔·斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7):2009?2011.

Nasirjan Tursun, Wushour Silamu. Uyghur continuous speech recognition system based on HMM [J]. Journal of computer applications, 2009, 29(7): 2009?2011.

[14] 杨雅婷,马博,王磊,等.维吾尔语语音识别中发音变异现象[J].清华大学学报(自然科学版),2011,51(9):1230?1233.

YANG Yating, MA Bo, WANG Lei, et al. Uyghur pronunciation variations in automatic speech recognition systems [J]. Journal of Tsinghua University (Science & technology), 2011, 51(9): 1230?1233.

[15] 艾斯卡尔·肉孜,殷实,张之勇,等.THUYG?20:免费的维吾尔语语音数据库[J].清华大学学报(自然科学版),2017,57(2):182?187.

Aisikaer Rouzi, YIN Shi, ZHANG Zhiyong, et al. THUYG?20: a free Uyghur speech database [J]. Journal of Tsinghua University (Science & technology), 2017, 57(2): 182?187.