基于RBF神经网络的四声自动识别及应用

(整期优先)网络出版时间:2019-01-04
/ 3

摘 要 本文利用一种快速声调识别方法,用一电平消波,降低采样率和线性插值形成快速基音提取,并应用RBF神经网络对四声进行自动分类。方法具有简单可靠和容差性等特征。

关键词 声调识别, 自动声韵切分, 基音提取, RBF神经网络

1 引言

汉语是一个声调语言,正确的识别声调具有重要的意义。声调是汉语主要属性之一,正确的识别声调具有重要的辩义作用。声调识别对语音合成、识别和理解也有重要意义。近年国内外已报导许多声调识别方法[7][8][9],都有很高的识别率,孤立字声调识别开始进入实用[10]。需要指出,某些方法缺乏模型描述,不能达到最佳效果。有的需先进行特征训练来建立训练模板,否则性能会下降,有些方法因计算复杂和计算量大使之难于实时处理。

2 声韵切分的算法的实现

声母的音长比较稳定,不太因人而异[1][2]。因此,如果声韵切分准确,就可以对可靠的声母信息进行分析,从而得到良好的判别结果。

从语言学的角度来看,声母韵母之间有一定的界线,但在声学信号上这一界线并不很清楚。往往要采用专家系统的方法才能获得较为准确的分割,文献[3] [4]给出了人工方法切分的声母长度的分布情况。但是,一方面:有手工进行大量数据语音库的标注是一件费事而又枯燥的工作,长时间的连续的工作又会造成标注人员生理,心理的疲劳,从而在切分过程中引入不可预测的随意性误差;同时标注人员对语言学的理解和把握的不一致,经常是标注人员对自己的判断更为认同,自己的标注结果“更准确”。这样就引入了主题判断造成的倾向性误差,因而使得切分结果的可重复性无法得到保证,不同人所得的切分结果的可重复性就更差。另一方面,在自动语音判别系统中(普通话标准测试中),这一切分过程要求自动实现。目前尚没有一种供人满意的声韵切分的算法,大致的有用小波变换进行切分的[5],有用声母音长分布[2],有用基于多尺度分形维数的汉语语音声韵切分[6],有用基于听觉模型的耳语的声韵切分。

汉语的22种声母中,除了零声母,l,m,n,r外,其余都是清辅音,根据这一特点,我们做出的声韵切分规则为:

令音节的总长度为 ,声母类单元长度为 ,韵母类长度为 ,音阶中的清音段长度(或浊音起始位置)为 ,则

<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />85634838.jpg(1)

式(1)意义是:把语音分割为声学单元和韵母单元两大类,声母单元的长度为Ti ,包括清音部分(可能没有,856348861.jpg )和浊音之间的一段过渡部分(固定长度);韵母单元的长度为Tf ,它可能包含了从音节的浊音开始至音节结束的部分。

856341840.jpg

图1(声韵切分的流程图)

韵母的音长Tf 的分布很宽,可能在150ms至1000ms内。声母单元的音长 Tf由Ton 和C两部分构成, Ton 为音节前端的清音部分(对零声母,浊声母, 可能为零)而C所表示的音长段对不同的声母具有不同的意义:(1)对零声母,C为韵母的头部分:(2)对于浊声母,C为声母的前面一段:(3)对于不送气爆破音,C包含爆破音及声韵过渡段,有时还包括了一部分喉结韵母的韵头部分:(4)对于其他声母,C包含了声韵过渡段,有时也包括一部分或声韵母过渡段。可见,清浊声母和零声母以外的声母而言,声母单元一段包含声母部分外,还包含了声韵过渡段,是声韵切分的流程图。(图1)

856351130.jpg

图2 (七字)声韵切分效果图

3 基音检测[10][11]

汉语声调信息载于音节的基音曲线上,并主要在韵母段,常用的基音检测自相关法具有物理意义明确和方法简便等优点,但其繁重的计算量影响在实时处理中的应用。为了提高计算速度和加快基音提取,本文采取下列措施。

3.1 一电平中心消波

一般汉语基音频率下限可取60Hz(16.7ms),自相关计算至少要包含两个完整的基音周期语音,实际只要选取的帧长为30ms,就可找出所有高于67Hz的基音频率。已有的中央削波法可以有效地解决声道响应的谐波影响。本文在此基础上提出一电平削波.图3为一电平削波函数。削波器输出在z(n)<C1 时为0,C1 为分析帧中前后各100样点的最大值中较小的一个68%,自相关计算如下式:

85635464.jpg

856355231.jpg

3.2 降低采样率(三分颊)

经过一电平削波后,自相关函数的峰值十分突出,得到的基音频率较准,我们进一步降低采样率,对削波器输出序列y(n)进行三分频。为保留信号的周期性,在3个连续采样中取l点,抽取的规则如下:

856359492.jpg

85635392.jpg

图4(信号中心消波与自相关图)

3.3 基音检测的后处理[12]

无论采用哪一种基音检测算法都可能产生基音检测的错误,使求得的基音周期轨迹中一个或几个基音周期的估计值偏离了正常的轨迹(通常是偏离到正常值的两倍或1/2),此时为了去除这些野点,可以采用各种中值平滑算法

(1)中值平滑处理

中值平滑处理的基本原理是:设x(n)为出入信号,y(n)为中值滤波器的输出,采用一个滑动窗,则以 出的输出值 就是将窗外的中心移到 处时窗口输入样点的中值。及 点的左右各取L个样点。连同被平滑点中心共同构成一组信号采样点(共(2L+1)个样值),然后将这(2L+1)个样点按大小序列排成一排,此序列中中间者作为平滑器的输出。L值一般为1或2,即中值平滑起的“窗口”一般套住3个或5个样点。中值平滑的优点是既可以有效地除去少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。

(2) 线性平滑处理

856368518.jpg

图5(基音曲线平滑的效果)

线性平滑使用滑动窗进行线性滤波处理,即:

856366039.jpg

其中{w(m),856364649.jpg L为2L+1点平滑窗。满足

856364680.jpg

例如三点窗的权值可以去{0.25,0.5,0.25}. 线性平滑在纠正输入信号中部平滑处样点值的同时,也使附近各点的值作了修改。所以窗的长度加大虽然可以增加平滑的效果,但是也可以导致两个平滑段之间的阶跃模糊程度加重。

4 RBF网络对声调的自动识别

4.1 概述

RBF神经网络除了具有一般神经网络的优点,如多维非线性映射能力,泛化能力,并行信息处理能力等,还具有很强的聚类分析能力,学习算法简单方便等优点;它能将语音的动静态特性和听觉感知特性融合到网络特性之中,用于对基音曲线数据聚类时,能使客观评测的结果与主观感知更接近。因此,本文采用径向基函数(RBF)神经网络完成语音基音数据曲线到声调四声的映射,得到对声调识别结果。

4.2 RBF神经网络结构及算法

RBF神经网络的工作原理分为两个阶段。其一:是学习阶段,选定充分和质量好的基音曲线数据样本。RBF神经网络学习结果以权值的形式存储在网络结构之中。其二:是工作阶段,当测试语音样本输入RBF神经网络时,训练好的具有一定泛化性的网络将进行内插和外推的方式进行自适应完成特征匹配过程。给出客观声调评价结果。其中训练集与测试集语音样本均选自苏州大学普通话测试中心的考试语音。

根据声调的特点,采用一个具有十四个输入节点(基音曲线数据归一化),四个隐含节点(分别代表四声),一个输出节点的三层RBF神经网络如图6

856368878.jpg

图6(三层RBF神经网络 )

在图中,第j个隐含层节点到第m个输入节点的连接权值为 Wjm, rJ为隐含层第j个节点的高斯核宽度;输出节点到第j个隐含层节点的连接权值为Uj ;L(.)为线性函数; fj(.)为隐含层第j个节点的激励函数,取高斯型函数,其表达式为

856367785.jpg(2)

网络的最终输出 有下式求出

856363436.jpg(3)

为了提高RBF神经网络的收敛速度,将隐含层参数 Wjm,rJ 和输出层权值Uj 分开进行训练.对隐含层参数 Wjm和rJ 的训练采用一种新的聚类算法,即改进最近邻聚类学习算法,此算法具有学习时间短、计算量小、网络性能优良等优点[13]。针对语音参数处理的特性,对文献[13]中的自适应最近邻聚类学习算法进行改进;对输出层权值Uj 的训练采用梯度下降算法。

梯度下降算法过程

<1>.给Uj赋随机初值,j=1,2,…,J;由改进最近邻聚类算法得到隐含层参数Wjm 和rJ 以及采用式(2)和式(3)计算神经网络的输出Oi

<2>.计算理想值 Yi与RBF神经网络的输出 Oi之间的误差为:

856368741.jpg (4)

<3>.定义目标函数为

856367927.jpg(5)

<4>. 在t+1时刻,输出层权值Uj 按照如下的规则更新,其中856379440.jpg为训练系数

856374567.jpg(6)

4.3 输出的客观识别结果

客观识别性能的好坏,主要以其客观识别结果与理想值的相关性高低来衡量。相关系数 856379558.jpg由下列式子算出

856375341.jpg(6)

85637102.jpg(7)

实验结果如表一

七(字)

训练集1

测试集1

训练集2

测试集2

0.9265

0.9058

0.9224

0.8894

0.2021

0.2453

0.1068

0.1492

表一

5 结论

本文提出采用RBF神经网络对声调进行自动识别的一种新方法。首先进行声韵的自动切分,提取出韵母类,在进行基音曲线特征的提取,然后利用RBF神经网络的多维非线性映射原理完成特征参数到理想值得映射。实验表明,单采用训练样本相关度达到0.92 而采用测试集使相关度达到了0.88 ,表明了此方法具有明显的优越性。

参考文献

1 朱维彬, 张家禄. 汉语语音资料库的语音标记及人工切分. [J] 声学学报, 1999. 5 (24)

2 关存太, 陈永彬, 吴伯修.全音节汉语语音识别系统的声学模型研究.[J]声学学报, 1994.9 (19)

3 陈永彬,王仁华.语言信号处理.[M]合肥:中国科学技术大学出版社,1990

4 齐士铃,张家禄.汉语普通话辅音音长分析.[J]声学学报,1982.7 (1)

5 李永光, 李雪耀.基于小波变换的自动声韵切分的研究.[J]哈尔滨工程大学学报, 1998.6 (19)

6 王帆 ,郑 方, 吴文虎. 基于多尺度分形维数的汉语语音声韵切分.[J]清华大学学报 , 第42卷

7 赵鹤鸣, 周旭东, 金延庆, 翁桂荣.基于小波变换的重叠语音基频提取及声调识别.[J]声学学报, 1999.1(24)

8 黄泽镇,杨行竣.普通话孤立字发声的一种模式识用方法. [J] 声学学报, 1990.1

9 徐士林. 四声模糊识别方法.[J]电子学报,1996(1)

10 赵力. 语音信号处理.[M]机械工业出版社

11 Y.Ying,S,xu..A fast method of pitch detection for Chinese four tones recognition. Proceeding of ISCP’93 Oct 1993 Bei jin

12 周俊武,孙传尧,王福利.径向基函数(RBF)网络的研究及实现[j].矿冶,2001,10(4):71—75.