基于发声机理设计的语音识别中特征提取的思维模式

(整期优先)网络出版时间:2009-09-19
/ 2

基于发声机理设计的语音识别中特征提取的思维模式

胡长伟张晶

胡长伟张晶(东北农业大学黑龙江哈尔滨150030)

[摘要]语音识别率的高低,取决于语音信号特征提取的准确性和鲁棒性。,现实生活中是存在噪音干扰以及传播失真的,当语音识别技术走出实验室,流入市场的时候,其实特定设备接收到的语音信号就已经开始失真了。针对这一问题,笔者提出了特征提取的过程应该向前推进到发音系统的观点。结合不同人的发音生理特征来分析和提取语音信号的特征,这样的特征必将大大提高语音识别过程中提取到的信号特征的真实性,从而提高语音识别技术的识别率。

[关键词]特征提取鲁棒性发声机理线性预倒谱系数美尔频标倒谱系数

让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着经济的发展、社会的进步以及计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。而且语音识别也正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号辅助控制与查询,以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,但语音识别技术所涉及的领域众多,包括:信号处理、模式识别、概率论和信息论、发声机理和听觉感知机理、人工智能等等。这个时候合作就显得尤为重要了,然而几个人,几个思想之间的衔接如何达到完美,我觉得这是绝对不可忽略的。而且笔者也坚决的认为,这将是解决语音识别技术真正走出实验室,真正流入市场、走入千家万户的结症所在。

一、现在盛行的语音识别一般方法存在的问题

语音识别技术在未来社会中的重要作用已经被全世界的人们所认识,因此,各国政府的重视程度更是非同一般。就拿中国来说,863《智能计算机主题》专家组为语音识别技术专门立项,专家组每一到两年举行一次全国性的语音识别系统测试。分析语音识别技术发展历史,我们可以看出,国外从上世纪50年代初就开始研究语音识别技术,80年代,语音识别研究进一步走向深入,连接词和大词汇量连续语音识别成为研究热点,统计模型取代模板匹配的方法成为主流。隐马尔可夫模型成为大词汇量连续语音识别系统的基础。90年代,随着信号特征的提取和优化技术、声学模型的细化、自然语言理解领域中语言模型的建立和解码搜索算法技术的不断成熟,出现了比较成功的大词汇量、连续语音识别系统。目前说话人自适应技术的研究已经取得相当大的进步,出现了一些比较成熟的技术,如声道归一化技术、最大似然线性回归算法、贝叶斯自适应估计算法。可惜的是,六十年的研究之后,除了语音识别研究人员外,有多少人接触到了语音识别技术呢,有多少人从这项高新技术中受益呢?坦率地说,目前的语音识别还做不到使机器能如同人类一样能“听懂”或理解自然语言,像人与人之间的语音交流一样。虽然各种新的修正方法不断出现,但其普遍性和实用性还存在很大问题。比如:鲁棒性差、对环境依赖严重、灵活性差、语义规则定义困难等。针对这些问题,我们应该如何去解决呢?

二、现在盛行的语音识别技术中特征提取过程存在的问题

笔者通过对现实语音识别研究方法进行的分析以及目前语音识别技术存在的问题发现,自隐马尔可夫模型成为大词汇量连续语音识别系统的基础以来,比较成功的大词汇量、连续语音识别系统于90年代就已经出现,目前为止,这些技术大多数还依然停留在实验室中,十年来,研究人员在不断地提出新的修正方法,识别的效果也确实得到了很明显的提高,但这一系列的提高无非就是识别方法的不断改进,准确的说应该是特征提取的方法和特征提取以后的技术的改进。通观语音识别的全过程,我坚定的认为:问题已经不仅仅是技术的不够先进,而是出在特征提取的这个过程中(即:特征提取的过程不到位,信号特征来源本身就失去了人类发声的真实状态)。

现在盛行的一般研究过程(特征提出以前的部分)

语言信号预处理逐桢特征提取

研究语音识别的人都知道,如今语音识别中特征提取最常用的方法是线性预倒谱系数(LPCC)和美尔频标倒谱系数(MFCC)两种,这两种方法的实验步骤和实验方法有所不同,但相同的却都是对语音信号进行一定的处理,然后提取出特征。具体过程就是对人发出的语音信号通过特定的设备接收,而后进行预处理,进而实现对语音信号的特征提取。可以想象的到,在实验室中,在纯净语音环境下,设备接收到的语音信号就是人类发音系统产生的真实声音,那么经过线性预倒谱系数(LPCC)或美尔频标倒谱系数(MFCC)分析处理后,得到的特征信号就是能够反映真实语音标志的特征,也就是我们现在所知道的,在实验室中,一些语音识别技术的识别率达到100%或接近100%。然而,当这些高准确率的识别技术走出实验室时,识别率就会大幅度的下降,为什么呢?实际上,现实生活中是存在噪音干扰以及传播失真的,其实特定设备接收到的语音就已经开始失真了,因此,即使使用的方法再精进,鲁棒性再好,特征提取的过程就已经出现了误差,或者叫做错误。

三、语音识别中特征提取的新思路

具体研究思路为:

针对现在盛行的一般语音识别方法在接收语音信号过程中就已经出现偏差的问题,笔者认为,特征提取的过程应该向前推进到发音系统,结合不同人的发音生理特征来分析和提取语音信号的特征,这样的特征将大大提高语音识别过程中提取到的信号特征的真实性,如果做的较好的话,结合识别过程中的模糊聚类分析甚至于可以消除误差。这种特征提取方式不仅能够减少误差,而且由于不同人的生理特征都有各自的特点,如反映声门开合频率的基频特征、反映口腔大小、形状及声道长度的频谱特征等。因此,通过一定训练将可能实现机器对人的了解,甚至达到熟悉,加之当前先进的语音识别技术,这个时候机器就有理由能够“听懂”人话(就好比两个相互了解的人在谈话过程中不怕外界噪音干扰一样)。不难看出,这种新的特征提取的思路将能够弥补现在盛行的一般语音识别方法的如下不足:1、在新的特征提取思路下语音识别系统环境的依赖将逐渐消失;2、在新的特征提取思路下语音识别系统的灵活性将不断加强,将逐渐适应人类灵活、自然的说话方式;3、在新的特征提取思路下,语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异代来的问题将逐渐被解决;

笔者正致力于此项研究,虽然无论是软件条件、硬件设备还是实验数据的获得都存在很大的困难,但笔者相信,这将是一项非常有意义的研究,是真正实现语音识别市场化必须逾越的障碍。

参考文献:

[1]刘林泉,郑方,吴文虎.基于小数据量的方言普通话语音识别声学建模[J].清华大学学报(自然科学版),2008,(04).

作者简介:

胡长伟东北农业大学人文社会科学学院,助理研究员,硕士研究生,研究方向:应用语言学。

张晶东北农业大学人文社会科学学院,副教授,硕士研究生导师,系主任,研究方向:应用语言学、心理学。