以人工智能为基础的深度学习语音识别方法

(整期优先)网络出版时间:2018-12-22
/ 2

以人工智能为基础的深度学习语音识别方法

曹常锋

(深圳市中兴微电子技术有限公司518055)

摘要:近年来,信息技术在社会诸多行业里得到广泛地应用,推动了语音识别技术的发展。同时,因其较强的实用性与精确性特点,得到客户的好评与称赞。在日常家居、汽车上皆装设了语音识别的系统。这种人机互交式的连接设备逐渐发展成为相关人士研究的重要课题。基于此,本文阐述了语音识别技术的含义,分析了人工智能为基础的深度语音识别的研究情况,分析了语音识别的方法,并对语音识别技术的未来前景加以探讨。

关键词:人工智能;语音识别;深度学习;方法分析

语音识别技术是人工智能发展的重要因素。是一种能够实现人机交互的技术。现阶段,社会中存在很多种类的语音识别的系统,然而,人们在研究语音识别方法的时间,往往存在理论、实践的强烈反差,这样,在具体应用语音识别系统时,难以取得令人满意的效果。因此,相关工作者加强人工智能为基础的深度语音识别系统的研究非常重要。

一、语音识别技术的基本含义

语音识别技术又可以理解为自动语音识别(即ASR),指的是将人们语音中带有的相关词汇等进行转换,变成计算机可以读取的输入。例如:二进制的编码、按键、字符的序列等。其中,声码器则是一种语音识别的最初形式。不同于讲话人确认或识别,语音识别的技术可以与机器翻译、语音合成等技术有机地结合,进而建立一种更为复杂的应用。这项技术一般涉及的领域如下:信息处理、模式识别、发声及听觉的机理、人工智能、概率及信息论等。

二、人工智能为基础的深度语音识别系统的研究

(一)相关的理论分析

随着时代的不断发展,以往的语音识别技术已进入了发展的困境期。目前,尽管已经有大量的智能设备皆安设了语音识别的相关软件,目的是有效地实现人机之间的对话。然而,不管从算法视角分析,或是别的层面分析,人们对语音识别的技术应用始终未获得突破性的进展。而深度学习的模型,是用于模拟人体脑部感知与接受外界信息,一种机器学习的思想,尽管拥有了充分的理论基础,然而,在具体应用过程中,依然存在较大的缺陷。表现在理论、实际的严重脱节。无法为人们的生产、生活提供良好的服务。当前,相关的理论研究人员研究人工语音时,已从语音信号的开发、传播等方面获得一定的突破,为了进一步对语音识别技术加以应用。

(二)应用分析

近年来,从语音识别技术的应用情况分析,互联网技术得到了迅速的发展,随着人们大量地应用了信息技术,将人们带入了人工智能的时代。这时,工作人员研究语音识别系统时,能够应用多样化的路径,多个维度得到庞大的原始的语音信号,进而为深入研究打好基础。然而,人们对语音识别技术进行应用的时候,若单纯应用以往的语音识别的相关算法,展开分析,则很多信号或许难以获得更充分地运用。而深度学习的思想应用,可以有效地把云计算、语音数据有机地结合起来,便于人们对各类语音数据直接处理,符合了语音数据应用的实际需要,可见,在应用语音识别技术过程中,深度学习的思想不可或缺。

三、深度学习语音识别的方式

(一)拾取语音

拾取语音一般可以分为采样、端点检测。采样指的是相关的语音信息通常声卡进行采集,再对相关的语音信息模数加以转换,变成数字模数。端点检测指的是在语音信息里,对语音的起点、终点进行确定,这是预处理环节的重要内容,一般情况下,端点检测的计算方法选择能量、过零率有机结合的检测法。

(二)提取特征

在语音识别系统里,科学地选择、提取特征非常重要。良好的特征可以清楚地对语音中带有的不同于其他语音的有价值的信息反映出来,从而有效地排除无关紧要的信息。

(三)判决模拟训练、语音识别

模拟训练、语音识别的判决具体通过两步实现。第一,选择。选择一种识别的方式,以聚类、训练的方式得到有关字的语音参数,当作本字的参考模板,加以储存。在语音识别技术中,应当储存系统全部需要识别的字对应的参考模板,进而构成一个模板库。第二,识别。指的是把想要识别的样本、参考模板库里每个字的参考模板,依次进行对比,将最大相似度者判定是要识别的字。通常情况下,可以选择三种方法:其一,将训练语音的特征提取的结果当作模板进行存储,识别的时候,需要输入相关的语音信号、训练中同等的特征提取成分,获得要识别的字对应的特征向量的序列,再比较这个序列与储存的所有模板,依据特定的距离算得各个模板的计分、距离,若计分最小,可以判定为识别的字。在计算距离时,必须充分了解训练模板中,发出同个词汇的每一瞬时的速度可能性的偏差,因此,从时域视角分析,对比计算模板信号、待识别的信号期间,需要结合时域的弹性匹配的相关理论。其二,所有字的模板并非以特征向量的时间序列进行储存,主要通过态图的方式储存。见下图:

图1-态图

其中,aij(i=1、2、3,j=1、2、3)代表从i态至j态的转移概率。bi(i=1、2、3)代表i态中输出每个特征的概率。各aij、bi是学习过程中依据有关的训练语音的特征排列,估算得到。计算的准则为:对继定的全部训练的序列,从始态至终态的输出概率和是最大的。当aij与bi皆为定值的时候,对每个训练,可获得相对的输出概率。计算这一概率时,可以选择Viterbi法。这时,深度学习的目标就是得到各个态图模型里的aij、bi。在语音识别的时候,让要识别的采样也经过各个态图的模型,依据Viterbi法计算输出的概率。若计分最大,则态图相对的字就是判别的字。这种方法叫做隐Markov的模型(即HMM)。其三,处理语音动态的时间匹配问题,指的是把语音特征的序列,选择合适的方法划分N段,对各段特征的子序列,算得平均位置(即平均值),最终有N个特征的矢量,为模板加以存储。当识别的时候,按照特定的原则匹配,以相应的距离作为标准,若距离最小,则是要识别的字。

四、以人工智能为基础的深度学习的语音识别的发展

语音识别一般包括语音、特征的拾取方法。语音识别技术为人们解决了生产、生活中诸多问题。语音识别技术在应用中还会涉及一些心理学、语音学、数理统计的理论,因此,对工作者提出了较高的要求。其中,深度学习是人工智能领域中最引人注目的研究对象,现如今,正在逐渐应用在图像、文本、语音的识别,并已经获得了显著的成绩;而语音识别是人机交流未来发展的重要接口,给智能系统的客户带来直接的影响。这样,二者的完美融合,让语音识别中采集的数据有利于训练泛化性能更加强大的网络,促进深度的网络提升语音识别的精度,提升了语音识别技术的应用性能。

结束语:

随着社会的发展,语音识别技术的应用会更广。深度学习在语音识别中发挥着积极的影响,有利于人机交互的实现,帮助了人们更好地处理生活中的诸多难题,促进社会取得更大的进步。

参考文献:

[1]刘鹏程,袁三男,刘虹.基于深度学习的语音识别系统研究[J].新型工业化,2018,8(05):70-74.

[2]单敏.深度学习视阈下的英语发音质量和语音识别探微[J].湖北函授大学学报,2017,30(20):174-175+181.

[3]黄天芸.基于人工智能深度学习的语音识别方法[J].信息记录材料,2017,18(09):20-21.

[4]王燕南.基于深度学习的说话人无关单通道语音分离[D].中国科学技术大学,2017.