计算机语音识别系统的架构设计研究

(整期优先)网络出版时间:2021-04-20
/ 2

计算机语音识别系统的架构设计研究

姚静

身份证号: 23262619760220****

摘要:当前,我国已步入高科技社会,大众生活需求逐渐增多,尤其对于信息化技术落地使用需求有了更高标准,随着语音技术的不断发展,人们期望借助语音对话来获得大量的信息,从而实现对话沟通的目的。基于此,科学专家需要主动探究语音识别技术,通过持续地研究此项技术在各个领域的使用,从而更好地服务于人们的生活以及工作领域。

关键词:计算机语音识别系统;架构设计;研究

现如今,伴随着世界各国语音识别相关技术的高速发展,各领域的智能信息化和语音技术结合度逐渐备受相关行业的重视。通过十几年的研究,当下语音识别技术已在计算机软件与硬件带领下,达成了更高的领域,设计一套能在单片机上实施语音识别的系统则极具实践意义。因此,文章利用VC++进行了相关的模拟操作,并实现了基于较少词汇量的独立词语识别系统的搭建,进而在这一基础上进行计算机语音识别系统的架构。

一、智能语音技术的定义

语音识别技术为探究对应的软件与硬件,经过语音信号识别与信号处置等进程,将多种语音信号转换成文本的技术系统,这一技术实质上是为了能够辅助开发出可以听懂语言并且可以进行言语交流的软件或者硬件。此技术为一个系统工程,结合多种学科及行业的技术,具体包含:声学、计算机科学信号处置技术、人工智能及其硬件技术等,这一技术所产生的价值极高,在多个领域均有涉及应用。

二、智能语音识别系统目前发展状况

2.1世界上智能语音有关技术的格局及其现状

语音识别系统出现的时间较早,最早可以追溯到二十世纪五十年代的贝尔实验室,在那个年代,杨氏研究出了Audrey系统,这个系统可以识别十个英文字母,因此可以被称为早期具备语音识别功能的系统。时间来到上世纪九十年代,大量有实力的技术企业渐渐开展了语音识别系统的实用化使用,人力物力财力消耗巨大,直至九十年代中后期,整体语音识别系统的精准率才有极大地提高,比如:ViaVoice平台、Dragon平台、Naturally Speaking平台、Nuance Voice Platform语音平台等。近些年,行业领军者渐渐加快了语音识别领域的布局,苹果、Google、Facebook、微软等不断收购SayNow、Phonetic Arts、Skype、Cortana等技术公司,加强语音识别功能的研发与使用。

2.2国内智能语音技术有关技术的布局及其现状

国内语音识别研发启动于上世纪50年代,伴随着国内科学技术水平的不断提升,语音识别相关技术获得了大力发展,逐渐走入实用阶段清华大学研究的非特定人汉语数码串持续语音识别系统,它的识别精准度非常高,可以达到95%的识别精准度,再有中科院自动化所在2002年研发的PattekASR产品,打破了汉语语音识别技术被国外垄断的局面,且具备跨时代意义。现阶段,国内语音识别相关技术与世界先进水平位于同一起跑线上,特别是在汉语识别方面,我国掌握的科技水平已经足以让我们处于世界领先地位。

三、计算机语音识别系统的架构设计探究

文章阐述的设计理念重点采取VC++为研发工具,且借助面向对象的编程思想来实施模拟,从而完美达成此系统的架构设计。尤其在此次设计当中,主要以独立词汇为研究对象,整体系统重点由下述几组构成:语音输入、特征值语音训练和语音识别是需要提取的。系统在语音识别系统设计的探究情况下,可以分为五大模块。

3.1客户界面模块

客户界面模块中的菜单重点包括在运转中务必实施的识别应用程序,能在工具栏目中针对其实施显示的波形原始图或者波形处理之后的图来筛选。状态栏有两部分组成,一是消息对话框,二是状态显示器,通过状态栏可以对软件运转进度进行实时查看。

3.2语音信号收集模块

语音信号收集模块的重点工作内容为把已识别的声音录入至系统当中,随后应用MGI函数针对此声音开始录制,然后MGI经过函数与消息从而完成获取指令。其录音进程中重点使用话筒进行声音的收录,且储存在指定的模板格式当中,最终归纳为WAV型文件。

3.3特征值获取模块

语音信号其为一段具备代表性的不稳定信号,对此语音不可直接实施识别与处置,务必先把其切割成为不一样长度的语音信号,同时达到相应信号处理条件,才能采用计算公式来处置相关信号。常用的参数重点包括平衡幅度、短时能量以及线性预测系数。其在处理进程中,需要将输入的语音波形先进行转换,使其变成另一组离散参数矢量。随后实施获取语音特征值,重点由语音形成的波形当中提取某些可以反映语音特征的主要信息,并且过滤掉与其没有关联的语音信息。当中最典型的就是应用收集样本的语音信号。率先通过加窗的方式对不一样间隔的时间间隔帧进行隔分,1至50MS是比较常见的间隔,随后在每个间隔帧上获取单独的特征矢量。

3.4特征库管控模块

在特征库当中有少数部分相应的参数,能划分成为下述两个种类,第一种类为音频文件名称、声音发出者人名、声音内容等方式,第二种类参数为经过信号处置破溃形成与语音课程相匹配的相关的具体的参数,特征值的参数提供了相应的参数偏差的范围。

3.5模式识别模块

针对用户给出的声音实施收集,并且针对相关终端实施检测,随后再获取相应特征,获取出来与此段语音最佳切合的模板,结果当作最终的语音识别。质量与变量距离的方法匹配,被普遍运用在匹配的实施过程中。两法师驰在其匹配的过程中,算出两者之间的加权距离商量话意思就是代表多种特征值中的一个参数,要对应他相对的矢量值。最终获得的加权距离变小,随之二者相互间的距离相对就近一些。最终依据系统训练过程中,其动态形成的误差进一步明确最终的模板是否为大家所期待的模板。一旦误差在相关规定的范畴里面,结果意味着已经成功的匹配,假设误差已超过规定的范畴,结果则会显示匹配不成功。

总结:

总而言之,文章针对计算机语音识别系统进行了整体研发,尤其在VC++的环境中架构了一个语音识别系统,同时在计算机上面实施模拟之后完成了整体系统的调试工作。再经过相应的技术,能够把系统移植在单片机系统之上,进一步实现针对语音实施识别与处置的终极目标。

参考文献
[1]杜颖,李晓会.基于语音识别技术的智能生活管理系统的设计[J].信息与电脑,2019,31(18):118-119,122.
[2]饶竹一,张云翔.智能语音识别技术在信息通信客服系统中的应用[J].通信电源技术,2018,35(6):140-141.
[3]戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,(2).221-231.