基于语音识别的智能交互系统设计

(整期优先)网络出版时间:2023-07-10
/ 2

基于语音识别的智能交互系统设计

叶明朗

杭州通友智能通讯有限公司  浙江杭州 311121

摘要随着人工智能的迅速崛起,使得许多行业取得了革命性的突破,基于人工智能的新技术以及新事物层出不穷。功能型和服务型机器人正是此过程中的重要产物,而作为服务型机器人之一的英语智能对话机器人的使用也越来越广泛。但随着人机交互需求的不断增大,对其质量也有了更高要求,在当前的基于人工智能的英语机器人中,主要形式是基于语音识别的对话教学,因此,提升其交互质量的关键在于提升对话教学系统的实操性以及准确性。本文主要分析基于语音识别的智能交互系统设计。

关键词:语音识别;交互系统;深度算法

引言

机器智能化时代的到来,人们开始研究人与机器之间的交互。而随着探索的不断深入,随后催生了一门全新的自动语音识别技术。在该项技术的研究上,学者们不断对其进行改进,刘尚旺等人提出了人机交互系统多维语音信息识别方法,通过该方法中的预加重、分帧加窗等法首先对多维语音信息进行预处理,把噪声等对语音的影响消除,然后提取相关特征参数,再通过关联重组方法对这些参数进行融合,从而完成人机交互系统多维语音信息的识别。而房爱东等人研究的语音识别技术则是通过对一种或多种语音信号进行特征分析,然后可以实现声音信号的匹配和辨别,再将人工智能嵌入到语音识别技术中,这样更有利于语音识别的快速和准确。

1、系统总体框架设计

在智能对话的人机交互场景中,交互系统首先对使用者的语音进行识别,然后在系统内部对语音进行信息提取,再根据提取到的信息内容给出相应的反馈。交互系统除了能够通过语音识别获取交互信息,还能够通过简单的肢体动作采集以实现更好的交互效果。语音处理部分包含了语音的识别和合成模块,处理所得的语音信息即为进行交互的直接数据。交互系统内的肢体动作采集识别模块还能辅助语音的合成,使其得到更好的合成效果。最后系统将根据采集到的信息,同于语音或者动作的方式向使用传输相关信息。

2、人与机器人交互及协同

国内工业协作机器人的人机交互研究相对集中于避障和人员安全研究,但是国外的工业协作机器人更加集中于增强人的交互体验,特别是通过触觉传感/反馈的技术,也更强调机器人对于人类协作伙伴的适应性。国内自动驾驶的人机协作研究主要集中于驾驶员的接管问题及相关人因及设计研究,自动驾驶人机协作研究更加多样化,涵盖大规模真实驾驶数据集、自动驾驶与驾驶员分层协作、自动驾驶和行人交互等多个方面。国内遥操作机器人重点面向医疗、电网操作等领域,展开半自主性、辅助遥操作的控制算法研究,国外的相关研究更多偏向于对操作者建模,提供类人的、舒适的和沉浸的遥操作方法。国内服务机器人的研究更加集中于前期系统设计和技术实现,国外的相关研究针对于实际部署体验、甚至长时间的使用评价则更多一些。在辅助机器人研究领域,国内相关研究集中于技术和系统研发,而国外相关研究除了相关技术研发,更进一步地关注到被辅助的用户对自主性、交互体验的需要。近期国内关于社交机器人相关的研究主要集中于增强实体机器人对人的认知情感的感知能力,以及社交网络上虚拟机器人的相关研究。国外的研究则更聚焦于使用者的感受和体验相关的因素研究。相较于国外远程呈现机器人的蓬勃发展,国内的研究总体较少。随着人们对社交机器人和教育机器人的需求不断增长,该领域或将迎来下一波重点关注。

3、语音识别的智能交互系统

3.1基于规则匹配的对话生成

在语音识别模块完成语音数据的采集和处理后,得到相应的文本信息,而要根据该部分信息给出反馈,则必须根据一定的规则进行文本的匹配,给出正确的反馈信息。(1)在接收到由语音数据转换而成的文本信号后,需对其进行预处理,预处理的目的能够去除文本信息中无用的部分,使得保留的文本信息更加通顺合理。(2)在获取相关的匹配规则时,必须严格遵守一定的匹配规则,即原来所符合的全部规则。在具体的获取过程中,首先将上一次调用时的语句与规则进行对比,一致则继续获取其他所有规则,不一致则直接返回false。(3)通过比较选定最佳规则。在比较前将比较规则语句转换为上文标准文本步长,再通过比较选择最小的步长对应的规则作为最佳规则。进行比较的步长去掉了对应语句中的参数和符号,并且也去掉了标准文本中的符号,而使用的步长比较方法为动态规划策略。(4)在进行最终对话的生成时,将根据最佳规则生成的对话应答与同一批次的所有历史对话进行文本对比,得到对应的话题转换信息,按照话题转换的规则生成应答,将得到的结果与最初的固定搭配应答部分进行拼接,作为最终的应答结果。(5)反馈应答结果,结束流程。

3.2说话人识别

说话人识别,也称声纹识别,按识别任务主要分为两类:说话人确认和说话人辨认。说话人确认提取说话人的声纹特征,与声纹库中的目标说话人声纹特征记录进行一对一的似然度对比,确认该说话人的身份真实性。实验任务为说话人辨认,流程相似,但其为一对多对比,辨认出是哪个说话人。从高斯混合模型GMM派生而来的基于GMM和通用背景模型UBM的解决方法,具有简单有效和鲁棒性强的优点,也是本次实验中采用的方案。

3.3语音识别应用现状分析

在应用中使用语音输入替代传统的手动操作来控制设备,作战人员可以将注意力集中于对目标的判断、攻击火力应用等关键重要操作,以充分发挥战术优势。基于语音识别的人机交互手段在应用领域越来越受到关注和发展。目前,语音识别在应用中主要是在电子侦听、语音情报分析、网络对抗中的信息甄别、声纹身份识别等领域。因作战环境噪声大带来的识别准确率不高、快速性不适应高强度作战对抗节奏等因素,而暂未被广泛应用于装备的操控输入。装备的进一步发展离不开人机交互语音识别技术支撑。装备发展趋势之一就是多功能高度集成化,单一武器平台内需要单人操控的设备复杂多样,并行高效操控需求突出,语音输入是有效解决手段之一。随着无人技术发展推动,装备发展的又一重要趋势是大量装备无人化,同构、异构无人装备将集群化应用于作战,不论是人在回路中,还是人在回路上的操控方式,作战人员需同时指挥操控的装备数量及种类多,如仅采用传统操控手段将增加操控难度和作业强度,不适应高强度快节奏作战需求,而基于语音交互的操控手段可有效解决该问题。目前,在智能手机、智能音箱、智能电视、智能驾驶座舱等商用领域,人机交互语音识别的重点是语义理解,大多需在网络后台云端支持下,才能有识别准确率保证,且识别反应时间较长(秒级以上)。

结束语

综上所述,在该语音识别的人机交互系统中,首先在语音识别模块中,采用了MFCC特征提取法来进行语音信号特征的采集,然后再构健出基于深度学习算法的声学模型来进行语音识别,在多轮交互模块中,运用了GPT-2模型。通过实验验证,在该语音识别的人机交互系统中,对于语音信号特征的提取快速准确,使得语音识别效果好,通过GPT-2模型,可以实现人机交互中的日常长对话,最后通过的语音合成,可以把清晰,自然的语音再反馈给用户,从而完成了一个完整的语音识别的人机互动过程。

参考文献:

[1]刘尚旺,王培哲,张翰林,等.人机交互系统多维语音信息识别方法[J].计算机仿真,2021,38(12):367-370+469.

[2]房爱东,张志伟,崔琳,等.基于人工智能的语音识别系统及应用研究[J].宿州学院学报,2019,34(8):62-65.

[3]张锋,陶浩兵,慕京生,等.基于Bi-LSTM的人机语音交互[J].传感器与微系统,2022,41(4):104-107+116.

[4]程高峰,颜永红.多语言语音识别声学模型建模方法最新进展[J].计算机科学,2022,49(1):47-52.