飞机驾驶舱噪声环境下的飞行员语音端点检测

(整期优先)网络出版时间:2021-08-31
/ 2

飞机驾驶舱噪声环境下的飞行员语音端点检测

王志强 吴学先

西安烽火电子科技有限责任公司 陕西省西安市 710199

摘要:为在飞行驾驶舱噪声环境下准确判定飞行员语音端点,提出一种鲁棒语音端点检测方法。使用最优改进对数谱幅度估计语音增强算法进行初步语音降噪,通过teager能量算子进一步滤除残余噪声,并将降噪后语音短时能量与子带谱熵的比值作为双门限判决参数,检测飞行员语音起止点。实验结果表明,与基于能量参数或频谱熵参数的语音端点检测方法相比,该方法能有效提高检测正确率。

关键词:驾驶舱人为因素;语音端点检测;最优改进对数谱幅度估计算法;teager能量算子;子带谱熵

引言:航空安全是航空飞机高效运行的基础,目前,航空运输因素已成为导致空难的最重要因素。必须准确识别和测量飞行员的行为或活动,如通信、导航、执行检查表等,以评估飞行员的工作负荷,改进驾驶舱的设计或飞行员的操作流程,避免飞行员繁重的工作负荷造成人为操作失误。

飞行员的语音信息是分析飞行员行为或活动的重要依据。语音记录器中的飞行员语音可以通过终端语音检测技术提取,飞机空域的声环境非常复杂,包括发动机噪声、飞行过程中外部气流的紊流声、客舱控制设备的声音、空调噪声等。这使得传统的语音端点检测方法的检测效果在直接基于频谱频率的情况下,信号能量以全带宽、信号能量以低带宽或零速度超过速度的情况下,在低噪声比下变得尖锐。

已有研究表明,蚁群频率信息能更有效地反映语音信号的时间特性。在此基础上,采用谱计数的方法去噪,并以子带谱熵去噪语音作为判决参数,实现对端点语音的检测。但是谱减法更适合于平稳噪声的状态,在复杂的航空环境中抑制噪声的能力较弱,在降噪过程中会产生音乐噪声。谱熵子带能有效地区分语音和噪声,但在含噪人声中其性能较差,且语音和噪声的能量越来越大于噪声。因此,引入了熵和能量相结合的决策参数,但在低噪声信号下,该方法的性能并不稳定。针对飞机驾驶舱内强噪声环境,提出了一种鲁棒性强的语音端点检测方法,该方法结合了提高对数谱强度的优化改进算法和Teager能量算子。首先用该算法指定带噪表达式,然后通过噪声抑制效果进一步滤除剩余噪声,最后将去噪语音的能量值和谱熵进行综合,得到端点检测的决定性参数,强航空背景噪声环境下飞行员语音目标参数的有效确定。

1检测原理

1.1OM-LSA算法

OM-LSA算法作为一种单通道频域语音增强算法,能够适应多种噪声环境,在保护较弱语音信号分量的同时,可避免音乐噪声的产生,该算法对于低输入信噪比和非平稳噪声尤其有效。假设语音信号为s(n)叠加一个不相关的噪声信号y(n)构成含噪语音信号u(n)。对含噪语音信号月(n)加窗分帧处理后得到第i帧语音信号y(m)通过短时傅里叶变换求y(m)的傅里叶变换系数。OM-LSA算法是基于最小均方误差的对数幅度谱估计器,对于符合高斯分布的语音和噪声信号,可以通过式字估计语音信号的傅里叶变换系数。

1.2能量算子

Trager是一种强大的非线性算子,它能跟踪调制能量,识别瞬时幅度和频率,Teo能抑制噪声,并进一步滤除om-lsa算法后语音信号中的残余噪声,与谱图相比,Teo不仅能抑制噪声能量,而且能有效地抑制噪声,但也突出蚂蚁的信息,同时保留语音信号的能量。

1.3短时能量与子带谱熵

设各帧语音信号月(m)的帧长为N,短时能量指各语音帧的能量。能量值曲线能较好地跟踪纯净语音信号能量的变化,且在噪声段更平滑。谱熵反映了离散信源在频域内幅值分布的无序性,将熵值作为特征参数进行端点检测的实验结果表明,语音的熵与噪声的熵存在较大区别,带谱熵的提出是为了消除每一条谱线幅值受噪声影响的问题,其将每帧语音信号的全频带均匀地分成N个子带,语音信号第i帧的第w个子带的能量谱。当语音信噪比下降时,子带谱熵对语音和噪声的区分性也相应下降。

1.4端点检测方法

结合om-lsa语音增强算法和TEO算法,对飞行员语音记录中的背景航空噪声进行抑制,计算出被呼叫语音信号的短时能量和子带谱熵。在语音间隔内,短时能量曲线向上凸,谱熵子带曲线向上凸,短时能量曲线向下有限,如果将这两个值的比值作为双阈值的决定参数,决策参数可在语音间隔中增加以使得能够在强航空背景环境中检测飞行员示范的目标点。基于双阈值的语音端点检测是最常用的语音端点检测方法之一,它通过选择判决参数来检测语音端点。

2实验与结果分析

2.1实验场景及数据

实验中的飞行员语音记录采集的驾驶舱中,在飞行过程中,通过头戴式麦克风采集飞行员语音,采样率为8kHz,采样精度为16bit,帧长选择25ms,帧移为10ms,实验对10段语音数据,总时长为48min进行检测,计算检测正确率与错误率的平均值,

2.2实验方法

首先利用OM-LSA语音增强算法对飞机驾驶舱中的语音记录做增强处理,然后对基于短时能量与过零率比值的检测算法(EZR),基于短时能量与谱熵比值的检测方法(EER)以及本文方法进行比较。

2.3评价指标

对飞机驾驶舱中的飞行员语音记录进行人工标定起止点,将算法检测结果与手工标定的起止点进行比较,通过以下,个客观评价指标来评价端点检测方法的性能。

2.4结果分析

段原始飞行员语音数据及

其语谱图,在216HZ-2170HZ的频率范围内,语音信号的频谱被噪声的频谱遮掩,在2170HZ-4000HZ频率范围内,可见语音信号的频谱,语音经过OM-LSA算法初步降噪后的语音数据及其语谱图,其中中低频的噪声能量被滤除,可见语音信号的频谱?但在2170HZ-4000HZ频率范围内仍有能量较小的噪声残留,利用TEO进一步降噪后的端点检测结果标记。对飞行员语音数据集进行测试?得到的平均检测正确率和错误率,可以看出,本文方法在对语音帧和噪声帧检测的平均正确率上,均高于EZR和EER方法。

3结束语

从飞行员的语音记录中提取信息对分析飞行员的行为或活动起着关键作用,也是人类驾驶舱因素研究的重点。首先采用om-lsa算法对导频语音进行降噪,然后采用Teo算法对噪声进行进一步滤波,以减少端点检测的干扰。最后,采用能量比和谱熵去噪语音作为端点检测的判定参数,实现了强背景噪声下语音导频端点的检测,本文的语音帧和噪声帧检测的平均准确率分别达到95.6%和92%,而且可以获得飞行员声音的准确信息。后续工作将改进端点检测过程中使用的决策参数,进一步提高检测精度。

参考文献:

[1]张仁志,崔慧娟.基于短时能量的语音端点检测算法研究[J].电声技术,2005(7):52-54.

[2]席大林,李如玮,陈海龙.基于自相关最大值和过门限率的语音端点检测[J].电声技术,2010,34(4):55-59.

[3]刘淑华,胡强,覃团发,等.基于自相关函数最大值的语音端点检测方法[J].电声技术,2006(12):48-51.

[4]张仁志,崔慧娟.基于短时能量的语音端点检测算法研究[J].电声技术,2005(7):52-54.

[5]席大林,李如玮,陈海龙.基于自相关最大值和过门限率的语音端点检测[J].电声技术,2010,34(4):55-59.