(民航三亚空管站,海南省三亚市 572000)
摘要:在非计算机系统类的设备故障维修中,运维人员往往关注硬件模块,而忽视了软件部分也可能导致设备出现问题。本文简要介绍了某台站SELEX 1118A型测距设备先后出现两次软件闪退及设备关机的异常现象,通过软硬件对比、异常现象还原、设备信号流程、模拟测试验证等方面进行综合分析,得出该型号测距设备可能存在着RMS日志读取机制异常导致监控软件闪退甚至设备关机的结论,为该型号设备的运维人员提供一些借鉴。
关键词:测距仪;软件闪退;关机;日志读取机制
0 引言
仪表着陆系统是由安装在跑道中心延长线上的航向台(LOC)和跑道一侧的下滑台(GP)以及测距仪(DME)或指点信标(MB)组成,为着陆的飞机提供水平和垂直面距离引导信息。它为近进着陆的飞行器提供引导,保证导航信号的连续和准确。本文以某地26号仪表着陆系统测距仪先后出现两次软件闪退及设备关机的异常现象为例进行探讨,通过软硬件对比、异常现象还原、信号流程分析、模拟测试验证等方面开展排查和综合分析,最终定位故障点。希望对设备保障人员提供参考和帮助,提高对类似故障或隐患的预防,保障设备运行稳定。
1 故障现象
现象一:2022年2月4日16:54,某机场26号仪表着陆系统DME设备监控软件PMDT(Portable Maintenance Date Terminal)闪退,远程遥控单元RCSU(Remote Control Status Unit)中26号 DME设备状态显示为黄色(预警状态),重新登录查看各项参数均正常。18:01 26号 DME设备再次出现监控软件闪退,且通过视频监控系统观察到设备关机。值班人员重新登陆PMDT开启设备,监控器各项参数正常,无告警记录,监控软件RMS(Remote Maintenance System) Logs页面中无新增设备告警和操作记录,此时在用RMS板件的信息为部件号:64415ASSY012172-1001,序列号:ARC000409。更换RMS板件(部件号:64415ASSY012172-1001,序列号:ARC000759)后设备各项参数正常,运行平稳。针对此情况运维人员初步判断为RMS板存在串口通信方面软故障,导致PMDT出现软件闪退甚至输出关机操作指令的情况。
现象二:2023年6月16日,运维人员执行某机场26号仪表着陆系统季度停机维护。在正常无操作的情况下,PMDT闪退,如图1所示,且提示“Communications Failure”,同时通过视频监控观察至设备本地面板的REMOTE CONTROL FAULT指示灯会瞬间闪烁且伴随设备关机现象,此时在用RMS板件的信息为部件号:64415ASSY012172-1001,序列号:ARC000759。维护人员立即重新登陆软件,确认设备已关机,如图1所示,开启设备,监控器各项参数正常,无告警记录,监控软件RMS Logs中无新增设备告警和操作记录。在维护期间检查各硬件和设备参数均正常,观察运行稳定。
图1 PMDT监控软件闪退界面及闪退后设备关机界面
2 故障分析
2.1 问题分析及设备运行原理
2.1.1 初步判断与分析
上述现象,尤其是现象2的发生,与现象1高度一致,引起运维人员高度重视。经详细与反复排查,最后发现一处值得关注的情况,两次软件闪退和关机现场发生前20分钟内,均有值班人员和维护人员在监控软件PMDT上查看RMS Logs设备告警和操作日志的操作,且在日常运维中也出现RMS Logs日志中记录显示异常以及排序错乱的情况。经初步判断,SELEX 1118A型测距仪出现软件闪退甚至关机现象,一是与RMS板读取日志数据时的“读取机制”存在BUG有关系,二是传输设备异常导致。运维人员利用维护期间持续开展测试验证工作,积极查找和定位设备异常原因。
2.1.2 设备运行原理
RMS板是SELEX 1118A型DME设备远程控制发射机和监控器的核心,监控软件PMDT的各类操作指令会通过通信串口传至RMS板,经过RMS板CPU处理后产生执行指令,再通过串口将执行指令传达给本地控制单元(LCU),由LCU做出相应的设备操作,设备本地的操作也会通过RMS板处理后反馈给监控软件。RMS板也是整个DME系统数据处理中心,通过13个串口和1个并行接口来实现和其他模块的通信,读取其他模块的信息,产生相应的系统数据和控制指令发送到本地控制单元执行具体的设备操控,即PMDT监控软件为RMS板的远程人机界面。
导航值班机房远程通过PMDT、RCSU串口经FA36传输设备连接到DME设备CI板(接口板)。RMS板的中央处理器U8 通过背板、RMS辅助接口板、CI板这一信号流程与PMDT\RCSU进行通信,同时,中央处理器U8也会根据监控软件指令和各板件处理信息向LCU发送设备操作指令,如图2所示。设备在执行查看和更新RMS Logs日志时,中央处理器U8会向U49存储芯片发出读取数据的指令,U49会将数据写入U3缓存器提供调用,数据再通过通信芯片传输至监控软件PMDT,如图3所示。
图2 RMS板监控、控制信号框图
图3 RMS板件框图
在监控软件中RMS Logs功能界面中,当进行Alarms、Maintenance Alerts、Command Activity、Parameter Change日志查看时,日志信息显示界面会存在1-5秒左右白屏,即存在日志刷新状态,此状态下中央处理器U8会发出读取数据的指令,可以看出同点击界面上的“Update”的效果是一致的。
2.2 模拟验证
2.2.1 RMS日志读取导致异常验证
以26号DME设备为例,以RMS板1(序列号:ARC000759)、RMS板2(序列号:ARC000409)为验证对象。两块板件的相关信息如下表1所示。通过比对不同连接方式、日志数量、日志查看和更新方式,验证查看或更新RMS Logs时是否会引起PMDT闪退甚至关机的情况,结果如下表2。
RMS板件信息 | |||
类型 | RMS板1 | RMS板2 | RMS板1 (重置) |
RMS 内部软件版本 | 3.0.0.2 | 3.0.0.2 | 3.0.0.2 |
序列号 | ARC000759 | ARC000409 | ARC000759 |
Alarms日志数量(条) | 589 | 16 | 0 |
Maintenance Alerts日志数量(条) | 1088 | 32 | 0 |
Command Activity日志数量(条) | 96 | 105 | 0 |
Parameter Change日志数量(条) | 32 | 5 | 0 |
日志数量总计(条) | 1805 | 158 | 0 |
表1 RMS板1和2相关信息对比
SELEX 1118A DME验证情况 | ||||||||||||
PMDT版本:Version 8.7.0.2/8.7.2.0 终端系统:win XP/win 7 | ||||||||||||
比对情况 | 验证结果 | |||||||||||
RMS 1 | RMS 2 | RMS1(重置) | ||||||||||
远程连接 | 本地连接 | 远程连接 | 本地连接 | 远程连接 | 本地连接 | |||||||
操作(查看和更新 RMS Logs) | 软件闪退 | 设备关机 | 软件闪退 | 设备关机 | 软件闪退 | 设备关机 | 软件闪退 | 设备关机 | 软件闪退 | 设备关机 | 软件闪退 | 设备关机 |
查看Maintenance Alerts | √ | √ | √ | √ | ||||||||
查看Alarms、Maintenance Alerts | √ | √ | √ | √ | ||||||||
查看Maintenance Alerts 、Command Activity | √ | √ | √ | √ | ||||||||
查看Maintenance Alerts 、Parameter Change | √ | √ | √ | √ | ||||||||
查看Alarms 、Maintenance Alerts、Command Activity、Parameter Change | √ | √ | √ | √ | ||||||||
Update Alarms | √ | √ | √ | √ | ||||||||
Update Maintenance Alerts | √ | √ | √ | √ | ||||||||
Update Alarms、Maintenance Alerts | √ | √ | √ | √ | ||||||||
Update Alarms、Command Activity | √ | √ | √ | √ | ||||||||
Update Alarms、Parameter Change | √ | √ | √ | √ | ||||||||
Update Maintenance Alerts 、Command Activity | √ | √ | √ | √ | ||||||||
Update Maintenance Alerts 、Parameter Change | √ | √ | √ | √ | ||||||||
Update Alarms、Maintenance Alerts 、Command Activity 、Parameter Change | √ | √ | √ | √ |
表2 RMS板1和2验证结果比对情况
针对SELEX 1118A DME设备,无论使用不同终端系统、不同版本PMDT监控软件、远程和本地连接的监控方式,测试得出的结果是:在日志数量足够多的情况下,查看日志数量最多的Maintenance Alerts时(包含单独和同时查看),监控软件PMDT均会在查看操作后的10分钟内出现Communications Failure提示,即监控软件闪退,同时设备本地面板的REMOTE CONTROL FAULT指示灯会瞬间闪烁,以及设备关机。在对日志数量最多的Maintenance Alerts和Alarms进行更新(包含单独和同时更新)时,同样在操作十分钟内出现监控软件闪退、本地面板REMOTE CONTROL FAULT指示灯瞬间闪烁、设备关机的情况。在更新Alarms过程中,发现Alarms日志页面中“Type”和“Alarm”中出现异常显示项,同时更新Maintenance Alerts日志时,日志详细信息的排序会出现混乱,时间较早的记录反而排在前列。而RMS板2,日志总量相比RMS板1较少,在测试中并未出现软件闪退和关机现象。
为了对比同一板件在不同日志数量下是否会出现软件闪退及设备关机情况,将该RMS板1的日志记录进行重置全部清零,根据相同的方法进行验证,监控软件PMDT后续不再出现软件闪退和关机的情况,如表2所示。技术人员随后对其观察数周,运行稳定。
为了进一步验证软件闪退和设备关机异常现象是否也在高功放版本的DME上,以当地某台SELEX 1119A DME设备为例,以RMS板3(序列号:ARC000465)、RMS板4(序列号:ARC000423)为验证对象。通过比对不同连接方式、日志数量、日志查看和更新方式,验证查看或更新RMS Logs时是否会引起PMDT闪退甚至关机的情况。
结果显示,针对SELEX 1119A DME(高功放版本)设备,无论使用不同终端系统、不同版本PMDT监控软件,使用远程和本地连接的监控方式,测试得出的结果是:在日志数量足够多的情况下,查看日志数量最多的Maintenance Alerts时(包含单独和同时查看)时,监控软件PMDT均会在查看操作后的10分钟内出现Communications Failure提示,即监控软件闪退,同时设备本地面板的REMOTE CONTROL FAULT指示灯会瞬间闪烁,无关机现象。在对日志数量最多的Maintenance Alerts和Alarms进行更新(包含单独和同时更新)时,同样在操作十分钟内出现监控软件闪退、本地面板REMOTE CONTROL FAULT指示灯瞬间闪烁的情况,但设备并无关机现象。在更新Maintenance Alarms过程中,日志详细信息的排序会出现混乱,时间较早的记录反而排在前列,同时发现日志页面中“Type”中出现异常显示项,与SELEX 1118A DME验证结果类似。而RMS板4,日志总量相比RMS板3较少,在测试中并未出现软件闪退和关机现象。
为了对比同一板件在不同日志数量下是否会出现软件闪退及设备关机情况,将该RMS板3的日志记录进行重置全部清零,根据相同的方法进行验证,监控软件PMDT后续不再出现软件闪退的情况,运维人员随后对其观察数周,运行稳定。
2.2.2 传输设备异常导致“闪退或关机”验证
在26号DME两次异常现象期间,通过事后查阅FA36设备告警记录,异常期间并未产生告警记录。同时,技术人员以RMS板1未重置和未查看(或更新)RMS Logs的情况下做测试,通过人为断开26 号DME设备监控路由,设备未出现关机现象。
利用RMS日志读取导致异常验证期间,在台站机房端通过串口测试盒测试数据通信情况,串口测试盒在测试期间显示数据接收正常。同样的测试方法,断开导航值班室监控电脑端接口进行测试,串口测试盒结果同样显示正常。监控软件PMDT出现闪退期间FA36设备也无任何异常告警记录。综合上述判断,两次异常现象并不是由于传输设备异常导致。
基于SELEX 1118A型 DME设备RMS板验证测试情况,同时根据RMS内部软件版本、硬件情况(RMS板各类功能芯片)、PMDT监控软件版本,综上所述得出以下结论:1)当PMDT监控软件RMS Logs功能界面中Alarms、Maintenance Alerts、Command Activity、Parameter Change日志单个或总数数量高于某一数值时,查看或更新Alarms、Maintenance Alerts、Command Activity、Parameter Change日志,RMS板内部数据读取机制可能存在BUG,导致RMS板与PMDT之间的通信出现瞬间中断,即软件闪退现象,甚至RMS板会错误发出关机指令至本地设备面板。2)当PMDT监控软件RMS Logs功能界面中Alarms、Maintenance Alerts日志单个数量高于某一数值时,更新Alarms、Maintenance Alerts日志,RMS板内部数据读取机制可能存在BUG,导致日志信息界面会出现时间排序错乱及异常显示项的情况。3)当PMDT监控软件RMS Logs功能界面中Alarms、Maintenance Alerts、Command Activity、Parameter Change日志单个或总数数量低于某一数值时,查看或更新Alarms、Maintenance Alerts、Command Activity、Parameter Change日志,RMS板内部数据读取机制正常,未出现监控软件闪退及设备关机现象。
3结束语
通过此案例可得知,设备运维人员在实际工作中故障排除或隐患排查时,除了关注设备硬件模块的损坏(如雷击)、性能老化下降外,还应关注设备软件运行机制、板件上单片机程序以及可能存在的软故障。设备故障排除和隐患排查,是一项多因素共同影响的综合工程,设备运维人员应本着“大胆假设、小心验证”的原则,综合各类情况进行研判,进一步提高设备保障能力。