自动转报系统监控软件异常的案例分析

(整期优先)网络出版时间:2022-05-17
/ 2

自动转报系统 监控软件异常 的 案例分析

高钰婷

民航河南空管分局, 河南省郑州市 450000

摘要:DMHS-H 96大型转报系统在河南现场运行,对报文信道及各设备硬件组件的实时监控一直由航管科技提供的超级终端监控软件完成2022110自动转报系统超级终端监控软件出现“写数据库时,打开表失败”异常告警后无法使用的情况自动转报系统的监控软件有着实时监控的重要作用该案例分析对相关单位有着重要的借鉴意义。


关键词: 自动转报系统;监控软件;数据库。


1 背景

自动转报系统作为河南空管分局重要的平面通信系统之一,利用计算机系统完成电报的存储、转发业务,其扮演着中国民航自动转报网网络节点的角色,承载着完成民航通信中AFTN与SITA电报和数据的自动交换。自动转报系统是一套设备、硬件、软件的集成,其中自动转报系统监控软件能够进行各信道报文的收发实时监控,以及服务器、前置机和交换机等自动转报系统中的硬件设备的网络状态监控,使现场运行人员能够及时发现硬件设备或某信道收发报文的异常情况,在实际运行过程中起着重要作用。[1]

河南空管分局目前使用三套自动转报系统,其中主用为老96路大型转报系统,备用为新96路大型转报系统,应急为64路中型转报系统。三套转报系统均安装了两台超级终端:IP21、IP22,每台超级终端安装监控软件对系统进行监控。2022年1月10日,老96路转报系统超级终端IP21前台监控软件异常告警,根据异常的现象,通过日志查看分析对故障原因进行排查,并通过人、机、环、管四个方面对异常案例进行分析,最终对四个方面存在的问题提出解决方案,为今后的自动转报系统监控软件的异常处置提供了一定的参考及技术支持。


2 异常排查过程

2022年1月10日09:15,河南空管分局通信枢纽室现场运行人员在监视时发现老96路转报系统超级终端IP21前台监控软件弹出告警“写数据库时,打开表失败”,如图1所示

628334f62c459_html_14360365c2d5096.jpg

图1 写数据库时,打开表失败

点击“确定”关闭告警窗,随即前台终端软件自动退出,且弹出告警“数据库登录出错,请选择一种操作”,如图2所示

628334f62c459_html_96ef817f5a9b517e.jpg

图2 数据库登陆出错

告警栏中共有3种选项:

  1. 使用非常模式,处理告警信息和错报。此时转报系统监控软件仅能处理告警信息和错报,无法进行其他常规操作。

  1. 配置本地参数。选择该选项后出现本地参数配置页面,且仅能进行本地参数配置,如图3所示。

628334f62c459_html_452312089e4a33d0.jpg

图3 本地参数配置

  1. 退出系统。选择此选项自动退出告警栏菜单且关闭前台监控软件。

因自动转报系统有两台超级终端监控,检查另一台监控软件正常,不影响转报系统的监控,故此次监控异常及排故过程不影响转报系统的运行及监控。

3原因分析

3.1人为因素

河南空管分局通信枢纽室运行人员每月按要求完成转报系统的定期维护,以保证自动转报系统的正常运行。且该异常事件发生时未进行任何人为操作,故不存在人为因素。

3.2设备因素

自动转报系统监控软件异常后,通信枢纽室迅速进行故障分析,同时向北京航管科技厂家技术人员通报事件过程,请航管科技厂家技术人员协助排查。

通过命令#cd /dmhs/log进入后台日志存放位置,#cat log查看日志内容,无异常信息。

查询相关资料,得知当Oracle 数据库监听器日志文件过大超过2GB时,可能会导致数据库监听异常,listener监听器无法处理新的连接,现象为应用异常,无法连接至数据库。原因是一些32bit OS自带的文件系统不支持2GB以上的文件,导致监听服务进程(tnslsnr)append write日志文件出错。解决方案为删除listener.log(删除前先做备份),然后重启监听。监听重启后会自动创建一个新的日志文件。其中需要注意的是在监听进程运行时,无法对tcp_listener.log做删除或者重命名操作。如果不想重启监听,删除监听日志。

通过命令#cd /diskarray/oracle7/app/diag/tnslsnr/zz1/tcp_listener/trace进入监听日志存放位置,命令#ls-lh tcp_listener.log查看监听日志大小,发现监听日志过大达到11GB。随后对数据库监听日志文件进行删除并重启监听,具体操作步骤如下:

  1. dmhs_stoplnr    #先把监听日志状态停掉,这样就不会写监听器日志

  2. rm tcp_listener.log #删除监听日志

  3. dmhs_startlnr   #重新打开监听日志,开始记录监听器日志。该文件会自动创建

  4. lsnrctl status                    #检查监听状态

删除监听日志文件后重新打开自动转报系统监控软件,仍然弹出“写数据库时,打开表失败”告警,无法正常运行监控软件。

[2]

排查至此确认为监控软件异常,无法连接至数据库,需重装超级终端IP21的监控软件。按照如下步骤对超级终端IP21监控软件进行重装:

  1. 将正在运行发生异常的终端软件安装包删除,存放在默认路径C:\Program Files\Ait下;

  2. 选择特殊模式进入监控终端,选择“帮助——关于...”查看当前使用的前台监控软件版本,向厂家获取对应版本的监控软件安装包,将对应版本的安装包文件拷贝至老96路转报系统超级终端IP21进行安装。默认安装路径在C:\Program Files\Ait\DMHS-H超级终端软件,按照安装指引均选择默认路径完成安装;

  3. 运行新安装的监控软件,输入用户名AAA和密码登录,监控软件可正常运行。

3.3环境因素:

河南空管分局通信枢纽室与自动转报系统技术支持厂家北京航管科技始终保持密切联系与沟通,当遇到设备故障时首先进行应急处置再进行故障排查,当缺乏相关故障处置方案及理论知识支持时及时与航管科技联系,请其协助提供技术支持,与我方共同进行设备故障的排查,以保障故障设备尽快恢复正常减少对运行的影响。

3.4管理因素:

针对设备定时巡视中的注意事项,河南空管分局通信枢纽室QSMS设备手册中的《自动转报系统维护规程》,详细描述了自动转报系统日维护及日巡视时需定时巡视的工作内容。但针对之前从未发生过的监控软件异常现象,缺少相关的提示内容及故障处置流程。同时缺少对于监听日志文件大小检查的相关定期维护内容,需要在手册中对故障处置流程及维护规程进行修订。

4改进措施及建议

针对“人、机、环、管”四个方面问题提出以下改进措施和建议:

1、人员因素:加强空管技术人员对自动转报系统维护操作技术水平的培训,组织运行人员进行自动转报系统相关故障及案例分析的培训学习,使人员掌握故障现象及对应的故障处置方法,及时发现故障进行应急及故障处置,以减少对设备安全运行的影响。

2、设备因素:在进行设备日巡视时注意关注自动转报系统的监控软件是否异常,如有异常立即查看另一台监控终端的监控软件是否正常,确保至少有一台终端的监控正常,不得影响信道、报文的正常监控及自动转报系统的正常运行,在此情况下再进行异常处置。

当出现连接数据库异常时,查看数据库监听日志是否超过2GB,如超过限制大小需要关闭数据库监听进程进行监听日志文件的删除,删除后重启数据库监听再次检查超级终端监控软件运行情况。如依旧出现“写数据库时,打开表失败”告警,则需要卸载当前使用的监控软件,重新安装同一版本监控软件进行修复。

3、环境因素:继续与自动转报系统厂家保持密切联系,同时请其提供相关技术文件以供科室人员学习。

4、管理因素:针对此次异常事件,将监控软件异常的提示及故障处置流程更新至河南空管分局通信枢纽室设备手册的故障处置规程中,便于值班人员处理设备相同的故障问题。同时在设备手册的维护规程中,将数据库监听日志文件大小检查的维护工作列入半年维护项目中,以避免数据库因为日志文件过大而无法正常运行的情况。

5总结与借鉴

首先通过故障现象对案例进行分析,然后根据排查过程及监控软件异常原因制定故障处置程序,同时根据设备运行情况,列出了对应的详细操作流程方案,并修订相关的维护手册内容。自动转报系统作为A类设备,具有承转报文等重要作用,自动转报系统的监控软件对信道、报文、设备组件等转报系统的正常性监控有着重要作用,在空管各单位广泛应用,其监控软件异常的事件分析对相关单位有着重要的借鉴意义。


参考文献:

[1] 杨湘琪.DMHS自动转报系统监控软件的研发与应用[J].信息通信. 2017(05):76-77.

[2] 缪振龙. 探究Oracle监听超时故障[J].网络安全和信息化. 2019(03):149-151.