一次地面综合观测业务软件故障原因分析

(整期优先)网络出版时间:2023-10-25
/ 1

一次地面综合观测业务软件故障原因分析

肖西1  温天亮赵岩松1  王丽君2

(1.静乐县气象局 山西 忻州 035100, 2.定襄县气象局 山西 忻州 035400)

摘要:2023年8月,山西省忻州市静乐县气象局值班员发现地面综合观测业务软件ISOS(Ver3.0.5.12版)停止工作,软件采集不到任何数据。值班员迅速联系全局人员对软件故障开展排查,历时6小时后,故障排除,业务系统恢复正常。通过归纳和总结这次故障排除过程,能够为其它安装地面综合观测业务软件的台站遇到类似的故障时,提供很好的参考价值。

关键词:软件;故障;排除



引言 为适应现代气象高质量发展,地面气象观测逐步实现自动化。现阶段运行的地面综合观测业务软件ISOS集成了温度、湿度、气压、风向、风速、降水、能见度、降水类天气现象以及视程障碍类天气现象等多种要素,普遍应用于全国各国家级地面观测站。在地面综合观测业务软件运行过程中,难免会因为各种原因出现一些问题,这就需要基层业务人员掌握一定排除故障的思路和技巧。但往往一些故障比较罕见,需要业务人员拓宽思路,各方排查才能解决问题,比如2023年8月17日静乐县气象局出现的软件停止工作问题。

1 故障现象和处理过程

2023年8月,值班员发现ISOS业务软件突然提示停止工作。随即局领导立刻组织全局人员迅速开展故障排查。值班员首先将计算机及业务软件重新启动,软件重启2分钟后,依然提示停止工作。值班员初步判断该问题发生可能由以下几种原因:一是计算机内存或者主采集器内存不足,二是业务软件运行过程中可能存在计算机软件病毒影响或者杀毒软件干扰,三是业务软件由于插拔外接设备导致软件损坏。

根据以上分析,值班员立即检查计算机内存,发现计算机内存占用比50%。随后更换主采集器内存卡,并重新启动主采集器,但问题没有得到解决。随即值班员在业务计算机运行杀毒软件,对全系统开展病毒查杀,而后卸载杀毒软件,并重新安装ISOS软件,软件再次提醒停止工作。最后,值班员启用备份计算机,将备份计算机设置好后,把新型自动站挂接在备份计算机上,软件故障依然没有排除。

2 故障处理结果

经全体业务员讨论分析,排除计算机系统以及业务软件自身故障后,该现象可能由于硬件设备损坏导致。业务人员随即外出巡视气象观测场。业务员首先查看硬件综合集成控制器,发下连接天气现象视程障碍仪的指示灯通信时处于长灭状态。经检查,该设备已经停止工作。值班员用万用表测量其供电系统后发现,该设备供电异常。值班员返回值班室后,在ISOS软件设备挂接页面取消该设备挂接,ISOS软件功能恢复正常,开始正常采集数据。经与天气现象视程障碍仪生产厂商联系更换该设备后,业务系统恢复正常。

3故障分析及思考

在日常工作中,由于很多国家级地面观测站都没有安装同一型号的备份站,国家级地面观测站一旦出现问题,会对气象数据的连续性会造成很大的影响[1]。因此,我们在日常工作中,排除故障的能力就尤为重要。此次软件故障,值班员分析问题时,主要将重点放在计算机系统以及软件受病毒等影响出现问题,外接设备故障开始并没有考虑在内。但此次故障问题根源却是挂接自动站的某一设备的损坏导致。引起这种现象的原因可能是在计算机向设备发送接收数据的命令时,由于设备故障,无法返回正常数据,致使软件持续向该设备发送信号,最终导致业务软件崩溃。

因此,广大值班员在业务值班的过程中,除掌握简单的设备检测及故障排除方法外,还应当具备一些计算机和设备交互的基本知识,对判断消除故障、解决实际中遇到问题会有很大的帮助。


参考文献

[1]罗仁斌,赵帅飞,臧慧锋.DZZ5型自动站一次通讯系统故障处理及分析[J].农技服务, 2017(10):1.DOI:10.3969/j.issn.1004-8421.2017.10.064.