日立HIACS-5000M型DCS系统网络故障分析及防范措施

(整期优先)网络出版时间:2018-11-21
/ 3

日立HIACS-5000M型DCS系统网络故障分析及防范措施

阎亮

许昌龙岗发电有限责任公司河南省许昌市461690

摘要:现今大型火电机组均采用分散控制系统(DCS),DCS的网络结构构成了机组的神经网络,本文结合日立HIACS-5000M型DCS控制系统,针对DCS网络出现的通讯故障进行实例分析,并提出解决办法和防范措施。

关键词:初始化;环网;离线;网络重构

分类号:TM762文献标识码:A

引言

机组采用的DCS系统是日立HIACS-5000M型分散型控制系统,它包括以下系统及功能:闭环控制系统(MCS),炉膛安全管理系统(FSSS),汽机及锅炉侧顺序控制系统(SCS),数据采集处理监视系统(DAS),电气侧顺序控制系统(ECS)等。单台机组DCS共由五台操作员站、两台工程师站、一台历史站、54个控制机柜及2台打印机组成。54个控制机柜包括一个DCS总电源柜、一个DCS公用系统电源柜、若干个I/O模件、控制器柜。

HITACH-5000M的系统网络结构:μΣNETWORK100采用了FDDI(FiberiaDistributedDataInterface光纤分布式数据接口)网络技术,FDDI是目前成熟的LAN(局域网)技术中传输速率最高的一种,高达100Mbps,所依据的标准是ANSIX3T9.5,具有定时令牌协议的特性,支持多种拓扑结构,传输媒体为光纤。

1故障现象

故障前机组正常运行,POC4站所有数据变蓝显示离线,失去监视和操作功能,初步怀疑LANBOX(一种采用FDDI方式将控制站与光网之间传输信息)至主机SCSI卡端的数据通讯线存在故障,对数据线进行更换后后,仍无法与环网通讯(所有数据点变兰)。重新启动POC4后发现PP任务窗口显示服务器已停止,即该站无法与网络通讯,同时发现该站的LANBOX状态指示灯不正常,随即对该站LANBOX进行断电复位,断电后发现所有POC站、历史站均失去监视,数据离线变兰,CRT弹出窗口显示“网路故障,重启计算机”提示框,首先对POC1重启后仍无效,立即恢复POC4的LANBOX电源,并依次重启POC5、POC3、POC2、POC1、POC6、HIST,除POC4外均正常。此时操作员站的报警窗口报单网故障。DCS正常后检查所有DCS机柜主控制器发“ERR报警”系统自动将主控制器MDA自动切换至MDB控制。

2故障排查

首先对故障报警进行收集,发现所有操作台均发异常报警,报警信息如下:

2015/07/13Z0004POC4异常

所有控制器主控制器A发CPU故障报警,所有控制器均自动切换至备用控制器,报警信息如下:

2015/07/13Z0049ECS2+MDA系统CPU故障异常

2015/07/13Z0026F3S7+MDB系统CPU故障正常恢复

在操作台重启后,系统仍存在单网故障,对排查单网故障原因进行排查。

1)对电子间所有控制器状态进行查看,确认所有控制器状态正常未出现断网情况。

2)对各POC站、历史站、工程师站(EWS)、CIS站、SIS站的LANBOX状态进行排查,根据LANBOX的指示灯状态(见表2.1)。检查发现历史站、工程师站、POC6站的LANBOX状态异常,判断故障点。其中历史站的LANBOX除正常灯亮外,还有WRAPA灯亮;工程师站的LANBOX除正常灯亮外,还有WRAPA和WRAPB亮,且故障信息显示EC=0X47537271;其中POC6站的LANBOX除正常灯亮外,还有WRAPB灯亮。通过查看LANBOX指示灯信息发现:历史站处的环网状态是A侧断开(环路返回),工程师站处的环网状态是A、B侧均断开,POC6站处的环网状态是B侧断开(环路返回)。根据现场环网拓扑结构说明DCS环网在EWS处出现断点,致使数据传输异常。

3)对EWS的LANBOX进行复位,无效,此时故障代码变为EC=0X07187121;接着,对EWS的电脑主机及LANBOX均断电重启,仍无效。判断为EWS的LANBOX故障,造成DCS网络断点。对EWS的LANBOX进行更换,更换后重启EWS网络正常,且LANBOX状态指示灯正常。DCS网络正常后,我们又逐步对发故障的CPU进行停止、运行操作后,各控制器ERR报警消除。在问题查明后将运行的备用控制器切至主控制器运行,系统恢复正常。

在分析DCS网络故障的同时,及时收集各POC、历史站、EWS站及各故障控制器的错误信息进行原因分析。

3原因分析

3.1LANBOX故障分析:

LANBOX故障码0x47537271是设备故障,含义为:FDDI控制LSI发生异常(因本节点Isolated故障导致总线测试失败),设备处于孤点状态。

LANBOX故障码0x07187121是硬件故障,是LANBOX在BOOT时报出的一个诊断故障,含义为:FDDI芯片组诊断失败。

根据47537271和07187121故障码,可以认定LANBOX故障是硬件故障,设备已损坏。

3.2网络中断后,部分控制器发ERR报警,并切为备用控制器的原因分析

Isolate状态时,系统关键字GR1A_ISOLATION变为ON状态。根据初始化逻辑,系统初始化完毕后,当GR1A_ISOLATION为ON时,会发出CPU_Stop_Request,即ACPU停止指令。这是A控制器ERR的原因。此时,BCPU根据初始化逻辑是不会停的,也就是说控制是持续的。

3.3POC4断电后,所有POC站及HIST站离线失去监控的原因分析

H5000M系统指令下发的流程是:按照SAP任务分配设置(SAP任务分配采用自律分散的思想,把各项任务均分到各操作员站,每项任务指定某台操作员站为主站,这台操作员站故障后,它所承担的任务自动切换到其它站上,切换的顺序就是按照SAP表内设置顺序进行),其它POC站下发的指令都发到SAP任务分配设置的CRT指令下发任务的主站,由CRT指令下发任务的主站统一下发到控制器。根据POC站定义的SAP任务分配,CRT指令下发任务的切换顺序依次为POC2→POC1→POC3→POC4→POC5→POC6→POC2。当所有POC站正常运行时,CRT指令下发任务的主站为POC2,当POC2关机或故障时,CRT指令下发任务的主站自动切为POC1,此时要是POC1也关机或故障,CRT指令下发任务的主站又会自动切为POC3。

从POC站SAP主的切换过程来看:

1)POC4将所有任务切回自己并报SAPcommunicationError!SAPshutdown!

2)重启POC4后,再次将所有任务切回自己,报SAPcommunicationError!SAPshutdown!

3)HIST、所有POC都将任务切回自己。

4)HIST、所有POC都报出SAPcommunicationError!SAPshutdown!

POC站孤点状态后,网络通信中断,各站均将任务切至自己,SAP通讯报异常并停止。CoreView检测到SAP停止后,为避免误操作,主动将SAP停止的操作员站强制离线,从而失去了监控。

3.4网络重构、控制器切换和操作台离线的系统原因

HITACH-5000M的系统是双重化环行网结构,内环的令牌传输方向是逆时针方向,外环路令牌为顺时针方向,令牌环行一周,每个站获得一次发信权。如图3.1所示,一般情况下,外环为主网环路,内环为热备份网络。

当主网(外环)故障时(如网络折断)。主网停止运行,备份网投入运行,不影响数据传输。当内环故障时,站间数据依靠外环传输系统仍可正常工作。

当某站故障时,如站3故障,可将故障站旁路掉,令牌从外送到站2处,再从站2自内环返回到站1,并传送到站4处,从站4自外环返回站1。令牌仍可传送,系统可继续运行,此功能称为环路返回(Loop-Back)功能。

日立控制系统在μΣ100光纤断网/恢复、网络节点增加/减少等传输回路发生变化时,网络会重构。正常情况下,网络重构不会对网络的运行造成影响。但这次POC4的LANBOX复位引发网络重构时,因网络上存在故障节点(EWS的LANBOX硬件故障),环网上的所有节点状态变为瞬时的自系孤立状态(Isolate),触发了系统故障状态下的自动处理程序,即控制器进行切换,POC站报出网络异常需要重新启动的提示。

EWS站LANBOX的FDDI网络相关硬件故障导致网络重构超时,节点自系孤立,是本次事件的主因。这种在节点增加时出现Isolate的概率是非常小的。

4处理对策及防范措施:

4.1由于LANBOX复位引起网络重构,环网上的所有节点状态变为瞬时的自系孤立状态,为防止瞬时的Isolate对CPU影响,对所有控制器的初始化逻辑做出修改,在INITIALLOGIC(初始化逻辑)GR1A_ISOLATION的输出后追加时间延时功能块(TP),TP延时时间设为1s.

4.2日立DCS系统是冗余的光纤网络,一般情况下,只出现单网故障时机组的监控不受影响。但要重视出现的单网报警信息,尽快查明原因,避免出现多个断点导致失去监控。在个别极端情况下,为保证控制持续性,控制器会自动切换并发严重报警,同时POC站给出提示,人工重新启动计算机后可恢复监控。

4.3定期检查DCS网络是否正常,检查方法:首先调出DOS操作界面输入口令:ndfrstat31并回车,系统中所有网络节点及IP地址均会一一列出。当某一节点出现故障时时,该节点显示WRAP,说明网络在单网运行,检查并排除故障点。

4.4针对DCS全部操作员站故障,一条网络或网络设备(包括数据总线)发生故障,发生通信故障时的吹了措施与安全对策。建立高效的热控设备故障应急处理机制,以确保机组运行过程中发生故障时能够迅速、可靠的组织故障处理,最大限度的降低故障造成的影响,结合本次处理的经验,制定切实可操作的应急处理预案,经批准后定期进行反故障演习。

4.5进行通信总线冗余切换试验,试验过程中,通信总线应自动切换至冗余总线运行;指示灯指示和系统工作应正常;检查系统数据不得丢失、通信不得中断、热工设备故障报警正确、诊断画面显示应与试验实际相符。

5结束语

在机组停机后对初始化逻辑进行修改,对lanbox故障报警、单网故障报警进行设置提高报警级别,并断开一个lanbox,未发生操作员站离线、控制器切换状况。此类问题的解决,不管是对于采用日立控制系统的用户,还是在原理、结构上迥异其它DCS用户都有很好的借鉴意义,避免此类问题的发生。

参考文献:

[1]北京日立控制系统有限公司《CoreView系统初始化组态工具使用说明书》

[2]北京日立控制系统有限公司《日立培训教材》

[3]电力行业热工自动化标准化技术委员会《DL(T)774-2004_火力发电厂热工自动化系统检修运行维护规程》