西门子SPPA T3000控制系统的应用及故障处理

(整期优先)网络出版时间:2020-12-11
/ 3

西门子 SPPA T3000控制系统的应用及故障处理

程明

山西省晋城市阳城国际发电有限责任公司


摘要:结合T3000系统长期维护经验以及用户需求,总结了西门子T3000系统在实际应用中的相关结构优化和故障设备改造方法,为T3000用户改造提出了建议,提高了T3000系统的可靠性。


关键词:西门子SPPAT3000;系统应用;故障处理;优化改造


  1. 概述

以某发电厂控制系统为例,自动控制系统主要包括单元机组DCS、公用系统DCS、脱硫DCS、电气控制系统(NCS),采用了DCS,DEH,FGD-DCS系统一体化控制方案。单元机组DCS包括常规DCS和DEH两部分,均采用西门子SPPAT3000控制系统,系统之间通过高性能的中心路由器(交换机)相互连接,在操作员站网络这一层实现信息共享。单元机组网络分为应用网络、控制网络和过程接口层,其中控制站与IO单元构成下层网络,通信采用工业以太网ISO协议,工程师站、操作员站和打印机等组成上层网络,通信采用以太网TCP/IP协议。各层网络由工业以太网模块(OSM)组成环形网络结构,上、下层网络间通过服务器进行数据交换。冗余服务器实现系统控制器管理、调试和数据采集、传输以及给水焓值计算等功能。操作员站、工程师站在实际生产中通过访问机组服务器进行画面数据显示和指令传达。DCS系统网络结构如图1所示。

5fd2e2df61f06_html_f7c6936c6b995c30.png

图1某厂#1#2机组网络拓扑图


  1. SPPA T3000系统的主要故障现象及处理

西门子SPPA T3000控制系统(以下简称T3000系统)出现了诸多的问题和故障,本文从设备硬件故障、软件故障、通信故障等方面进行分析。

2.1硬件故障

T3000系统硬件结构主要包括服务器、交换机、控制器、IO卡件、预制电缆及FIM卡件。其中控制器由电源模块、CPU模块和网络模块组成,通过ProfiBus总线与下层卡件进行通信和数据采集。网络模件与CPU的通信通过背板总线进行并通过ProfiDP总线连接到下层网OSM通信模块,以实现服务器数据采集和传输的实时性。

①预制电缆故障

在机组正常运行的过程中,经常出现整个卡件模拟量测点中断、波动、部分信号跳变等现象,如:5A汽泵壳体顶部温度、下部温度,5A前置泵马达U相温度,驱动端、非驱动端轴承温度瞬间出现断点;60CBA19控制柜AD006卡件所有信号跳变等。

由于预制电缆问题导致信号异常的情况,经西门子公司进行检测,发现系该批次预制电缆的针脚制作封装工艺存在问题。对该批次中大部分预制电缆进行更换后,目前此类原因引起的故障已较少出现。

②服务器故障

该电厂T3000系统服务器采用的是ft Server W系列4300系统,在机组正常运行过程中,曾经出现硬盘不同步、服务器内存故障等问题。

2010-12-17,巡检发现6号DEH服务器硬盘冗余丧失。利用春节临修时进行检查,发现是由下层冗余服务器磁盘控制器故障造成,更换下层服务器后恢复正常。2012-5-28,5号机组DCS系统服务器冗余故障报警,原因是UPS电源故障造成下层服务器停运,电源恢复、服务器重启后,数据硬盘同步显示故障。经西门子和服务器厂家专家确认,故障为硬盘坏道引起。

西门子T3000系统服务器采用冗余设计,硬盘之间采用镜像技术,所以对硬件的要求较为严格,服务器长时间运行后会导致服务器硬盘产生坏道,坏道部分的数据将无法与另外的硬盘进行冗余,服务器在这个过程中进行反复的检测,产生故障报警。而实际服务器硬盘数据正常,切换正常。针对此种情况,将服务器故障分为3种类型,编制了B1,B2和B3三级应急预案,防止因事故的进一步扩大而导致机组跳闸,减小了对电网的影响。

③卡件故障

卡件故障主要分为IO卡件故障和控制器电源PS405卡件故障。

2010-1-21,DEH系统60CKC05柜AD05槽DO卡件第4通道故障,指令无法发出,造成主汽门前疏水门无法开启。

CPU电源模块PS405卡件故障,导致备用CPU停运,DCS故障报警。到目前已经多次发生,但未对运行造成严重影响。2012-06-27,5号机组AP539控制柜PS405卡件故障;2012-7-31,5号机组AP502控制柜(MFT)PS405卡件故障。

IO卡件故障的主要原因是电子产品使用时间过长后出现老化。停运的PS405卡件重新上电后,可以工作但电流偏大。这一情况已经联系西门子公司将故障卡件寄回德国检测。所有故障现象均为PS405卡件停止工作,导致相应侧AP控制器停运。如果控制器存在切换异常,则可能导致相应控制器控制设备异常。为此组织编写了DCS系统所有AP控制器单侧故障抢修预案。

2.2故障软件故障

T3000系统软件是将所有的任务放置在同一个综合系统软件中实现,包括工程设计、调试运行和系统诊断。这种理念简化了T3000系统的结构,使得HMI、控制系统组态、诊断、历史数据存储等多个功能被包含在T3000的嵌入式组件服务程序中。在宁海发电厂调试及运行期间,T3000系统在算法模块、趋势组件、时钟同步等方面也存在着问题。

①算法模块不运算

2009-05-04,5号机组凝汽器水幕喷水阀A的所有反馈、指令信号正常,但是CCTRL算法模块无法判断阀门状态,导致画面报警。2011-1-14,6号机组DCS系统A磨煤机允许启动条件信号为“1”,但A磨煤机却不允许启动。出现类似上述情况后,将逻辑重新激活即可恢复正常。

T3000系统中连接点或者个别算法模块未激活,其主要原因是该点或者该算法模块应用到多个方案页中,当某个方案页逻辑变动后进行激活时,未对关联的方案页进行激活,可能导致算法模块无法正常运行。

②报警系统异常

2011-12-1,5号DCS主控画面中部分信号测点“U”报警,检查逻辑运算正常,监视块输出端口无显示,重新激活监视块后正常。

③趋势图组件无法使用

2009-04-16,6号机组DCS系统趋势图打不开。2009-04-25,5号机DEH系统趋势图内数据全为坏点。

DEH系统内存较小、配置点较少。将PDS进程内存由135MB改为187MB,OPC文件由8000点配置成9500点,重新启动服务器后即可恢复正常。

④GPS系统时间出错

2012-07-27,5号、6号机组DCS系统和DEH系统相继出现记录曲线断点现象,经查实为GPS时钟不同步造成。

T3000系统GPS时钟改造。取消故障率较高的GPS时钟服务器,采用安全可靠的电气NTP时钟信号,直接通过SCALANCE送至服务器。

2.3通信系统故障

T3000系统的网络架构主要由3部分组成:应用层网络、控制层网络、过程接口层。每层之间的通信协议有所不同,在调试及运行过程中,通信系统曾出现过各类问题。

①网络瘫痪

2010-7-4,5号机组DCS系统响应缓慢,打开一幅画面约需2min,同时ASD报警无法复位,后经重启AC进程后恢复正常。西门子系统管理员远方登陆确认为OP53操作员站电脑“空格”或“ENTER”键一直处于按下未弹起状态,ASD报警复位功能一直在激活状态,占用大量内存,导致DCS系统运行速度缓慢。

②网络通信滞后

2008-11-24,6号机组闭式泵B跳闸,电流为零,延时20s后状态显示才由运行变为停止。经查是由于数据通信迟滞导致。

③CM通信中断

T3000系统与发电机、锅炉壁温等IDAS系统、TSI系统、除灰系统等其他系统采用CM通信方式。2012-01-10,锅炉壁温测点不能显示,数据刷新慢,所有操作员站均有部分画面死机,持续1.5min后恢复正常。

T3000系统采用西门子特有的环网冗余技术,使用1对OSM(光网交换机),主站、从站互为备用。所有信息通过服务器进行数据交换,所以当网络交换机出现异常或者故障时,会导致DCS系统数据阻塞或者中断。


  1. T3000控制系统改造与优化思路

经典的西门子T3000控制系统服务器采用富士通公司生产的Ever Run Server(马拉松服务器),控制器采用西门子AS417和FM458高速处理器,输入/输出模块采用西门子ET200M和ADDFEM(高速输入/输出模块),GPS采用西门子GPS时钟服务器,UPS(不间断电源供电系统)采用APC公司生产的Smart-UPS1500。

在实际应用中,马拉松服务器、西门子GPS时钟服务器均存在较高的故障率,电源配置也存在一定缺陷,所以需要对服务器和GPS进行改造,并且对电源系统进行优化。

①T3000系统服务器改造。将故障率较高的马拉松服务器改型为FT容错服务器。

②T3000系统GPS时钟改造。取消故障率较高的GPS时钟服务器,采用安全可靠的电气NTP时钟信号,直接通过SCALANCE送至服务器。

③T3000电源系统优化,取消系统配置的Smart UPS,改由可靠的电气UPSA/B段直接为服务器供电。

5fd2e2df61f06_html_a234827c0775976f.png

图2西门子T3000系统优化前后对比


  1. 提高系统可靠性的措施

4.1强化管理、完善设备优化

①对机组的主保护信号进行全面梳理,编写保护投退操作卡和逻辑、信号强制标准表单,有效防止故障处理时人为误操作。

②针对所有DCS系统操作编写标准操作卡,如远程登陆诊断操作卡、CPU卡件更换操作卡、项目数据导出备份操作卡、AP数据与工程数据同步操作卡、T3000进程重启操作卡等。要求所有热控人员熟练掌握,并规范操作,有利于专业管理和风险分散。

③软件组态时,模拟量采集模块的滤波功能要打开,还应设置上/下限和死区,避免因数据的微小变化而影响控制器的通信进程。

④优化和删除控制器中没有用途的逻辑或者垃圾逻辑,减轻控制器负荷率,减少不必要的数据交换,提高AP控制器和服务器性能。

4.2加强人员培训,开展定期巡检工作

编写T3000系统典型故障快速查找表,对典型故障进行分类,包括故障现象分析、检查处理步骤及注意事项、采取的安全措施、故障涉及设备及联锁保护等。所有相关人员参与编写AP控制器和主/重要设备异常、故障抢修预案,并按照抢修预案进行反事故演习,提高应对DCS系统异常事件的处理水平和能力。结合DCS系统所有卡件故障报警指示灯、异常现象,对DCS系统定期巡检、定期维护,确保及时发现问题及时处理,有效避免DCS系统异常、故障事件扩大化。

4.3容错服务器的维护

容错服务器的相关维护较为简单,日常维护基本能够在 FISERVER 容错服 务器管理软件中进行, 其中最重要的服务器冗余切换试验可按照以下步骤进行:

①进入 FISERVER 容错服务器管理软件,在 I/O Enclosures-10(主服务器的 I/O Enclosures)右键选择 Bring down,主服务器的硬件指示灯从黄闪到灭。I/O Enclosures-10 的 Op state 由 primary显示为 none。

②在 CPU Enclosures-0 (主服务器的 CPU Enclosures)右键选择 Bring down,执行完毕后CPU Enclosures 的 Op state 由 Primary 显示为 none。

③经过以上 2 步操作,主服务器自动关闭,I/O Enclosures-11 由 Secondary 自动提升为 Primary,CPU Enclosures-1 同样由 Secondary 自动提升为 Primary。主服务器关闭后从服务器自动升级为主服务器。

④对关闭的服务器进行清灰或者更换硬盘。

⑤I/O Enclosures-10 右键选择 Bring up。此时被关闭的服务器硬件指示灯从灭到黄闪(正在同步中, 此时不能进行任何操作), I/O Enclosures-10 的 Op state 由 none 显示为 Secondary。

⑥CPU Enclosures-0 右键选择 Bring up,执行完毕后, CPU Enclosures 的Op state 由 none 显示为 Secondary。

⑦经过第 5,6 步操作之后,被关闭的服务器重新启动并自动变成从服务器。

⑧服务器切换完毕。


结语

以某发电厂为例,介绍了西门子T3000系统在实际应用中存在的问题,并根据长期维护经验总结出相关结构优化和故障设备改造方法,以消除T3000系统硬件设计上的缺陷和不足,同时提出T3000系统的可靠性措施。


参考文献:

  1. 曾海波.西门子SPPA-T3000紧急跳闸系统故障与处理[J].浙江电力,2015,34(10):37-39.

  2. 王立文.西门子SPPAT3000控制系统的应用及故障处理[J].浙江电力,2013,32(8):52-55.