机房综合运维管理系统

(整期优先)网络出版时间:2021-10-26
/ 2

机房综合运维管理系统

冯金柳 韩振华 刘田 周晓明

沈阳博来德滋电子科技有限公司 110031

摘 要:机房综合运维管理系统是通过采集服务器把电力系统安全I区、安全II区和安全III区中的服务器、交换机、数据库、磁盘阵列、动力环境监控信息集中可视化展示的一套系统。该系统能通过告警快速定位故障位置,大大提升了运维管理能力,成为现代化运维的重要手段。

关键词:安全I区、安全II区、安全III区、安全隔离网闸、可视化

  1. 前言

随着电力调度自动化网络设备、服务器和应用系统的种类和数量不断增长以及计算机技术和现代化网络管理技术的不断发展,对自动化系统内部的业务运作和管理模式也提出了新的挑战。 以前各级调度自动化系统结构相对简单、功能相对独立,随着国家电网公司提出全面推进“三型两网”建设要求,要求建设泛在电力物联网实现业务协同和数据贯通,建设各级综合服务平台基本功能,支撑电网业务与新兴业务发展。机房运维管理建设应积极响应国家电网关于泛在电力物联网在调度自动化系统的要求,实现调度自动化各个业务系统、各级调度自动化系统之间网络互联和数据共享。

目前调度自动化机房运行维护与安全管理基本还停留在人工管理与制度约束的阶段,没有合理的技术手段对实际环境的实时运行情况与安全状况进行监督管理,缺乏人、技术、流程结合的有效机制与技术手段,仅通过手工管理和制度约束,导致系统运行维护管理工作效率低下,不能完成故障和问题的闭环处理,同时运维经验与知识无法有效积累。

为加强自动化机房网络设备和应用系统设备的监管,提升调度自动化机房网络管理,保证电力调度自动化系统健康稳定、数据安全可靠,迫切需要一个机房综合运维管理平台来提升机房管理能力,实现对安全接入区、网络设备、应用系统、机房环境和服务器的综合运维管控。

  1. 系统设计原则

1、通用性

系统的设计符合国际工业监控与开放式设计标准。

2、可靠性

系统具有良好的电磁兼容性和电气隔离性能,不影响被监控设备正常工作;

系统具有自诊断功能,对通信中断、软硬件故障能够诊出故障并及时告警;

系统硬件能在用户给出的基础电源条件下不间断工作;

系统采用必要的备份路由措施,保证传输网络的正常运行

系统平均故障间隔时间MTBF>100000h,监控系统硬件的平均故障间隔时间MTBF>100000h,平均故障修复时间MTTR< 0.5h。

3、准确性

告警准确率:100%;

对现场设备的控制准确率:100%;

4、稳定性

系统某一子系统运行异常,不影响系统中其它子系统的正常运行。

5、安全性

硬件系统的设计采用可靠的电气隔离,保证系统的软硬件在任何情况下,均不会影响被监控对象运行的安全性;

软件系统的设计对系统管理和维护人员进行多级权限分类以区分限制各级别用户对系统的访问和操作权力,保证系统操作的安全性;

系统为用户对系统所做的管理和维护操作进行跟踪记录,为系统日后出现运行事故提供辅助分析功能。

6、可维护性

系统运行进行在线运行状态诊断和监测,能及时发现系统各功能单元故障情况,便于系统故障的维护处理;

软件系统的设计采用模块化结构设计和规范化标识保证软件的可维护性要求。

7、扩充性

系统的软硬件设计采用模块化可扩充结构及标准化模块接口,便于系统适应不同规模和功能要求的网络系统。

8、开放性

系统网络通信协议符合国网网络协议标准,操作系统首选国产操作平台,数据库管理系统首选国产大型关系型数据库系统,以保证安全性和开放性。

  1. 系统总体设计

  1. 系统功能

本系统根据地区调度二次系统业务特点,将二次系统关键信息和业务信息进行梳理,形成了一套二次系统应急处理策略库,制定调度二次系统接入规范,实现对调度二次系统的软件、硬件、网络的运行工况和机房环境的实时、集中监视,实现调度二次系统的集中告警、集中监视和远程运维。

系统功能主要由以下几大模块组成:

  • 机房设备、环境监控

  • 业务系统信息接入

  • 告警管理

  • 云端APP展示

机房设备、环境监控:

  • 服务器采集信息如下:

  • 硬件信息:硬盘状态、电源状态、网卡状态、CPU状态、内存状态、风扇状态等。

  • 运行信息:CPU状态、温度及使用率,内存使用率、进程信息、

风扇转数、磁盘空间等。

  • 告警信息:服务器发出的告警信息。

  • 磁盘阵列采集信息如下:

  • 硬盘状态

  • 硬盘使用率

  • 阵列告警信息

  • 精密空调监控

  • 遥测量:室内湿度,室内温度,室外温度。

  • 遥信量:传感器板丢失报警,除湿状态,电源丢失故障报警,电源故障报警等。

  • UPS监控

  • 遥测量:电池电压,输入频率,输入电压,I/P故障电压,输出电流(负载),输出电压,温度等。

  • 遥信量:电池低,市电失败,开机状态,旁路,UPS故障等。

  • 温湿度监控

采集机房温度和湿度信息。

  • 机房漏水监控

采集水浸设备信息,监测机房是否漏水。

  • 机房视频监控

系统提供两种视频监控模式,机房本地浏览和手机端浏览模式。本地模式方便运维值班人员实时监控机房情况,手机端模式方便非值班人员远程查看机房情况。

  • 门禁监控

系统能够对机房门禁设备信息进行采集,并且能够通过系统进行开门和关门操作。

  • 灯控

系统能够对机房内灯的开关状态进行采集,并且能够通过系统进行开灯和关灯操作,方便运维人员远程查看机房内的情况。

业务系统信息接入:

系统提供第三方业务系统接入接口,可以方便的接入其它业务系统的告警及状态数据,如果需要,也可对业务系统模块进行扩展,由于业务系统接入模块与系统其它模块之间采用统一的数据传输模式,因此对业务系统接入模块的扩展不会影响系统的其它模块。

报警管理:

通过信息接入子系统实现设备及业务信息的统一采集、接入和处理,并将这些信息在统一的画面集中显示,方便用户的集中查询和处理。

  • 告警信息包括:

  • 设备告警

  • 机房环境报警

  • 业务系统告警

  • 系统提供多种告警方式,包括:微信公众号、本地声光报警及云端APP推送。

  • 告警级别自定义

  • 告警条件灵活配置

告警信息推送可配置,可按用户,业务系统 、告警级别、 区域及告警持续时间进行灵活定制。

云端APP展示:

基于云端手机APP,实现调控数据(资产/运行/环境/报警等)的精准推送,是本系统最重要的部分,用户可以随时随地获取和访问自己关心的数据,从而真正实现调度运维的无人值守。

云端APP的展示界面及推送通知是高度可定制化的, 针对不同的用户,系统可按区域、设备、告警级别及用户权限等条件对界面及告警进行定制化,从而过滤掉用户不关心的信息。

  1. 系统结构图

617755234365b_html_f4d86c43b99cf3e1.png

  1. 系统主要应用技术

  1. 采用B/S结构。

  2. 数据库采用MySQL。

  3. 本系统采用java语言为主,同时也大量应用了HTML、Javascript等多种技术。

  4. 为提高系统的灵活性,系统引入微信小程序、微信公众号等开发技术。

  1. 系统运行环境

1、服务器技术参数:

CPU:4核

内存:≥16G

硬盘:≥500G*2

2、交换机技术参数:

固定端口:24个10/100Mbps自适应以太网端口

包转发率:3.57Mpps

输入电压:100V-240V AC

防雷:共模防护7KV,防雷等级4级

  1. 安全隔离网闸参数:

接口规范:两个CONSOLE口 (管理设备用)

三个网口 (传输信息用)

两个220V/50HZ电源插座

抗干扰性:IEC-1000-4-2(ESD)

IEC-1000-4-3(辐射敏感性)

IEC-1000-4-4(电快速瞬变)

IEC-1000-4-5(电涌)

IEC-1000-4-6(谐波)

电源:交流电源220V;允许偏差-15% -- +15%

工作湿度: 40℃时10%-90%

工作温度:0℃-40℃

  1. 防护墙技术参数

并发连接数:250000

网络吞吐量:80Mbps

网络端口:4个10/100Mbps以太网口、1个AUX口(备份口)、1个CONSOLE口(配置口)

VPN支持:支持

入侵检测:Dos、DdoS

电源输入:100-240V ;50/60Hz

适用环境:工作温度:0℃-45℃、湿度:10%-95%(不结露

  1. 结束语

机房综合运维管理系统是运维人员通过软件监控方式达到故障早发现、早解决的重要方式,是提高运维水平的一个重要标志。随着系统软件的大量应用,解决了现在化运维的一些陈旧性问题,为未来业务的更好发展奠定良好的基础。