数据中心基础设施智慧运营平台的研究与应用

/ 4

数据中心基础设施智慧运营平台的研究与应用

刘圣庆,徐珠,唐志斌,方卫东,陈佳,陈润

中国联合网络通信有限公司广东省分公司  广东广州  510000

随着信息技术的快速发展和应用需求的不断增长,数据中心的规模和复杂度也在不断提高。文章针对数据中心基础设施智慧运营平台建设进行了深入研究,并提出了一种数字化解决方案。该方案将物联网、大数据分析等技术与数据中心管理相结合,实现了数据中心的智能化运营。通过对数据中心基础设施的监测、控制和管理,提高数据中心的运行效率和稳定性。同时,平台还支持用户根据业务需求进行灵活配置和调整,提高资源的利用率和效率。本文以中国联通华南(东莞)数据中心为平台,验证了该方案的可行性和实用性,并取得了显著的效果。结果表明,本方案可以有效提高数据中心的运营效率和质量,降低管理成本和风险,具有广阔的应用前景和市场价值。

关键词:数据中心;智慧运营平台;数字化

1  引言

1.1研究背景

中国联通华南(东莞)数据中心各基础设施分期建设,存在多个子系统,对各类设备的管理及监控分散在不同系统中,给日常维护带来诸多问题:

1)多个动环系统告警处理和巡检工作量大,网管值守人员不足;

2)各系统数据无法打通,无法精确计算整个数据中心PUE(Power Usage Effectiveness,电源使用效率);

3)客户、政府、联通省公司、集团不断提出对数据中心相关数据纳管要求,对接成本高,且各系统服务器处理能力不足;

4)各系统数据无法打通,日常报表无法互通,需人工处理,花费大量人力成本;

5)动环系统局限于各自的告警平台,维护管理水平几近于无,迫切需要在电子巡检、3D维护管理指导等方面实现数字化助力运营维护;

6)分散的系统无法有效配置安全策略,涉及信息安全风险较大。

1.2研究目的

为解决以上问题,需建设一套数据中心基础设施智慧运营平台,实现平台统一集成:动环、BA、消防、感温光缆等平台统一集成管理;实现数据标准化:空间、设备及测点编码统一,按联通B接口、C接口要求标准化;实现运维标准化:对不同设备、不同监控内容的报警信息进行贴标识别,发生故障采用标准化运维流程处置;实现数字化大屏统一展示:统一的告警响应和告警处置,运维人员在一个大屏实现全故障响应和处置,及时掌握数据中心运营情况:包含:楼宇PUE、容量、设备运行情况(动力设备、环境设备、安防设备、消防设备)、告警统计、区域高温等。

2  平台方案

2.1组网架构

系统采用微服务架构,分布式部署组网。支持未来满足不断增长用户规模和网络规模的需求。系统可分为对接层、管理层、应用层和交互层。系统功能结构如图2.1。

图2.1 系统组网架构

平台采用一体化集成开发的技术,把构成整个数据中心的智慧运维平台,各自独立分离的设备、功能和信息集成为一个相互关联、完整和协调的综合管理系统,并通过该系统把这些分散、复杂而庞大的各类设备和系统进行充分的信息、资源、任务共享,从而方便地在统一的界面上实现对各子系统全局的监视、控制和管理;并通过WEB、手机客户端、微信等多元化的方式实现直观的展示监控;这样不仅能有效控制和降低管理营运成本,提高中心机房管理的效率和综合服务能力,同时通过设备知识库的累积,增加对突发事件的控制和处理能力,将灾害损失减少到最低限度,有效保证数据中心机房系统对象的安全运行。

2.2系统对接层

系统对接层由各子系统组成,包括:BA(群控)系统,动环监控系统、网管系统、视频系统、门禁系统及其他第三方系统等,通过TCP/IP网络,通过开发接口进行数据对接,实现各子系统统一监控,统一管理,同时打通各系统之间的壁垒,资源信息进行整合,实现数据联动达到节能效果。

2.3系统管理层

系统管理层采用主备异地搭建云服务器架构,根据应用的不同性能需要,虚拟出来需要的云服务器,不同的云服务器上分别搭载不同的服务类型,其中就包括设备接入云、HUB调度云、数据处理云、应用服务云等。通过微服务框架,把不同的应用分服务进程部署,支持后续快速扩展业务。同时双服务器互为硬件热备。通过云虚拟软件实现一套云服务器环境之间硬件级切换,保障系统的稳定性和后续硬件扩展性。数据库管理采用开源的Redis,influxdb,支持时序数据库,支持高频率,大容量的数据存储和分析,同时使用成熟的中间件技术Kafka总线,使用队列消息确保数据不丢失。

2.4系统应用层

系统应用层主要实现实时监控、智能分析,通过不同的业务逻辑实现各种应用服务,其中包括但不限于大屏监控、多维告警分析、多维能耗分析、智慧报表、温度云场、多维容量分析、Ai视频分析、PUE分析、智慧动环运维、运营管理、智慧资产管理、机房安全巡检管理等应用。

2.5系统交互层

系统具备多种交互展示方式,包括:大屏展示、WEB浏览器、APP、3D大屏展示等。

3  功能实现

3.1数据总览

基础设施智慧运营平台,通过C接口获取动环报警和实时数据,对报警和设备运行数据,按数据中心实际布局和新的架构,进行可视化呈现和管理。如图3.1是平台首页,展示了整个数据中心的总览,将最关注的告警内容呈现在首页。

图3.1  平台首页

3.2配电链路

系统通过对配电系统的数据采集和分析,按数据中心的实际配电链路,进行配电链路的全链路监控和管理。对于配电链路上缺失的监控内容,通过增加动环采集器进行采集和补充,所有的配电设备在一张链路图上完成监控,并支持缩放方式进行监控。如图3.2所示。

图3.2  配电链路

3.3制冷链路

系统支持对BA系统的数据进行获取,将获取的冷冻水系统的冷机、冷冻泵、冷却泵、冷却塔、蓄冷罐、板换、阀门、管路数据及精密空调信息,按实际的制冷链路进行全局的监控和管理。用户通过一张图即可了解和掌握整个制冷系统的设备运行状态,如图3.3所示。

图3.3  制冷链路

由图3.3(a)我们可以看出Ag2CO3样品在可见光照射下完全光催化降解 RhB需要45.5分钟,由图3.3(b)我们可以看出AgBr样品在可见光照射下50.5分钟依然无法完全光催化降解RhB,而由图3.3(c)我们可以看出Ag2CO3/AgBr复合材料在可见光照射下完全光催化降解 RhB只需要15.5分钟,3.3(d)我们可以看出Ag2CO3/AgBr/GO复合材料在可见光照射下完全光催化降解 RhB只需要12分钟。

3.4智慧资产管理

对于数据中心的配电柜、空调、UPS、列头柜等设备,因分期建设,各设备的操作使用手册、供应商、厂家巡检等内容,没有一套系统进行记录和管理,设备设备质保到期前没有系统提醒,管理方法和手段比较薄弱。通过智慧资产管理模块,实现对各基础设施资产、机柜内IT资产进行统一的管理,大大降低了数据中心管理人员的压力,提高了运维效率。

3.5多维容量管理

1)系统容量可视化支持建立数据中心各物理层级空间、市电、UPS、列头柜、空调等资源容量模型,以便精细分析、处理与显示各层级容量;

2)支持多层级物理结构,如:园区、站点、楼层、机房、模块、列、机柜等,选中过后可自动统计目标区域的容量使用情况;

3)支持实时展示楼宇、楼层、机房、模块、列、机柜等不同物理层级已使用的空间、供电、制冷容量等容量模型比例;

4)支持根据数据中心管理者选定的范围、专业、时间段等内容给出统计信息;

5)支持供配电系统,如:PDU、UPS、配电开关等各设备节点的容量使用情况;

6)支持电力、制冷系统容量匹配计算,如:机房设备实际功率(发热量)与空调的容量匹配情况;

7)支持树形和汇总展示,树形展示是按照楼宇、楼层、机房、模块、列、机柜分层逻辑展示各级对象的各容量属性,汇总展示提供各专业容量使用状态的汇总和展示;

8)支持将监控系统采集到的空间、功率、冷量等填充到建好的容量模型中,并与人工设定的额定值进行计算,将结果记录并显示到界面中;

9)用图形化的方式,展示各机房容量的利用率(空间、网络、电力、制冷)以及各个房间的容量告警信息等。提供可视化的容量展示功能,支持3D或2.5D视图功能,支持实景与容量展示一键切换;

10)系统可以根据机房、机房容量(电力、制冷)等信息生成容量报表。报表具备柱形图、曲线图等图形化表现方式。

3.6能耗PUE管理

能耗管理系统具备按照分区域、分类型,对数据中心内各种关键能效指标计算和展现,对各类型的能效指标和数据进行汇总、展示,呈现耗电量分布以及能效使用趋势。

1)系统支持设置各类能效指标的计算公式,实现数据中心指标信息呈现及对标,关键指标包括:PUE、PLF、CLF等;

2)支持自定义能耗分析设计依据和计算公式,支持灵活配置能效策略和评价标准,支持针对不同能耗空间配置相应能效指标、用电基线指标、行业标杆指标,用户应可自定义能效指标,通过勾选属性的方式建立能效公式,自由配置新的能效指标;

3)支持类型维度、区域维度等多种维度的能耗指标数据查询功能;

4)能效管理系统的展示界面,具备以图形化方式(如表盘图、柱形图、曲线图等)清晰地展示当前数据中心整体能耗状况等各种关键能效指标,可查询任意时段的能效历史曲线;

5)支持对基础设施各项能耗指标历史数据的追溯,支持以可视化图表形式查看指标变化;

6)支持指标计算向下钻取能力,可基于空间节点和设备节点查看详细指标数据,直至能效采集测点,以便于管理人员了解能效指标构建和计算过程,为能效调优提供支撑;

7)支持对标分析,以便管理人员能快速对标各区域的能效表现情况,支撑决策制定。系统支持基于不同空间节点、行业标杆的对标分析,对比指标包括PUE、DCIE、PLF、CLF、CUE、总用电量、IT用电量、暖通用电量、供配电用电量、总碳排放量。支持以上指标同环比分析,并可导出分析结果。

3.7消防设备管理

对于数据中心消防的管理,必须警钟长鸣,通过技防、人防等各种手段,确保消防系统始终处于可用状态。通过消防管理模块,对消防器材建立电子档案,完成设备信息录入及资源查看。采用二维码标签管理方式,每一个设备赋予唯一的二维码标签。通过手持终端扫描二维码。实现消防器材的查看、巡检拍照及管理。同时消防器材智能化管理系统支持器材巡检周期管理、质保期管理、更换周期预警等功能。

系统支持消防器材合同信息的录入,可根据不同时期的合同进行编辑,录入消防器材的维保巡检、日常维护周期、及维保情况。同时也录入消防器材的名称、用途、厂家、使用方法等信息。并且绑定唯一二维码标签,同时查看信息的时候支持跳转合同附件。

系统以火灾自动报警系统、极早期火灾探测报警系统、设备码化系统为基础,接入动环系统的烟感等传感器,实现对机房火灾隐患点的全覆盖集中监控。以集中监控为中心,建立维保管理、巡检管理、设备管理等功能。

电子化方式构建的设备台账,便于维护人员对局房整体消防设施的可靠性管理,及时发现和排查设备隐患。同时电子集中监控方式,可减少频繁的设备排查(使用年限、到期时间等),减少人力输出,节约人工成本。

3.8机房巡检管理

1)支持与现有的动环境系统的对接和巡检数据获取,并与网管值班中心进行数据交互;

2)支持巡检项管理,包含:测点名称、巡检项类型、巡检项类型关联属性、描述等信息;

3)支持不同数据中心根据各自情况配置不同的巡检模板,巡检模板可将多个巡检项组合成一个整体,变成一个巡检模板,不同模板可套用在不同的巡检对象和计划里;

4)巡检计划可以通过选择巡检计划模板,快速生成巡检计划,也可手工填写,巡检计划中可以主动指定值班人员或者指定角色;

5)支持不同数据中心根据各自情况配置不同的巡检任务。巡检任务状态包含:未开始、执行中、漏检、超时未完成、超时完成、完成、手动强制关闭-完成;

6)支持限定巡检执行时间段,非指定时间段内无法执行巡检操作;支持对未完成巡检的任务发起申诉请求,团队主管审核确认真实情况,部门经理审批,审批通过的,本次未完成的巡检不属于漏巡检;

7)系统支持巡检超时提醒,巡检若超时,需要申诉到主管审核,未到下一巡检时间,可以补巡检;如果到了下一巡检时间,主管可直接关闭;

8)巡检时,系统数据支持自动推送;无网络时,需提前推送数据到巡检设备上;巡检人员可针对推送的数据进行确认操作,以作为巡检抄表记录;

9)巡检完成后生成巡检报表,报表可按照数据要求格式定制化。巡检报告按照专用巡检表单定制,自助配置的电子化巡检报告自动生成。按巡检需求自助配置巡检报告输入项和输出项目,电子化巡检报告可预览等,巡检报告允许指定权限人员可以进行修改。巡检报告可配置审批流程,在发送前进行审批。系统可对巡检异常工单进行统计,及异常工单故障进行派单,对故障处理情况进行闭环管理。

3.9智能化报表

系统提供统一的报表展示门户,用户可通过B/S访问方式,按不同维度(包括但不限于报表范围、业务类型、报表周期、创建时间等)进行报表的浏览、查询、查看、导出等操作。

系统具备组态化报表自定义设计工具,生产满足运维人员要求的报表。

1)提供报表查询功能:支持对信息的单项内容条目设置查询条件,也可对主要的条目进行组合过滤查询,提供多种复合条件组合的明细数据查询功能,能够按照某字段排序、分页显示、进行灵活设置;

2)用户可通过指标和维度的任意组合,根据定制要求,按照一定的运算函数生成相应的结果;

3)提供报表定时主动推送:支持创建定时报表任务,指定报表定时生成的时间和发送策略,系统将按指定的时间自动生成月报、年报,汇总相关监控管理信息,并发送到指定的邮箱。用户无需进入监控平台进行操作,通过邮件即可了解系统的运行状况、设备的运行数据,实现远程管理;

4)系统对不同用户报表的使用权限进行设置,不同职位、角色提供不同时间、不同内容和不同类别报表;

5)数据报表提供形式包括用户指定格式文档、数据报表及图形报表。数据报表主要包括由直接采样数据生成的报表;图形报表主要包括柱状图、趋势图、饼状图等多种形式的报表。所有报表均可导出Word、Excel或PDF等格式文件;

6)支持能耗、容量系统报表:机房运行情况(用电、PUE)(动态数据、静态数据)、数据中心容量状态(已租机柜数、空置机柜数),空置机柜空间分布、已租机柜空间分布;支持资产统计报表:支持对机房设备上下架数据统计、支持对备品备件、仓库物料等信息进行统计;支持告警报表:按照时间范围,系统需支持告警数据报表分析展示功能,包括:告警总数、已处理的告警总数、未响应的告警总数、未关闭的告警总数、告警处理事件数量变化趋势分析、告警级别分析、告警状态分析、告警自动处理分析等;

7)系统支持用户自定义报表模板,用户可以根据自身需要不定期调整各类报表模板版式,并根据新的报表模板产生报表;

8)提供报表分析统计功能,支持数据累加、最大值、最小值、平均值等各种算法统计;

9)提供报表比对功能:可以展示同比、环比的数据。

3.10三维可视化

1)支持对数据中心的园区、楼栋、楼层、机房、机柜、场地设施、空调、冷水机组、机柜设备(颗粒度至机柜,机柜内部盘架服务器等设备不在建模范围内)等进行3D建模,建模内容可在系统内直接浏览,支持360度拖拽旋转展示;

2)支持对数据中心的暖通管路、电力管路、IT配线等管线进行三维呈现;

3)支持对设备、场地设施的查看,可以在3D模型中查看温度云图、设施监控;

4)支持3D的展示方式,对园区、楼宇、楼层、机房、基础设施、IT设备、端口等层级进行仿真建模。呈现数据中心园区、建筑、机房及设备的外貌并展示基本信息,建筑、楼层、机房的实际结构、布局和设备摆放情况与现实相符;

5)对机房的设备及运行环境包括但不限于:温湿度、漏水感应绳、烟感、配电柜、UPS、精密空调、机柜等进行监控信息的直观展示,支持以数据形式和可视化形式呈现机房监控数据;

6)支持在3D空间中展示摄像头布局,点击摄像头弹出对应的监控画面。支持在3D空间中展示门布局及实时开关门状态,点击可查看人员进出记录;

7)对数据中心的制冷、用电、机柜空间等进行可视化管理展示。对机柜空间容量进行统计,模拟机柜上下架后,机柜的容量使用情况;

8)对数据中心基础设施资产、IT设备资产管理,可直接在3D环境中点击设备模型查看该设备的配置信息,并支持通过关键字进行资产信息的模糊查询;

9)实现对IT设备的链路查看,包括设备到设备、设备到端口以及端口到端口的物理连接关系。通过搜索链路的编号,即可查看整条链路的物理链接和走向。根据品牌、型号、设备名称等进行组合过滤高亮展示。

4  结束语

综上所述,基于对数据中心基础设施智慧运营平台的深入研究和实验验证,取得了一系列重要的成果和创新点。通过将物联网、大数据分析等先进技术应用于数据中心管理,成功地实现了数据中心的智能化运营,提高了效率、可靠性和安全性。

在研究过程中,我们系统地分析了数据中心运营的关键问题,并设计了相应的解决方案。实验结果表明,我们的平台能够自动监测和管理数据中心的基础设施,及时识别和处理各类问题,有效提高了数据中心的运行效率和稳定性。同时,平台还支持用户根据业务需求进行灵活配置和调整,提高了资源的利用率和效率,平台方案可在中国联通内部和运营商领域推广。

参考文献

[1]于刘.大型数据中心基础设施智能化及自动化研究[J].数字通信世界,2020(9):81-82.

[2]李可,王甲甲.电力企业数据中心基础设施运行管理平台设计[J].数字技术与应用,2021,39(10):196-198.

作者简介

[1]刘圣庆:(1971年12月),男,江西广丰,高级工程师,本科,中国联合网络通信有限公司广东省分公司通信基础设施管理负责人,主要研究方向为数据中心电气运维工作、供电可靠性和局房节能运行。

[2] 徐珠(1985年6月),男,广东梅州,中级工程师,中山大学,本科,中国联合网络通信有限公司广东省分公司网络BG基础设施运营中心,主要研究方向为数据中心智慧运营。

[3] 唐志斌(1974年3月),男,广东东莞,中级工程师,南京邮电大学,本科,中国联通东莞市分公司技术设施运营中心高级总监,主要研究方向为通信电源及其监控、核心网及数通。

[4] 方卫东(1985年9月),男,广东东莞,中级工程师,重庆邮电大学,硕士,中国联通东莞市分公司基础设施运营中心IDC运营室,主要研究方向为通信电源及其监控。

[5] 陈佳(1987年10月),男,广东东莞,武汉理工大学,硕士,中国联通东莞市分公司基础设施运营中心IDC建维室,主要研究方向为通信电源及其监控。

[6] 陈润(1997年11月),男,广东东莞,初级工程师,武汉理工大学,本科,现工作于中国联通东莞市分公司网络BG基础设施运营中心,主要研究方向为通信电源及其监控。

1