智算中心项目建设管控策略研究

(整期优先)网络出版时间:2023-11-09
/ 4

智算中心项目建设管控策略研究

李飞 

广州市汇源通信建设监理有限公司

摘要:本文结合工程案例,对智算中心项目建设规模和建设原则进行分析,并对其建设管控策略进行探讨,以供类似工程参考。

关键词:智算中心;项目建设;管控策略

一、项目背景

    近两年来,继上海、深圳等地人工智能计算中心的落成,不少其他地方政府

也在积极推进城市级人工智能计算中心的建设。建设大型人工智能计算中心,有

着多方面的意义,一是为了推进算力资源的普适普惠,向千行百业赋能;二是通

过算力中心的建设,实现产、学、研、用多位一体,打造AI产业集群,拉动城

市科技产业及经济的双向发展。

    粤港澳大湾区智能算力中心项目以区域内芯片设计云、解密云、智慧国资国

企等业务需求为牵引,强化顶层设计,以智能算力基础设施中心为核心,建设

EDA算力集群、密码专用算力集群、AI算力集群和通用算力集群,助力粤港澳大

湾区芯片设计与制造、信息安全、智能算力服务等新技术产业高速发展。因此,启动本次粤港澳大湾区智能算力中心项目。

二、智算中心项目建设规模

   粤港澳大湾区智能算力中心项目选址为现有建筑物内,位于广州市黄埔区开

创大道与瑞祥路交汇处的京广协同创新中心二层。中心二层建筑占地面积为

3388.25平方米,建筑层高为6米,建筑高度为82.5米,建筑使用年限为50年,

结构类型为框支剪力墙结构,火灾危险性分类为一类高层建筑,一级耐火等级。

本期建设机柜数量为205个,其中EDA集群70个,密码集群52个,AI集群24

个,通用集群59个。

本期工程对粤港澳大湾区智能算力中心进行一期建设,一期将通过建设EDA

算力集群、密码算力集群、AI算力集群和通用算力集群,以满足黄埔区2022年

规划内政企客户的算力资源需求,具体建设内如如下:

(1)EDA算力集群

本期工程EDA算力集群服务器部分,新建480台华三R4900G5计算密集型服务器1, 20台华三R4900G5计算密集型服务器2, 50台华三R4900G5内存密集型服务器、13台华三R4900G5集群管理服务器、107台华三HX-S1221 EDA高速文件存储服务器、39台华三HX-S1221 EDA低速文件存储服务器、15台华三HX-S1221EDA元数据服务器、3台华三R4900G5 SDN控制服务器、3台华三R4900G5 SDN分析服务器。

    本期工程EDA算力集群网络部分,新建32台华为CE6857F-48S6CQ计算接入

交换机、10台华为CE6857F-48S6CQ存储接入交换机、42台华为S5731-S48T4X

带内接入交换机、21台华为S5731-S48T4X带外接入交换机、2台华为

CE8850-64CQ-EI业务汇聚交换机、2台华为CE6857F-48S6CQ带内汇聚交换机、2

台华为CE6865E-48S8CQ业务边界交换机、2台华三SecPath F5000-AI-15防火

墙。

    建成后,可提供24000核计算密集型算力能力、2400核内存密集型核算力

能力,高速存储4.8P和低速存储7.3P。

(2)密码算力集群

    本期工程密码算力集群服务器部分,新建170台科学城大有密码服务器(普

通版)、130台科学城大有密码服务器(高配版)、12台华三85300 G5 GPU服

务器、4台华三84900 G5大容量存储服务器、4台华三84900 G5业务(应用)

服务器。

    本期工程密码算力集群网络部分,新建16台华为S5731-S48T4X业务接入

交换机、2台华为CE6857F-48S6CQ存储接入交换机、2台华为CE8850-64CQ-EI业务汇聚交换机、16台华为S5731-S48T4X带内接入交换机、2台华为

CE6857F-48S6CQ带内汇聚交换机、8台华为S5731-S48T4X带外接入交换机、2

台华三SecPath F5000-AI-15防火墙。

建成后,可提供6016核密码算力能力。

(3)AI算力集群

    本期工程AI算力集群服务器部分,新建20台华为S900K2 AI训练服务器、

12台华为S800K2AI推理服务器、3台华为S627K2管理服务器。

    本期工程AI算力集群网络部分,新建5台华为FM 8850-64CQ-E工AI训练参数接入交换机、2台华为FM 9860-4C-E工AI训练参数汇聚交换机、4台华为FM6865-48S8CQ-SI样本&业务接入交换机、2台华为FM 8850-64CQ-EI AI汇聚交

换机、1台华为S5731-S48T4X带外接入交换机、2台华三SecPath F5000-AI-15

防火墙。

建成后,可提供40PFLOPS AI训练算力能力、12POPS AI推理算力能力。

(4)通用算力集群

    本期工程通用算力集群服务器部分,新建180台华三T3-CS50X-25G通用x86

云计算服务器、23台华三T3-C工50X-25G通用x86云计算服务器一公共、10台华三R4900G5通用x86裸金属服务器一高配、10台华三R4900G5通用x86裸金属服务器一低配、3台华三T3-SW50X-25G管理集群一存储服务器、4台华三

T3-CS50X-25G网络服务器、3台华三T3-C工50X-25G云防火墙服务器、3台华三T3-CI50X-25G数据库服务器、12台华三T3-CI50X-25G管理集群一服务器、30台华三HX-S1221通用国产高速文件存储服务器、42台华三HX-S1221通用国产高速块存储服务器、24台华三HX-S1221通用国产低速文件存储服务器、79台华三HX-S1221通用国产低速对象存储服务器,3台华三HX-S1221通用国产对象存储接入网关服务器、3台华三HX-S1221通用国产对象存储逻辑网关服务器、9台华三HX-S1221通用国产对象存储索引网关服务器、24台华三84900 G5通用x86高速块存储服务器、30台华三84900 G5通用x86低速块存储服务器、6台华三84900 G5通用x86低速对象存储服务器、12台华三T3-CS50X-25G通用x86文件存储元数据服务器、2台华三东方德康备份一体机。

    本期工程通用算力集群网络部分,新建24台华为CE6881-48S6CQ数据接入

交换机、2台华为CE16804数据汇聚交换机、10台华为S5731-S48T4X带外接入

交换机、2台华三SecPath F5000-AI-15防火墙、6台华为CE6881-48S6CQ存储

接入交换机一高速、10台华为CE6881-48S6CQ存储接入交换机一低速、8台华为

S5731-S48T4X带外接入交换机。

    建成后,可提供9600核通用算力能力和28. 51PB存储能力。

(5)安全、运维及通用网络部分

    本期工程新建2台华为NetEngine 8000E M8出口路由器、2台华三SecPath

M9000-AI-E4出口防火墙、2台华三“H3C OEM服务器(抗DOS硬件设备)”抗

DDos, 2台华三SecPath T5080 IPS, 2台华为CE16808核心交换机、2台华为

S5731-S48S4X专线接入交换机、2台华三SecPath W2020-G2 WAF,1台华三SecPathACG1000-AE上网行为管理、4台华三“OEM服务器(x86通用服务器1)”安全管理服务器一通用、1台华三OEM服务器(x86通用服务器1)漏扫、1台华三OEM服务器(x86通用服务器1)堡垒机、1台华三OEM服务器(x86通用服务器1)

日志审计、1台华三OEM服务器(x86通用服务器1)数据库审计、1台华三OEM

服务器(x86通用服务器1)高级威胁检测、2台华为S5731-S48T4X密码资源池

接入交换机、2台华三SRJ1937签名验签设备、2台华三XC-HSM1000密码机、2

台华三H3C SecPath F5030 SSLVPN, 2台华为CE6857F-48S6CQ带外核心交换机、

12台华三84900 G5运维管理服务器、2台华为CE6857F-48S6CQ运维接入交换机、

2台华为CE6857F-48S6CQ运维汇聚交换机、1台华为S5731-S48T4X运维带外接

入交换机、8台华三R4900G5测试服务器、1台华为CE6857F-48S6CQ测试接入交

换机、2台华三SecPath F5000-AI防火墙。

    本期工程投资预算为49970.81万元人民币(含税)。

三、智算中心项目建设总体架构及建设原则

(1)智能算力中心总体架构

    粤港澳大湾区智能算力中心满足四类业务需求,EDA业务、密码业务、AI业务及通用业务。EDA业务主要指面向芯片研发企业的EDA芯片设计上云业务;密码业务主要指广东省密码应用和创新示范基地密码企业的解密云算力业务;通用业务和AI业务前期主要面向解决国资国企大数据中心建设、城市智慧场景应用挖掘等业务的云计算、智能算力需求,后期随着中心资源的扩容,可以面向市场拓展业务,满足黄埔区中小企业上云和AI算力租用等需求。

    粤港澳大湾区智能算力面向业务需求,按照“一中心四集群”设计思路进行

建设,一中心是智能算力基础设施中心,四集群包括EDA算力集群、密码专用算

力集群、AI算力集群和通用算力集群,整体业务架构如下:

图1、本期粤港澳大湾区智算中心项目总体架构图

(2)智能算力中心网络架构

    网络架构的总体规划遵循“分区+分层+分平面+安全”的设计理念。分区是

指按照业务特点和安全要求划分不同的业务区域,各区块间通过核心交换机连接

在一起,不同类型的流量,通过VRF进行隔离。分层是指采用核心层和接入层两

层扁平结构。分平面是指采用业务平面、管理平面、存储平面分离的设计方法,

各自通过独立交换机组网,保证平台可靠性。安全是指在不同业务区域之间、在数据中心出口等位置部署安全设备,实现业务安全访问和数据安全保障。

    根据算力中心承载的业务特点,按集群功能划分区域如下:

图2、本期粤港澳大湾区智算中心项目网络架构图

    算力中心网络系统设计基于网络安全等级保护(三级)的要求,采用分区分

域安全架构设计,整个数据中心总体划分为出口区、EDA集群区、密码集群区、

通用计算集群区、存储区、AI集群区、运维管理区,各区域通过核心交换机互

联,并且通过各自的防火墙实现业务隔离。

    核心设备之间部署BFD for OSPF,加速路由收敛检测。对于更高可靠性要求,可使用2台交换机,通过OSPF COST值调整不同业务的路径。核心设备独立部署,核心交换机通过1006链路与EDA集群区、密码集群区、AI集群区、通用计算集群区、存储区互联;通过40G链路与运维管理区互联;通过lOG链路与云密码资源池、出口区互联。

    整个网络采用智能无损网络设计,构建低时延、0丢包的数据中心网络。在

系统内部将网络划分管理、业务、存储三个平面,三个网络平面物理相互隔离,

互不影响。

(3)建设原则

    建设智算中心,必须明确需求,找准方向,把握重点,规范有序开展工作。

在项目建设过程中,要着重把握好以下原则:

    1)先进性和适用性相结合。集群应兼顾设备的适用性,不应过度追求平台

中用不到的设备功能。

    2)通用性和安全性相结合。在中心设计过程中,应留有相应的通信接口,

使中心的各个系统构成一个有机的整体。同时,应对中心的用户权限建立严格的

认证体系,并对每一个用户的权限进行分级控制。

    3)安全可靠性。各个集群应从系统结构、技术选型、设备配置等各方面综

合考虑,尽可能地采用成熟的技术、商品化的软硬件产品,保障智算中心各业务

系统稳定可靠地运行。

    4)实用性。现智算中心快速响应和弹性化服务的特点,又能便于管理人员进行业务处理和综合管理。

    5)可扩展性与可持续发展性。集群在系统结构、规模容量、网络通信和业

务处理能力等方面应具有良好的可扩展性和平滑升级的能力,满足智能算力中心

持续发展的要求。

    6)开放性与兼容性。集群应采用开放性的架构体系,能够兼容业界通用的

设备、主流的基础软硬件产品以及支撑多种主流的开源应用开发框架。云管平台

可兼容不同厂商不同技术路线,IaaS, PaaS, SaaS各板块的产品能够通过统一

标准的API接口由运维管理平台进行统一管理。

四、智算中心项目建设管控策略

(1)进度控制。在智算中心项目建设时,需要做好建设活动的管控工作,应该确定工程工作进度,还需要对智算中心项目建设工作进行全程控制,由此可以使建设工作在规定时间内交付。在工程项目进度控制期间,需要严格按照计划流程开展工作。因此,在项目建设前,需要设计人员结合多方面信息,编制满足工程建设需求的方案且保证方案内容基于现场实际状况进行设计,可以按照计划完成工作任务。在智算中心项目建设期间,需要由监督单位控制各类工作,清楚施工单位工作的开展情况,保证项目质量、进度达到客户对建设工作提出的标准。

(2)质量管理。在智算中心项目建设期间,需要做好智算中心项目建设质量控制,清楚建设要求,掌握影响工程建设质量的因素,选择科学的方式进行调控,不会对工程质量形成不良影响。在智算中心项目建设期间,落实质量管控工作,明确智算中心项目项目管理的关键要素,掌握智算中心项目在整顿控制方面的干预因素,调整施工方案,由此可以更好地推进工作,不会对智算中心项目项目施工形成不良影响。在工程建设期间,需要检查智算中心项目建设情况,做好智算中心项目建设质量控制,结合质量改进意见,全面分析组织工程建设主体施工细节,针对出现了质量问题给出解决建议。智算中心项目建设阶段,施工质量控制工作需要贯彻与项目的各个环节,一旦发现问题快速处理,不会因质量问题过多,出现积重难返的情况,利于施工单位对项目进行质量控制。

(3)安全管理。智算中心项目建设施工中,施工企业和维护部门必须严格执行中华人民共和国通信行业标准YD5201-2014《通信建设工程安全生产操作规范》,施工或维持单位必须严禁使用未取得有关部门颁发的《特种作业人员岗位操作证》的人员从事特种作业;禁止使用未经上岗培训的人员上岗作业。凡施工图中标注需要做安全防范措施的地点,必须认真做好安全防范措施,严禁野蛮作业,从而保障项目的安全进行。

(4)成本控制。在智算中心项目建设期间,需要明确建设工作资金投入需求,明确成本管控要点,在建设阶段进行全程把控,防止工程出现超支情况,对工程质量与进度形成不利影响。在智算中心项目建设期间明确成本管控要点,在智算中心项目建设前期编制采购计划并调整采购管控方案。一旦采购工作出现与规划不一致的情况,需要快速调整智算中心项目建设计划,从而可以对成本进行有效的控制,不会让工程建设成本出现超预算的情况。

五、结语

综上所述,智算中心项目建设是一个复杂的过程,施工单位需要与业主商议,在前期确定工程建设要求,随着项目地开展进行进度控制,从而可以严格按照前期商定的要求,对各类活动进行强有力的管控,使工程达到客户给出的标准,同时将成本控制在预算范围内。

参考文献:

[1]王铭祥.数据中心智算中心项目节能运行现状与问题分析[J].现代工业经济和信息化,2022,12(01):262-263+266.

[2]邵华厦,苏州,边争.不同气候区数据中心智算中心项目外围护结构的节能研究[J].暖通空调,2022,52(03):57-61.

[3]朱振华,姚忠杰.IDC数据中心智算中心项目项目建设探析[J].通信电源技术,2020,37(12):271-273.