我国智算中心发展现状及建议

(整期优先)网络出版时间:2024-08-27
/ 3

我国智算中心发展现状及建议

王磊    孙朝奎   陈光   郭永进

机械工业第六设计研究院有限公司 河南省郑州市 450000

摘要:数据处理能力和推理服务是智算中心的两大核心功能。数据处理关乎模型训练的质量和速度,推理服务则直接影响了业务逻辑的实时响应和执行效率。近年来,智能计算已经成为推动社会发展进步的重要力量。从计算机视觉到自然语言处理、多模态等基础大模型研究,再到面向自动驾驶、生命科学等重点行业的专用大模型研发,各行各业都展示出了对智能算力的巨大需求。作为算力基础设施,智算中心能够为各行各业的用户提供强大的计算资源,在生物信息学、气候研究、金融分析、材料科学和人工智能等领域都发挥着至关重要的作用。

关键词:智算中心;绿色发展

  1. 国内智算中心发展现状

1.1智算中心的含义

智算中心即人工智能计算中心,是一个以数据为核心资源的创新平台。依托强大的计算力,智算中心能够推动A I模型对数据进行深度挖掘和加工,持续输出各类智慧计算解决方案。这些解决方案以云服务的形式,通过网络广泛地被提供给各类组织及个人,以满足他们多样化的计算需求。

智算中心的主要功能包括四个方面:一是数据存储与管理。智算中心能够高效地存储和管理海量数据,为数据分析和挖掘提供坚实的基础。二是数据处理与分析。利用强大的计算力,智算中心能够对数据进行快速处理和分析,提取有价值的信息。三是A I模型训练与部署。智算中心能够通过深度学习技术对数据进行深度加工,不但能支持A I模型的训练和部署,还能够提高模型的准确率。四是提供智慧计算服务。通过网络,智算中心以云服务的形式向组织及个人提供多样化的智慧计算服务,满足组织和个人在数据分析、决策支持等方面的需求。

  1. 国内智算中心建设情况

在国家及地方政府的推动下,国内目前已经有百余个城市投入建设了智算中心。据统计,超级智算中心主要集中于京津冀、长三角和珠三角区域,算力规模大于1000PFLOPS。

区域性布局侧重于构建300P F L O P S至1000PFLOPS规模的大型算力节点,这些节点能够满足人工智能大模型对海量数据和复杂计算的需求,确保其能够提供高效、稳定的运算服务。

与此同时,各个城市与地区也在积极打造规模在40PFLOPS至200PFLOPS之间的小型算力设施。这些小型算力设施是大型算力枢纽的补我国智算中心发展现状及建议充,共同构成了多层级、多元化的算力架构。

  1. 智算中心绿色发展面临的挑战

3.1新建智算中心创新技术应用难

多数企业对采用先进冷却技术表现出较低的积极性,未能充分了解先进技术带来的长远利益,通常仅将满足PUE值的基本标准作为目标,较少企业采用能带来显著能效提升和环境效益的先进技术。智算中心在硬件、软件和运维层面存在一定的专有性,限制了不同系统和组件之间的互操性,这种封闭缺陷导致新技术的集成和应用变得困难。此外,智算中心IT设施和算力应用服务的紧密耦合,难以适应快速变化的技术需求和市场,需要更多的时间、资源来重新配置和升级。

3.2存量智算中心改造成本高

由于发展阶段不同,一部分智算中心建成时间较早,随着节能降耗技术的发展越来越快,许多建成时具备良好节能配置的智算中心逐渐落伍,其改造成本不断升高,资金投入压力越来越大。同时,由于建设时未能充分考虑后续关于可再生能源发展的需求,部分算力中心不具备使用光伏等可再生能源的条件。

  1. 国内智算中心市场分析

4.1AIGC激发全球市场活力,国内掀起智算中心浪潮

ChatGPT4.0、Sora等产品的推出再次引爆了全球人工智能市场,国内的科大讯飞、百度、阿里等大型企业纷纷推出了自己的A I大模型,在以A I G C为代表的人工智能应用、大模型训练业务的推动下,国内掀起了智算中心建设热潮。据不完全统计,截至目前,全国在建、拟建及投入运营的智算中心超过100个,投资规模达百亿元以上。在2024年的前四个月,全国范围内预计约有40个智算中心项目完成规划、开工建设、落成或正式启用,包括中国电信天翼云上海临港国产万卡算力池、中国移动呼和浩特智算中心、中国联通长三角(芜湖)智算中心等。

4.2智算中心建设遍地开花,但落地仍存在诸多问题

尽管智算中心建设如火如荼,但在实际落地环节仍存在诸多问题,即便是“东数西算”枢纽节点的智算中心,其上架率也处于低位。部分原因是一个城市同时投建多个智算中心,或者在未摸清市场需求的情况下盲投,算力资源规划不清晰,造成了资源浪费。此外,智算中心的商业模式也较为单一,大多数停留在算力租赁的层面,这与人工智能产业的算力服务需求有着较大差异。

4.3本土GPU奋力追赶

由于英伟达C U D A生态较为完备,目前,国内算力芯片仍以英伟达为主。据统计,英伟达在国内云端A I训练芯片市场的份额达到90%,加速卡出货量方面占据超过80%的市场份额。随着本土算力芯片需求的增长,华为、天数智芯、燧原等芯片厂商陆续推出自主创新产品。

4.4智算中心运营服务模式有待提升

智算中心的运营是个新兴领域,其商业模式和技术应用都在不断发展和演变,目前,大部分智算中心只是通过租售硬件算力设施来盈利,极易受到硬件价格、用户变动等因素影响,抵抗市场波动的能力较弱。未来,智算中心的需求将主要来自服务市场,这就要求服务商在数据处理、推理服务等方面持续投入,提升技术服务水平。

  1. 智算中心绿色发展主要技术

5.1液冷技术

液冷技术是目前智算中心节能技术中的一项重要创新,其以卓越的散热效率,成为解决高密度计算设备散热问题的关键。与传统的风冷技术相比,液冷技术能够高效地将热量从服务器中导出,降低算力中心的总体能耗。液冷技术的高效散热能力可显著降低智算中心能耗,据研究,液冷技术可以减少算力中心高达40%的能耗,减少对空调系统的依赖,有效降低PUE值。此外,液冷技术的应用提高了设备的布置密度,使算力中心在有限的空间内实现更高的计算能力成为可能。强适应性的液冷技术能够在多种运维环境下保证设备的正常运行,智算中心液冷系统比风冷对环境的依赖性较小,避免了智算中心因环境因素导致的设备故障和维护成本的增加。当AI服务器的运行功耗超过传统风冷散热的阈值,液冷技术将成为实际应用中的最佳选项。

5.2新型储能技术

新型储能技术是智算中心电力系统发展的未来趋势,具有快速响应、灵活配置、高效率等优点,能够有效解决可再生能源的波动性和间歇性问题。与传统储能解决方案相比,新型储能技术展现出更强的环境适应性和灵活性,可承受更为多变的运行条件,对智算中心软硬件集成运维有着更高的容错性。新型储能技术以输出电力为主要形式,构建以新能源为主体的新型电力系统,通过数字化、智能化技术,实现分布式能源、储能、负荷的深度融合,使得智算中心负荷、可再生能源电源、储能成为有机整体,推动智算中心绿色低碳发展。

5.3自然冷源利用

自然冷源的利用对于推动智算中心的绿色低碳和可持续发展具有至关重要的作用。自然冷源(如海水、地下水、冷空气等)为智算中心运营提供了一种经济且环保的解决方案,显著降低算力中心的能耗和碳排放,提高能源利用效率,减少对传统能源的依赖,降低运营成本。自然冷源的高效散热性能有助于提升算力中心的整体能效,部分智算中心利用自然冷源实现了PUE值的显著降低,常年实际运营PUE值小于1.1,在节能减排方面具有显著优势。此外,自然冷源的利用还能根据地区气候和地理特点进行优化,充分利用地理优势(如海洋、山洞等)为算力中心提供稳定的冷源。

5.3绿色电力应用

绿色电力是支撑智算中心发展的关键因素,在生产电力的过程中二氧化碳排放量为零或趋近于零,相较于其他方式(如火力发电)对于环境冲击影响较少,主要来源为太阳能、风力、生物质能、地热等。我国已建成全球规模最大的电力供应系统和清洁发电体系,正加快推进新能源发电从增量替代向存量替代转变,为智算中心应用绿电提供了坚实保障。为更好地推进绿电和智能算力融合发展,应对智算中心发展规模、类型、用电需求进行动态研判,开展智算中心“源网荷储一体化”绿色供电模式创新,鼓励智算中心参与新能源市场化交易,开展绿色算力采购。绿电资源可有效缓解算力行业的碳排放增长压力,加快智算中心绿色发展,提升智算行业国际竞争力,助力我国“双碳”目标实现。

5.4智能化管理平台

智能化管理平台是实现智算中心高效、稳定运行的核心。智能化管理平台通过集成先进的监控系统、自动化工具和人工智能算法,实时监控智算中心的运行状态,优化资源分配,自动化运维流程,显著提升运营效率。智能化管理可提高能源使用效率,推动制冷耗电量下降,保障智算中心的安全稳定与低碳运行。管理平台的智能化特性能够有效降低能耗,通过精确控制温控和供电系统,减少能源浪费,保障智算中心的稳定性和可靠性;通过对大量运行数据的分析,为管理人员提供决策支持,帮助制定更加科学合理的运营策略。

6.超智融合算力中心成为新的市场需求

机器学习、深度学习等A I技术具有解决高维数学问题的强大能力,催生了A I f o rScience这种新的科学范式。目前,AI技术在蛋白质结构预测、新材料设计、天气预报、大规模分子模拟等方面取得了突破性进展,正在改变这些领域依赖数值模拟的传统局面,推动了超级计算与A I的融合发展。一方面,超算的并行计算能力是AI for Science的基础。AI算法通常涉及大量的并行计算,而超算的多处理器架构和并行计算能力能够充分满足这一需求。另一方面,AI for Science产生的新方法和新软件将极大地丰富传统超算的软件资源,提高其解决复杂挑战性问题的能力。

6.1技术服务水平将成为行业壁垒之一

未来,算力市场将主要聚焦对技术服务的需求,如数据及应用服务(训练服务,推理服务,数据的采集、清洗、标注、转换、存储等数据处理服务)、调度服务(即为大模型等智算服务的运行提供弹性的计算、存储、网络等资源)及编排、保障、监控服务。其中,数据处理能力和推理服务是智算中心的两大核心功能。数据处理关乎模型训练的质量和速度,推理服务则直接影响到业务逻辑的实时响应和执行效率。但对于当前的算力中心服务商来说,无论是数据的清洗、标注、转换,还是弹性扩展、多租户资源隔离、调度等,都是新领域,需要更多的团队、技术及资金投入。

6.2发展建议

一是加大创新投入力度,攻克关键核心技术。我们应加强对智算中心关键核心技术的研发投入,不断提高企业自主创新水平,确保关键技术的自主可控。二是以市场应用推动算力产业的升级与发展。我们应不断完善人工智能与产业的合作体系,深化产业协同开放合作,持续推动人工智能技术与生物识别、智能制造、自动驾驶、科学智能等重点领域的融合应用,以算力助力行业发展,以实际应用促进算力产业升级。三是加强智算中心安全防护能力建设。在智算中心建设过程中,我们应适当增加安全方面的投入,构建可信的运行环境,加强数据安全管理和隐私保护。同时,提升智算中心的网络安全运维能力,为数据安全保驾护航。

参考文献

[1] 中美两国人工智能头部企业研发和创新的比较分析与启示. 杨锡怡;贾佳;周小宇;汪寿阳.中国科学院院刊,2024(06)

[2] 中美人工智能新药研发产业链现状对比及发展启示. 高云龙;李凯;李天舒.中国信息化,2024(06)