网络智能化中的AI工程化技术方案

(整期优先)网络出版时间:2023-04-22
/ 2

网络智能化中的AI工程化技术方案

陈绪龙

山东赛威尔信息工程有限公司 山东 济南 250000

摘要:在利用人工智能技术的基础上,通信产业在外部加强网络赋能,在内部达到降低成本和提高效率的一项重大措施,就是要通过网络智能化来实现。从网络智能化中的模型训练,推理部署优化在内的面向生产环境的 AI 工程化技术方案,探讨网络智能化生态发展的策略。

关键词:网络智能化;人工智能;发展战略

0 引言

当前,随着人工智能技术的不断深入,从推荐、广告、搜索等应用领域,到分子动态仿真、蛋白结构预测等领域。在利用人工智能技术的基础上,通信产业需要在外部加强网络赋能,在内部通过 AI工程化技术方案来达到降低成本和提高效率的目的。标准化组织、设备商、运营商等产业各方都以自身为基础,对人工智能在通信网络中的应用进行了积极的探索,对网络智能化的落地进行了大量的有益的工作。

一、网络智能化中的模型训练

面向产品级的智能网络模型训练面临着海量的资源管理、异构的训练任务需求以及海量的训练任务的排序与调度等难题。在此基础上,通过融合人工智能计算架构和云原生技术,建立一个面向不同应用场景的人工智能训练平台,可有效解决上述问题。

(一)多训练任务调度

面向网络化智能人工智能训练平台,必须根据训练任务的特性,对其进行优化。k8s原生的调度器是为微服务架构而设计的,它适用于对小粒度、长时间运行的互联网业务的资源调度。但是,机器学习训练是一种批处理任务,其中有作业、任务队列、流水线等概念,k8s原生调度器不能满足这些要求。此外,为了避免出现死锁,同时满足多租户和二次调度等要求,面向机器学习的调度算法还必须具备分批调度、多队列调度、动态调度、任务间公平性等功能,而这些功能都是K8s自身所不具备的。 解决方法有两种:在k8s集群中,配置一组专用的批处理调度器,比如 volcano调度器,这个方案会导致一个集群中的两组调度器发生冲突,尽管在最近的版本中,它已经支持了多调度器的混合部署,但是在具体的部署过程中,还是推荐按照调度器的作用范围来将该集群进行分割;提出了一种基于k8s本地调度程序的架构,将k8s本地调度程序嵌入到k8s调度程序中,并通过对k8s本地调度程序的插件实现了批量调度算法的嵌入。

(二)并行弹性训练

最近几年,各种人工智能的模型规模都在不断地扩大,并且还产生了以预训练为主要目标的超大通用 AI模型,以 NLP领域中的第三代生成式预训练变换器模型为例,它最大可支持1750亿个参数,而单张 GPU卡的内存和算力已经远远不能满足这样的训练要求,因此,必须要使用多张 GPU卡或者多个 GPU服务器来进行并行训练。在互联网智能化的应用中,也面临着大规模的建模问题,例如基于 LSTM的无线网时间序列数据的预测,以及基于变换器的智能客服的语义理解与会话产生等。为了解决大规模模型的并行训练难题,本项目拟在已有的基于数据并行、模型并行/流水并行的人工智能训练平台的基础上,融合人工智能领域的相关理论,对混合并行、自动并行等多种并行训练方法进行改进与充实。其次,平台还必须对平行训练的节点的弹性伸缩能力进行优化,在许多平行训练的场景中都会有这样的要求,比如当 GPU资源池的资源是空闲的时候,可以增加用于训练的 GPU卡的数目,或者是当一些训练节点出现故障的时候,可以保证不被打断。 与常规的无状态微服务相比,平行训练是一类具有状态特性的复杂任务, GPU间的参数转移较多,因此,本项目拟将 Horovod等分布式训练框架应用到人工智能的训练中,通过对各训练任务的运算器进行灵活调节,实现对 GPU的有效利用。

二、网络智能化中的模型部署

(一)通信时延压缩

面向网管的智能网络应用通常不需要很高的时效性(以小时为单位/日为单位计算),这类应用通常会将推理模型部署到云端,以充分发挥云端的计算能力。针对毫秒级、微秒级的类网智能应用,例如空中端口的物理层智能算法、核心网的移动管理等,为了克服远程通讯的延迟,需在网元端提前部署相应的推演框架,并通过 AI训练平台将模型分发给相应的网元,再将其编译后装入计算芯片中,实现本地的预测。 需要指出的是,在某些网络智能场景中,数据的概率分布会随着时间或者地域的变化而变化,这会对推理模型的结果产生一定的影响,所以,需要定期地对模型进行训练和部署,或者按照地域来部署相应的模型。

(二) 模型加速

当将网络化智能推理模型部署到网元端时,面临着因网元计算资源受限而导致推理效率下降的问题。模型的计算延迟与模型的结构、模型的尺寸成正比,机器学习的模型通常对算力的需求不高,所以它的计算延迟很低,不需要特别的模型加速处理;针对深度模型的部署,拟采用 MoblieNet等面向资源约束的小模型、模型压缩、编译优化等3种方式,以降低模型的计算延迟。主要有3种类型。

1、模型剪枝

由于深度学习模型中具有近似0的权重,且不会对模型的结果产生显著的影响,所以可以通过对训练模型中某一层中权重小于给定阈值的参数进行剪切,降低各层之间的连接度,降低各层之间的网络规模,并将剪切后的模型再次进行训练。

2、参数量化

通过对模型的参数进行量化,可以有效地降低模型的精确度,减少了对存储空间的占用,提高了算法的单条指令中的数值个数,提高了算法的效率。

3、知识蒸馏

利用“温度”调节参数,对已有的大样本和小样本进行混合学习,使小样本在大样本的指导下,具有大样本的推广性能,进而实现小样本的推断。

三、网络智能化的生态构建

如果要让网络智能化,成为运营商网络发展的原始性推进器,除了数据、算力之外,还必须要有 AI算法支撑,这三样东西都是必不可少的。在这一轮人工智能热潮中, AI算法是最基本的推动力。当前,它的发展表现出了3个趋势: AI算法的研究主力军从以学术界为主,发展到了学术和工业界并重;人工智能的算法开始开放,大大提升了研发的效率。人工智能的算法和领域知识的融合程度越来越高,人工智能的应用也越来越广泛。 对于运营商来说,应该将自有 AI平台作为基础,为更多的用户和产业伙伴提供开放能力:将网络数据集进行开放,并向网络设备供应商、 AI硬件提供商、 AI软件开源组织、高校研究机构、 AI技术服务商等合作伙伴及个人开发者提供真实网络测试环境。提供一个低代码和图示的开发环境, 促进公司内的有关人员提高他们在数据分析和人工智能算法方面的运用,并通过内部的研究和开发的方法来解决网络智能问题; 在此基础上,以模型市场和特性仓库为基础,联合行业各方,探讨“需求发掘/发布-内外协同开发/测试-上线测试/运行-结果共享”的中高价值互联网智能应用业务模式。利用各种方式,吸引 AI产业界的技术力量进入网络智能化领域,提高 CT产业的 AI应用水平,将 AI功能整合到更多的网络设备、管理系统和业务系统中,从而达到网络的泛在智能。

四、结束语

本课题拟构建一套面向智能网络的人工智能工程技术方案,但当前人工智能技术无论从算法还是应用架构上都有很大的发展空间,不同类型的人工智能技术在不同层次上都有很大的差异,有待于进一步深入地分析、对比。 在技术、标准、产业、应用以及生态等各方面,网络智能化还处在起步阶段,还有很多问题等着被解决,还有很多的需求等着被解决,这就要求 CT行业与 AI行业之间进行更密切的协作,以提高网络的智能化程度,为国家建设一个更具智慧和开放性的信息基础设施。

参考文献:

[1]欧阳晔,王立磊,杨爱东,等.通信人工智能的下一个十年[J].电信科学, 2021, 37(3): 1-36.

[2]华为技术有限公司.华为自动驾驶网络解决方案白皮书[R].2020.

[3]中兴通讯股份有限公司.中兴自主进化网络白皮书[R].2020.