基于可控聚类边缘计算算法的实时大数据流研究与分析

(整期优先)网络出版时间:2023-05-25
/ 3

基于可控聚类边缘计算算法的实时大数据流研究与分析

金涛1,王路飞2,王承志3

杭州龙境科技有限公司,浙江省杭州市310000

摘要:针对传统聚类算法在处理大数据流时出现的效率低、性能差、响应慢、稳定性不足等问题,提出了一种实时流可控的聚类边缘计算算法(SCCEC)。首先,通过粗糙聚类方法对实时大数据元组进行预处理,确定聚类数量和中心点位置,并形成具有差异的宏聚类集合。其次,对获得的宏聚类集合进行采样处理,并以最大和最小距离进行K均值并行聚类,实现数据的精细聚类。最后,将完全聚类算法和边缘计算算法相结合,并在边缘计算框架下进行仿真实验。实验结果表明,该算法相比传统聚类算法运行效率更高、计算质量更好、稳定性更强,可有效提高大数据聚类性能,并降低实时数据流误分类率。

关键词:可控聚类;边缘计算算法;大数据流研究

引言

随着网络和信息技术的不断发展,数据表示形式也由传统的静态形式转变为实时流数据。实时流数据的出现确保了数据读写的一致性和完整性,大大提高了信息读写的效率,并在不同领域中被广泛使用。实时流数据在应用过程中,大量的关联数据以一定的速率连续流入数据收集中心。因此,确保数据传输的高质量、高效率集群是实时流数据应用的关键内容。传统聚类算法由于其处理实时数据速率和规模的限制已经无法满足当前日益增长的实时数据速率和规模下的数据聚类标准。

1移动边缘计算概述

边缘计作为一种新型分布式计算模式,主要由多个位于云中心服务器与移动用户或终端设备之间的边缘节点合作完成原始数据计算和存储业务,在物理层面上实现将云计算中的计算和存储资源拓展至靠近移动用户的网络边缘。实质上,边缘计算与云计算是相辅相成的,并非简单的替代关系。云计算中心需要边缘服务器对海量原始数据做初步处理,而边缘计算则需要云计算中心强大的计算能力和海量存储作为基础支持。随着科技和5G技术的不断发展,移动用户对时延更低、功能服务更加优质可靠的互联网应用需求与日俱增,为此研究人员展开了对移动边缘计算的探索研究。移动边缘计算由欧洲电信标准化协会于2014年首次提出,它的核心思想是将计算、存储和网络资源与基站集成在一起部署在网络边缘,从而快速处理各种计算密集型和延迟敏感型应用程序业务(如增强现实和图像处理等),这一点与边缘计算相似。但它的独特之处在于,其操作对象是移动网络场景中来自云服务器的下行数据和来自万物互联服务的上行数据。由于其操作执行位置能够保持贴近移动终端设备,因而能为移动终端设备提供超低时延和高带宽,使得移动用户的服务体验得到极大的提升。具体地,移动边缘计算具有以下几种特性:

(1)减少传输时延。MEC将云中心的计算和存储能力拓展到网络边缘,使得移动终端设备可以通过任务卸载技术将计算任务卸载至临近的MEC服务器。此时,用户请求不必等待长时间的响应,也不需要经由长距离的网络传输到遥远的云计算中心完成处理,而是由临近的MEC服务器直接处理,然后反馈给用户,这种模式大大降低了海量数据的通信时延。

(2)降低设备能耗和传输能耗。对于终端设备而言,自身有限的能量资源难以承担高能耗任务的执行。但在移动边缘计算模式下,需要大量算力资源的任务可以卸载到集邻近的MEC服务器完成处理,从而有效降低设备能耗,延长设备的使用周期。同时随着缓存技术的发展,存储资源相对于带宽资源而言成本逐渐降低,MEC服务器的广泛部署能够就近存储部分数据,可以极大地减少远程传输的必要性,最终降低传输能耗。

(3)改善用户的服务质量体验,保护用户隐私。在网络边缘广泛部署的MEC服务器可以获取详细的网络信息和终端信息,并且可以作为各自区域内的资源控制器以实现对带宽及算力资源的调度分配操作。所以当在MEC服务器上处理海量原始数据时,可以缓解核心网络和云服务器的压力。同时,时延与能耗的显著降低能够提供给移动用户更高质量的服务体验,而近用户端的敏感数据处理也能有效保护用户个人隐私。

2系统模型

2.1网络建模

在一个区域中,多个边缘服务器和一个云服务器组成边缘计算系统。边缘服务器通过无线链路与移动设备进行通信,云服务器通过核心网与边缘服务器通信,边缘服务器之间可以通过本地局域网进行通信。云服务器和边缘服务器均可以为移动设备提供任务计算服务,前提是先缓存要计算的任务。假设云服务器具有充足的计算能力和缓存容量,可以缓存所有的任务。相比于云服务器,边缘服务器的计算能力和缓存容量都是有限的,因此不能缓存所有的任务,只能缓存部分任务。每个移动设备都有需要执行的计算任务,例如移动游戏或者视频流。考虑到移动设备的计算能力和电池容量有限,不适于一些计算需求大且耗能的任务,因此,与文献中的工作类似,假设移动设备本身不处理任务,只考虑边缘服务器或远程云上的任务缓存和处理。

2.2任务请求模型

每个时隙t开始时移动设备会在K个任务中选择一个请求至与其相关联的边缘服务器。由于每个用户可能请求相同的任务,且边缘服务器相关联的用户个数可能不同,如果将所有用户请求的任务依次表示,则总任务请求集合的元素个数将会不断改变。为了保持系统状态维度不变,便于模型求解,因此使用tkb记录任务k的请求次数,则时隙t中用户总的任务请求。

2.3MSAC算法设计

深度强化学习是近年来研究的一个热点,智能体通过与环境进行交互(做出动作决策并产生相应的奖励)来不断调整行为以最大化长期系统收益。相比于传统优化算法,DRL方法可以针对不同边缘计算环境中不同的任务请求做出对应的缓存决策,能够适应环境且决策用时短,更适用于边缘计算环境。目前已有许多DRL算法应用于边缘计算相关研究。在上文的模型中,由于任务替换时延需要考虑上一时隙的缓存决策,因此边缘服务器的缓存决策不仅影响当前时隙的任务平均执行时延,也会对下一时隙产生影响。如果仅考虑令当前时隙的任务平均时延最小,则可能会频繁的进行缓存替换,任务的执行时延可能会大大增加。因此边缘服务器做出缓存决策时不仅需要让当前时隙任务平均执行时延尽可能小,也要为未来考虑,最大化系统长期收益,这与强化学习的特点不谋而同。虽然进化算法也能够找到较优的决策,但是其决策用时过长,且仅能考虑当前时隙,没有“长远眼光”。因此,为了解决任务缓存模型中用户请求未知和系统长期性能的挑战,本节基于Soft-Actor-Critic深度强化学习算法设计基于分布式决策的在线任务缓存算法,每个边缘服务器均通过与环境交互进行缓存决策以最小化移动设备任务平均执行时延,最大化系统长期性能。同时,为了解决边缘服务器协同的挑战,本节在SAC算法的基础上设计经验共享机制,使相邻边缘服务器共享经验以优化任务缓存决策。

3实验仿真与分析

3.1聚类性能分析

通过将SCCEC算法与其他四种进行比较,验证本文所提算法的聚类性能。实验前,设置数据集大小n=2000,聚类数m=50,计算节点数r=8和数据流率v=350数据点/s。为保证实验的准确性,以10次实验的平均值作为分析对象,并通过正确的大数据实时流数据聚类结果速率衡量算法的聚类质量,若数据处理正确率越高,则表明算法的性能越强。

SCCEC算法聚类性能优于另外4种算法,说明SCCEC算法具较高的聚类性能,且SCCEC算法的收敛速度显著高于其他四种比较算法。由此可知,SCCEC算法在收敛速度和聚类性能较为突出。

3.2聚类效率分析

聚类算法的效率可通过运行时间和相关数据流处理效率两个指标进行验证。运行时间和相关数据流处理效率两个指标进行验证。分别使用SCCEC,文献,文献,文献和K-means算法控制实时流式大数据流的聚类。

当数据流速度较慢时,K-means算法的运行时间较短,这是因为其算法初始化时间较短。整体来看,相比其它四种算法,SCCEC算法的运行时间较短。此外,当数据流增加时,SCCEC算法的运行时间在初始过程中仅有少量增加,并在稳定后基本保持在固定值,而其他四种比较算法的平均时间则显着增加。由此可知,本文所提算法的运行效率优于其他四种比较算法。

针对传统聚类算法在处理大数据流时出现的效率低、性能差、响应慢、稳定性不足等问题,提出了一种实时流可控的聚类边缘计算算法(SCCEC),并通过仿真实验与分析得出以下结论:(1)所提SCCEC算法能够获得正确率更高的实时流数据聚类结果,具良好的聚类性能,且算法收敛速度显著高于其他四种比较算法。(2)相比其他四种比较算法,所提SCCEC算法能够在相同的时间间隔内聚类更多的实时流数据,且具有更高的运行效率与更好的稳定性。(3)所提SCCEC算法能够有效降低数据误分类率,能够快速获得全局最优解,并具有较高的实时性处理海量数据。

4任务卸载中存在的隐私威胁

4.1传统隐私威胁

在移动边缘计算模式中,边缘节点通常分布式部署在靠近用户侧的网络边缘,虽然这种模式能给移动用户提供极大的便利,但同样伴随着极大的安全隐私威胁。随着多样化应用程序的出现,移动用户愈加渴望追求更迅捷优质的服务体验,因此不可避免地会选择将与自身隐私有关的原始数据卸载至临近的MEC服务器上进行处理。然而,隐私数据的上传会使得用户对敏感数据的所有权和控制权逐渐分离,更加容易出现原始数据泄露窃取以及非法数据操作(如非法发布、传播和篡改)等隐私安全问题。除此之外,大量缓存数据在边缘节点处的长时间堆积同样会严重影响用户的隐私安全。例如智能家居中,家用设备传感器实时传输的数据可能包括视频浏览数据、网站购物数据等私人信息,而好奇的边缘服务器在处理原始数据时会偷偷进行数据收集工作,最终可以轻易分析出家庭用户的购物习惯、阅读内容以及搜索内容等。事实上,由于现实的网络场景通常复杂多变,MEC系统一般将边缘节点部署在不可信的环境中,而其分布式部署特点也会使得MEC系统中各服务器的可信情况更加复杂。

4.2特殊隐私威胁

随着对任务卸载中安全问题的深入研究,有学者提出了由MEC系统独有的任务卸载特性所引发的隐私问题,分别为位置隐私威胁与使用模式隐私威胁。位置隐私威胁是指,由于终端设备通常根据信道增益状况选择是否进行任务卸载,而信道增益好坏往往与移动设备或移动用户到MEC服务器间的距离高度相关。因此,仅需要简单分析计算任务的卸载模式,受损的MEC服务器便可推断出任务卸载时的信道状态信息,继而估算出自己到终端设备或移动用户间的距离。甚至当一个移动用户与多个MEC服务器进行任务卸载通信时,这些服务器之间可以相互勾结并精确定位到移动用户所处位置。

结语

本文首先对移动边缘计算的相关概念、基础架构和应用场景进行了介绍,然后概述了移动边缘计算中任务卸载技术的核心思想,以及从最小化时延、最小化能耗和时延能耗权衡三个卸载目标对任务卸载技术研究现状的分析和总结。随后,基于对任务卸载中存在的隐私威胁分析,文中从传统隐私威胁和由任务卸载特性导致的特殊隐私威胁两个方面出发,对移动边缘计算任务卸载的隐私保护领域的国内外最新研究成果进行了系统的阐述与科学归类。同时,也对任务卸载隐私保护方面未来可能面临的若干挑战进行了详细的分析。虽然,目前在移动边缘计算任务卸载领域中已存在大量的研究成果,但随着移动边缘计算的应用场景不断扩大,未来可能会有新的衡量计算卸载决策的性能指标出现。此外,随着人们对个人数据的隐私保护意识不断提高,隐私保护问题已经成为当前互联网中的热点话题,尤其许多现有的隐私保护技术不再适用于更加多元多变且复杂的应用场景。因此,未来对于移动边缘计算任务卸载领域有着更多值得探究的方向。

参考文献

[1]GSMAIntelligence.TheMobileEconomy2022[EB/OL].[2022-03].https://www.gsma.com/mobileecono⁃my/wp-content/uploads/2022/02/280222-The-MobileEconomy-2022.pdf.

[2]VOUKMA.Cloudcomputing—Issues,researchandim⁃plementations[C]//ITI2008—30thInternationalCon⁃ferenceonInformationTechnologyInterfaces.NewYork:IEEEPress,2008:31-40.

[3]ABBASN,ZHANGY,TAHERKORDIA,etal.Mobileedgecomputing:Asurvey[J].IEEEInternetofThingsJournal,2018,5(1):450-465.DOI:10.1109/JIOT.2017.2750180.

[4]FLORESH,HUIP,TARKOMAS,etal.Mobilecodeoffloading:Fromconcepttopracticeandbeyond[J].IEEECommunicationsMagazine,2015,53(3):80-88.DOI:10.1109/MCOM.2015.7060486.

[5]SATYANARAYANANM.Theemergenceofedgecom⁃puting[J].Computer,2017,50(1):30-39.DOI:10.1109/MC.2017.9.