云计算环境下的数据挖掘

(整期优先)网络出版时间:2022-07-28
/ 2

云计算环境下的数据挖掘

安宝庆

中国移动通信集团设计院有限公司广东分公司 510000

摘要:当今时代,在网络技术的推广与发展下,网络带来海量的信息,人们正处于“被信息淹没,但又渴求知识”的困境。而随着互联网的快速发展、数据库技术以及信息化水平的日趋完善,人类的知识储备量正以指数方式高速增长。此时的人类迫切需要一种高端技术,来处理这些杂乱无章的数据,这种技术需要将传统数据分析法与处理数据的复杂算法有机的结合在一起。因此,数据挖掘技术在此环境下诞生,将海量数据去假求真,提取出对人类有用的信息并转化为知识。然而,很多传统的数据挖掘算法仅仅适用于小规模输入数据,倘若大量输入数据,它们则会因计算量的增加而导致速度减慢,甚至无法运行。

关键词:云计算;数据挖掘;系统架构

1.引言

云计算是一种分布在大规模数据中心,能动态的提供各种服务器资源以满足电商产业、科研等领域需求的计算平台。它可以被看做是并行计算、分布式计算和网格计算的发展。云计算利用虚拟化技术,对于不同用户的不同需求来提供不同的服务,主要提供所需的虚拟计算和系统资源,最终使普通用户也能通过该技术实现海量数据操作以及大规模并行化计算,此外还为搭建统一开放的知识网络系统提供了底层支持。

2 数据挖掘在云计算中的应用

2.1数据挖掘的服务层级

2.1.1基础结构

在底层架构层面,它可以将网络和实体资源进行连接,从而达到高层次的资源共享。同时,为数据挖掘业务提供了虚拟界面,以支持资源的存储和共享。

2.1.2虚拟层

提出了基于云计算技术的数据挖掘业务模型,并通过虚拟化技术对海量的资源进行快速的处理。在架构系统中,虚拟化层利用云计算技术将分布的资源聚集起来,对虚拟资源进行封装,对各种资源进行分类和管理,以提高挖掘服务的执行效率。在对资源进行封装后,通过平台级的开发与使用,可以实现资源的共享。虚拟化技术是一种有效的资源封装技术,它能有效地提高资源的使用效率,并能有效地利用资源,从而增强服务方式的灵活性。

2.1.3梯级

在数据挖掘业务中,平台层是数据中心的业务,它主要负责对各种数据和各种功能进行管理,从而有效地管理各种业务目录。用户可以按照不同的服务内容和使用要求对不同的服务目录进行组合,从而实现对数据的功能管理。在平台级上,可以对计算资源进行高效的调度,从而提高了计算资源的使用效率。

2.1.4应用程序

在此,接口层为用户提供服务级别,以满足不同的业务需求,终端层显示业务请求,并对所需业务内容进行评估。在终端级访问内容时,通过用户访问请求和访问内容对访问访问做出不同的选择,并通过终端设备来完成对用户访问的访问。

2.2系统建模过程

2.2.1定制服务

当数据挖掘业务运行时,可以根据用户需求,进行数据收集,并能迅速查找到与之相关的信息。这样,数据挖掘人员在进行工作时,能够充分地利用候选资源,从而形成一个服务目录,便于用户的使用。

2.2.2构件构造

在构造数据挖掘服务组件时,必须保证各组件之间的一致性,而在其他组件的建立过程中,必须要将数据和服务结合起来,这样就可以建立更多的构件,为使用者提供所需的数据挖掘服务。

2.3数据挖掘系统中的服务流程

2.3.1解析

这一步的工作是对数据挖掘的内容进行分析,确定哪些数据要被挖掘,然后按照所提供的数据服务内容来设定相应的业务模式,并对业务模式进行界定。为了确保数据挖掘与现实需要相一致,在数据挖掘过程中,首先要对数据进行分析,深入了解市场和市场需求,并根据市场需要开发出适合于应用的大数据挖掘模型,使得数据挖掘服务具有高效性、实用性和针对性。

2.3.2工程方案

在此阶段,我们需要在前期调研的基础上,设计出适合于用户的数据处理方式。数据挖掘服务模式的设计,直接关系到用户对数据的满意度,也直接影响到数据挖掘的工作效率。在一些特殊的情形下,数据采掘服务会给厂商和用户带来利益冲突,从而影响到数据挖掘技术在信息化环境中的应用。

2.3.3发展阶段

在此阶段,将会有一套较为完备的数据挖掘服务系统,并在此阶段适当地运用各类服务内容和方法。在系统开发过程中,要明确系统的各个功能,并把各个功能统一起来,从而达到各种服务目的,从而保证系统的有效运作。在系统的开发过程中,可以根据业务界面的实现,有效地协调各系统的功能,使其更好地满足用户的需求,从而使数据挖掘的价值得到最大程度的发挥,从而促进了数据挖掘市场的持续稳定发展。

2.4 云计算环境下数据挖掘平台的分析

2.4.1 账户管理子系统

账户管理的子系统一般是针对于管理用户对与平台相关的服务状况,进行的一个账户收支明细的详细记载,这个系统是平台的基础所在。从它的构成结构来看,它主要涉及到四个方面的功能,即支出的明细、收入的明细、账户余额以及历史记录。这四个方面是相互作用,相互联系的,其中每一部分的作用是有区别的,支出明细主要是对用户所使用的平台中的付费服务和设施的明细账目进行详细合理的记录;收入的明细主要涉及到它的两项主要来源,一是用户在这个系统下提供平台的数据资源,二是以挖掘算法子系统提供给平台的先进算法的报酬明细;而账户的余额主要是支出和收入之间的差额;最后的历史记录是指对用户登录平台之后的所有操作行为进行记载,这样可以给后期的撤销操作提供条件。

2.4.2 数据管理的子系统

这个系统是针对于用户的数据资源管理来说的,涉及到用户自己的数据、采购的数据以及卖出的数据。这个子系统是在云计算的DaaS服务模式基础上出现的,对于用户来说,可以在这个系统的作用下,通过平台来获得自己所需要的数据资源,并且也可以把自己所拥有数据提供给平台,需要注意的是,这个提供是有偿性的。

2.4.3 挖掘算法管理子系统

这种系统主要是针对于管理数据挖掘子系统所需要的算法和模型来说的,并且还可以协助完成数据挖掘子系统中的自定义功能的算法获取作用。它可以较为清晰明确的列出平台所拥有的挖掘算法和相关的介绍等;对于算法记录来说,它可以对用户所使用的全部算法进行合理的记录;自定义算法主要是指用户根据自身需求所创作出的算法,也可以是经过改进创新的算法。

2.4.4 服务器群

服务群的存在主要是对用户提供高效的平台访问、数据操作等的一系列服务。这种服务群所采用的虚拟技术以及具体的分布式技术会把平台所拥有的本地或者是异地服务器资源进行高效的利用,进而提供高质量的服务。在这个平台的作用下,它可以把服务器直接的租用给客户,也可以是客户把自己所具有的闲置服务器已虚拟化等的技术来租用给平台,这样可以确保资源的高效配置,通常情况下,这个服务器群涉及到数据库服务器、数据挖掘服务器以及账户管理服務器等方面。

3. 总结

现代科学技术的发展,使得云计算得到了显著的普及和应用。云计算自身具有独特的优势特点,它在大量数据挖掘方面具有明显的优势,而且随着它的应用领域不断延伸,人们在加大对其应用的同时,也给云计算环境下的数据开挖提供了很大的便利,而且国家也加大了这方面的政策支持力度,又为云计算环境下的数据开挖实效性注入新的活力。

参考文献

[1]朱娜.基于云计算技术的数据挖掘平台设计与实现[J].信息记录材料,2018,19(6):79-81.

[2]杨继武.云计算视域下数据挖掘技术[J].电子技术与软件工程,2019(5):151.

[3]雷晨.基于云计算技术的数据挖掘平台建设研究[J].信息记录材料,2019(3):4-5.