人工智能驱动的大数据智能分析平台

(整期优先)网络出版时间:2024-05-22
/ 2

人工智能驱动的大数据智能分析平台

任欢  蒲昱汶  康宇先 

北方自动控制技术研究所  山西太原 030006

摘要:大数据已经成为人类发展的重要经济资产,然而海量的数据仍对挖掘、分析和计算技术提出更高要求。人工智能技术作为大数据分析的重要方式之一,其深度学习、机器学习等技术均有效满足了日益复杂的大数据分析。因此,为拓展大数据分析的应用范围,优化大数据分析任务,以人工智能为基础研究大数据分析方法并掌握其技术要点是必要的。

关键词:人工智能;劳动力就业结构;创新驱动;门槛效应

前言:目前,人工智能快速发展带来的劳动力就业结构变化成为广受关注的热点问题。基于2010-2019年中国省级面板数据,利用固定效应模型、门槛效应模型和中介效应模型,实证检验创新驱动下人工智能对劳动力就业结构的影响及作用机制。

1.大数据和人工智能的概述

1.1大数据的概述

大数据的主要功能是帮助人们对网络系统当中的数据和信息进行整合,并根据实际需要对其进行有效处理。大数据主要有两个特点,第一是多样性,在网络信息技术快速发展的背景下,系统中的信息量在不断增加,数据来源更为多元,数据种类也更为丰富;第二是规模大,在网络信息技术的支持下,信息基础能力不断增强,所产生的数据体量是巨大的。除了这两个主要特点外,大数据还具有真实性强、信息处理速度快等特点,具体如图1所示。在大数据时代,人们只需要动动手指就可以了解天下事,足不出户就可以完成购物,这都依赖于大数据超强的处理平台和高效率的处理技术,能够对大规模的数据进行实时统计、有效分析和高效处理。人们还可以通过数据挖掘、人工智能等技术手段对事物的规律进行分析,并将其运用到生产活动、城市建设等领域,促进社会生产效率的提高和社会治理模式的完善。

图1大数据的特点

1.2人工智能的概述

人工智能指的是通过赋予机器以人的思维模式、技能方法来实现模拟、拓展等功能。当前,人工智能已经在医疗卫生、机械制造等多个行业发挥了重要作用,可以完成很多对技术要求比较高的工作,同时为人们的日常生活提供了便利的条件。人工智能特点主要包括三方面:第一是图像功能,比如人脸识别、语音识别等,不仅可以提高人们生活的便利性,还可以为信息安全提供保障;第二是网络系统,主要应用于商业领域,比如在企业库存管理中运用人工智能网络系统来实现智能化管理,在降低管理成本的同时为企业带来更高的经济效益;第三是智能识别,比如各种智能可穿戴设备运用此功能,可以使人们的生活变得更为丰富多彩。近年来,人工智能已经与大数据、物联网以及云计算等技术手段相互联系,基于控制、学习、计算、反馈等功能实现了互联互通。

2.人工智能对就业结构的直接效应

人工智能不同于以往技术革命的特点在于它的目的是提高生产率以实现生产过程的全自动化,自动化程度越高对生产率的提升作用越显著(Acemoglu和Restrepo,2018),对低技能劳动力的负面影响也越大。人工智能通过替代效应和创造效应加速劳动力技能分化进而使劳动力就业结构不断优化。根据历次技术革命来看,一项新技术的产生会淘汰旧有技术和部分就业岗位,使低技能劳动力就业范围逐渐缩小,但Acemoglu和Restrepo(2020)构建的就业创造模型表明新技术应用导致劳动力被替代的同时,也会创造出新的就业机会,提供大量与新技术相匹配的就业岗位。根据技能偏向性理论,在人工智能与生产相融合的过程中,高技能劳动力具有知识溢出效应和较高劳动生产率,因而劳动力市场对高技能劳动力的需求量不断扩大,促进了劳动力市场就业质量的提升,推动了劳动力就业结构优化升级。但现实事物的发展关系往往比较复杂,不仅仅局限于线性关系,人工智能发展的各个阶段对不同技能劳动力的需求都会存在差异。由“机器换人”向“人机协同”发展的过程中,劳动力市场对高技能劳动力表现为持续的吸纳作用,同时对低技能劳动力表现为更强的挤出作用,由于中等技能劳动力的需求多寡具有一定的不确定性,可能随劳动生产率提高而被替代,也可能因劳动生产率提高带来居民收入上升进而导致社会需求显著增加,企业在扩大生产的过程中为中等技能劳动力创造了更多就业岗位,但不论各个阶段人工智能对中等技能劳动力影响如何,最终的直接表现都是促进中国劳动力就业结构优化升级。因此,人工智能对中国劳动力就业结构的影响不同于发达国家的“就业极化”,而是反映出中国的特殊性,推动中国劳动力就业结构逐渐趋向高级化。据此提出以下假说:假说1:人工智能推动中国劳动力就业结构逐渐趋向高级化。假说2:人工智能对劳动力就业结构具有非线性影响,且人工智能发展程度越高,对劳动力就业结构的优化作用越明显。

3以机器学习为基础的大数据分析

3.1大数据聚类

将机器学习技术应用于大数据分析工作时,初步就是大数据聚类,只有这样才能保证数据分析结果的全面性,但是由于大数据聚类与传统聚类不同,其具有跨学科、跨领域的特点,所以以往的传统聚类算法难以直接应用。因此,当研究人员开展以机器学习为基础的大数据分析工作时,应对聚类算法进行优化,或是直接选择新型算法,其中,若是采用传统聚类算法,应先对现有数据进行阻塞与简化,然后通过计算结果重新组合的方式实现大数据分析,或是采用并行聚类算法,依托于计算机处理数据速度的提升实现经典大数据的分析。从目前主流计算框架来看,MapReduce作为常用的分布式计算框架之一,其主要方式是简化处理数据分块,然后将各个分块的分析结果进行合并,最终实现数据的并行化;或是以Hadoop平台为基础的K-means聚类算法,依托于Map、Combine、Reduce的划分实现自下而上的凝聚式层次聚类分析,强化文本类数据聚类时的准确性。除此之外,还有在MapReduce的发展下,基于密度的聚类方法,即DB-SCAN,这一聚类算法分为4个阶段,阶段一为数据预处理;阶段二是局部DBSCAN;阶段三为合并集群获得;阶段四是全局集群处理,在依次落实处理环节后将其应用于轨迹聚类。通过上述分析可知,不同的大数据聚类算法,其侧重点存在差异性,以MapReduce为基础的大数据聚类算法主要是强化聚类效果,并对海量数据计算的复杂度进行有效降低;而K-means算法则注重大数据分析速度与性能的提升。而且,目前传统聚类算法优化研究也处于持续状态,尤其是面对越来越大的数据量以及难度不断提高的数据分析难题,通过采用并行聚类算法和改进传统聚类算法,是目前以人工智能机械学习为基础的,大数据聚类算法研究与发展的主要方向。

3.2大数据关联挖掘

在面对海量数据查找任务时,主要采用关联挖掘对数据集合之间的关联、因果等信息进行查找与整合。目前,常用的关联分析算法有Apriori关联规则分析、FPGrowth关联规则分析等,但是在算法的实际应用过程中,传统串行算法将给I/O带来过大的负载,且数据关联挖掘时间成本较大,随着数据量的增加,需要查找的数据规模越来越大,对计算能力和存储容量的要求越来越高。因此,在算法实际应用过程中,可融入MapReduce或Spark分布式计算框架,依托于分布式、并行化的处理优化,提升数据计算速度,从而使大数据关联挖掘得以广泛应用,比如日志分析领域、医疗疾病诊断领域、交通智能管理领域、数值分析领域等,极大地满足了多个社会行业对数据分析与利用的需求。

3.3大数据分类

大数据分类也是数据挖掘的一种技术手段,因而与其他技术工具相同,分类算法丰富且先进。比如主要应用于非均衡数据的分类工作的,以MapReduce为基础的随机森林算法,通过依托于决策树算法的并行化,能够有效加快最佳分裂属性的选择过程;再如结合了Mahout的随机森林,为实时检测点对点僵尸网络的工作提供技术支持。除此之外,还包括MapReduce与K近邻分类器的结合应用等,有效提升了大数据分类的泛化性能,使其能够应用的更为宽泛。

4.结束语:

综上所述,为了更好地发挥人工智能技术的功能,要在计算机网络系统中构建智能防火墙,优化数据信息管理,生成智能入侵检测,提升问题解决能力,以此更好应对大数据分析带来的挑战。

参考文献:

[1]金晶.基于大数据分析的5G-Advanced节能演进创新应用方法研究[J].广东通信技术,2022,42(2):24-29.

[2]郭文欣,吴忭.人工智能视域下基于设计的实施研究方法:框架及案例分析[J].中国教育信息化,2022,28(6):54-63.

[3]高长元,张晓星,张树臣.多维邻近性对跨界联盟协同创新的影响研究——基于人工智能合作专利的数据分析[J].科学学与科学技术管理,2021,42(5):100-117.

[4]杨伟,刘健.基于生态流量的数字创新生态系统演化模式——人工智能行业的探索性研究[J].技术经济,2021,40(9):34-44.