大数据分析的神经网络方法

(整期优先)网络出版时间:2017-12-22
/ 2

大数据分析的神经网络方法

王滨

济南市客管中心山东省济南市250001

摘要:大数据所蕴含的社会、经济、科学价值,使得其商业应用不断成功,相关大数据技术高速发展。大数据相继催生出许多新的应用、新的思维、新的方法,进而在全世界掀起大数据研究热潮。近年来,许多国家制定了各种大数据研究计划。美国奥巴马政府于2012年宣布启动“大数据研究和发展计划”,将“大数据研究”上升为美国国家意志,认为大数据如同“未来的新石油”,将对科技和经济发展带来深远影响。2013年,中国第462次香山科学会议指出:大数据是数字化时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。同年,中国大数据产业也逐步兴起;2014年,中国国家自然科学基金委设置了大数据重点项目群,全面推动中国大数据研究;2015年,国务院发布大数据发展行动纲要,将大数据正式上升为中国国家意志,再次将大数据研究推向新的高潮。

关键词:大数据;神经网络;人工智能

一、大数据

1、大数据的概念

大数据一词诞生于1997年,并被沿用至今。最初,大数据指在可容忍的时间内用传统信息技术和软硬件工具难以对其进行获取、管理、处理和分析的数据集合。现在一般认为大数据具有以下四大特征:

1)体量浩大(volume),指大数据所包含的数据总量庞大,这是判断一个问题是否属于大数据问题的最基本特征。大数据追求的是全样本数据(跟踪与记录事物全部信息),而非采样数据。此外,很多大数据,如天文数据、气象数据、遥感数据等,也具有超高维的特性从而直接加剧了大数据体量浩大的特性。

2)多源异构(variety),指大数据所包含的数据来源广泛、模态繁杂。例如,物联网系统需要收集来自成千上万的传感器传来的数据,这些数据既包含如视频、音频等多模态非结构化数据,也包含如温度、湿度等结构化数据。

3)生成快速(velocity),指大数据所包含的数据生成与产出迅猛,变化快速。例如,天网等大规模监控系统每时每刻在产生视频流数据,各大互联网公司每日产生TB级用户数据或交易数据。

4)价值稀疏(value),指大数据所蕴含的价值密度极低。例如,对于监控系统中的视频大数据,真正有价值的视频段落微乎其微。然而,这些低密度的价值正是大数据研究的目标与意义。

2、大数据的关键技术

大数据研究的目标是实现将大数据转换为价值。其关键技术可划分为3个层次

1)数据平台。其任务是完成大数据的采集、标记、存储与管理,为大数据计算与分析提供数据基础。大数据的采集过程应该收集全样本数据而非少量的采样数据,容许误差数据。对于收集到的原始数据,需要进行整理、清洗与标记。带有标记的数据本身就具有很高的研究价值。传统的存储理念是将所有原始数据进行存储,这需要消耗巨大的存储资源,更难以有效地提取需要的数据。大数据时代,应该实现“只存储知识而非原始数据”这一机制,可极大地提高存储效率。大数据的管理是指与大数据相关的更新、存储、使用、交易等事务。

2)分析平台。其任务是完成大数据的计算与分析,是大数据转化为价值的桥梁。大数据分析要求强大的计算平台的支撑,包括计算资源建设与分析算法设计。计算资源从传统的CPU逐步转向高吞吐量的GPU,分布式计算框架包括MapReduce、ParameterServer等技术。大数据分析平台的核心是大数据分析方法。大数据分析方法一般包括两类:一是,依赖专家经验进行人工分析建模,该方法费时费力,应用条件复杂,知识无法迁移,有极大的应用局限性;二是,基于人工智能的方法,如神经网络方法,该方法被业界认为是大数据分析最成功的方法。

3)展示平台。其任务是完成大数据的知识展示与产品推广。通常,大数据分析的结果以两种形态存在,即直接知识和间接知识。直接知识是一种具体的发现,如分析基因大数据发现基因组织规律。间接知识是一种可计算模型,可继续用于知识的发现与获取,如解某个方程的技巧可用于解更多的方程。如何将这两种复杂的知识清晰、直观地展示给使用者,是大数据展示平台的主要挑战。获取大数据知识后,需要对其传播推广,形成产品,才能进一步发挥其社会、经济及科学价值。

二、大数据与神经网络的结合与应用

1、语音识别

自2006年Hinton等提出深度学习的概念,神经网络再次回到人们的视野中,语音识别是第1个取得突破的领域。传统语音识别的方法主要利用声学研究中的低层特征,利用高斯混合模型进行特征提取,并用隐马尔可夫模型进行序列转移状态建模,并据此识别语音所对应的文字。历经数十年的发展,传统语音识别任务的错误率改进却停滞不前,停留在25%左右,难以达到实用水平。2013年,Hinton与微软公司合作,利用神经网络改进语音识别中的特征提取方法,将错误率降低至17.7%,并在大会现场展示了同声传译产品,效果惊人。此后,研究者们又陆续采用回复式神经网络改进语音识别的预测和识别,将错误率降至7.9%。这一系列的成功使得语音识别实用化成为可能,激发了大量的商业应用。至2016年,同声速记产品准确率已经突破95%,超过人类速记员的水平。

2、计算机视觉

计算机视觉一直以来都是一个热门的研究领域。传统的研究内容主要集中在根据图像特点人工设计不同的特征,如边缘特征、颜色特征、尺度不变特征等。利用这些特征完成特定的计算机视觉任务,如图像分类、图像聚类、图像分割、目标检测、目标追踪等。传统的图像特征依赖于人工设计,一般为比较直观的初级特征,抽象程度较低,表达能力较弱。神经网络方法利用大量的图像数据,完全自动地学习特征。在深度神经网络中,各层特征形成了边缘、线条、轮廓、形状、对象等的层次划分,抽象程度逐渐提高。2012年,在大规模图像数据集ImageNet上,神经网络方法取得了重大突破,准确率达到84.7%。在LFW人脸识别评测权威数据库上,基于深度神经网络的人脸识别方法DeepID在2014、2015年分别达到准确率99.15%和99.53%,远超人类识别的准确率97.53%。

3、医学医疗

医学医疗因为其应用的特殊性一直是科学研究的前沿,既要快速的推进,又要求格外严谨。如何利用好大数据解决医学和医疗中的问题,进一步改善医疗条件,提高诊治水平,是值得人们关注和研究的。随着神经网络各类应用的成功和成熟,在医学和医疗领域也出现了新的突破。2016年1月,美国Enlitic公司开发的基于深度神经网络的癌症检测系统,适用于从X光、CT扫描、超声波检查、MRI等的图像中发现恶性肿瘤,其中,肺癌检出率超过放射技师水平。同年,Google利用医院信息数据仓库的医疗电子信息存档中的临床记录、诊断信息、用药信息、生化检测、病案统计等数据,构建病人原始信息数据库,包括病人的用药信息、诊断信息、诊疗过程、生化检测等信息,采用基于神经网络的无监督深度特征学习方法学习病人的深度特征表达,并借助这一表达进行自动临床决策,其准确率超过92%。这些成果为实现基于医疗大数据的精准医疗打下了扎实基础。

结束语

综上所述,以大数据和神经网络为线索,回顾大数据的基本概念与关键技术,梳理神经网络研究的基本框架,可以发现它们之间默契切合、互相促进的关系。一方面,神经网络具有强大的特征提取与抽象能力,能够整合多源信息,处理异构数据,捕捉变化动态,是大数据实现价值转化的桥梁。另一方面,体量浩大的大数据为神经网络提供了充足的训练样本,使得训练越来越大规模的神经网络成为可能。尽管“大数据+神经网络”在众多应用领域已经取得了突破,但是,仍然存在需要解决的核心科学问题。

参考文献

[1]王琴,张炯.基于大数据分析的LTE语音时延优化方案[J].安徽电子信息职业技术学院学报,2017(06):1-5.

[2]谢科军,陆宏波,程周育,窦国贤.基于大数据分析的电力系统状态实验仿真[J].价值工程,2017,36(35):173-174.

[3]宗俊伟.大数据助力电视剧制播的五大价值[J/OL].东莞理工学院学报,2017(06):89-94[2018-01-01].https://doi.org/10.16002/j.cnki.10090312.2017.06.015.

[4]王佐.大数据时代企业竞争力重塑[J/OL].中国流通经济,2017(12):3-13[2018-01-01].https://doi.org/10.14089/j.cnki.cn11-3664/f.2017.12.001.