中国移动通信集团宁夏有限公司 宁夏银川 750001
摘要:大数据是新生事物,不仅与国家的发展及人们日常工作、生活息息相关,且已融入社会方方面面、日益发挥其独到的价值作用,并展现出广阔的前景。本文从大数据的基本概念、大数据的发展演进、大数据的产业链、大数据的关键技术4个方面图文并茂进行阐述,使读者阅后易懂并能够对大数据的整体概貌有全面的了解。
关键词:大数据的概念、大数据的发展演进、大数据面临的挑战、未来趋势、规模、未来的发展、数据湖等
第一部分;大数据的基本概念:
1.大数据的定义:
1.1(广义):是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
1.2狭义的定义(技术):是通过获取、存储、分析,从大容量数据中心挖掘价值的一种全新的技术架构。
数据的级别;1KB=1024B(KB-Kilbyte TXT文本文件)
1MB=1024KB; 1GB=1024MB; 1TB=1024GB; 1PB=1024TB; 1EB=1024PB; 1ZB=1024EB.
2.数据的级别:
通常情况下、1辆自动驾驶车每天可以产生的数据为60TB;1座智慧工厂每天可以产生的数据为1PB;1座智慧城市每天可以产生的数据为2.5GB;全球数据量同比增速维持在25%左右。
3.通常情况下数据的主要来源:
1、传统企业数据包括CRM用户数据、ERP数据、库存数据、人事数据、财务数据等。
2、机器和传感器数据:包括设备日志、智能仪表、工业传感器、环境传感器、摄像头等。
3、社交数据:包括用户行为记录、访问记录、UGC记录、反馈数据等。
数据的类型(按结构分):
结构化数据(Structured Date):以关系数据库表形式管理的数据、例如企业ERP、OA、HR里的数据。
非结构化数据:数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据。例如:Word、PDF、PPT及各种格式的图片、视频等。
非结构化数据:非关系模型的、有基本固定结构模式的数据、例如日志文件、XML文档、JSON文档、E _mail等。
数据的类型(按访问频率分):
冷数据:指访问频率较低、对业务和应用不太重要的数据,例如备份数据、日志数据等。
热数据:指访问频率高、对业务和应用关键的数据,例如用户、设备的状态信息、以及浏览和交易行为。
温数据:指访问频率适中、对业务和应用有一定重要性的数据。
数据的价值挖掘:
数据产生(传感器技术、摄像头技术、图像识别技术)-->数据传输(通信技术)-->数据存储(云计算技术、大数据技术、存储技术)-->数据计算(云计算技术、大数据技术、人工智能技术、芯片技术) 详见下图
4.大数据、数据分析、数据挖掘
大数据:是互联网的海量数据挖掘。数据挖掘更多是针对内部企业行业小众化的数据挖掘。数据分析就是特指做出针对性的分析和诊断;大数据需要分析的是趋势和发展,数据挖掘主要发现问题和诊断。
5.大数据的特征(5个V):
规模性(Volume):广泛的数据来源、决定了大数据形式的庞大体量。
高速性(Velocity);从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程越来越快。
多样性(Variety):数据的形式是多种多样的,包含了结构化和非结构化数据。
价值型(Value):大数据的数据量很大,但是价值密度很低。数据中真正有价值的,只是其中的很少一部分。
真实性(Veracity):大量数据带来不完整性和不一致性,因此产生了准确性。
6.大数据和传统数据的对比:
传统数据 | 大数据 | |
数据规模 | PB以下 | PB以上(含) |
增长速度 | 数据量稳定、增长缓慢 | 持续实时生产数据 |
多样化 | 主要为结构化数据 | 半结构化、非结构化、多维数据 |
数据源 | 集中地 | 分布式的 |
价值 | 统计和报表 | 数据挖掘、预测分析、 |
大数据、云计算、人工智能的关系
云计算关注资源的分配和利用,侧重于实现计算设备的资源虚拟化,从而实现更高的资源利用;而大数据是指海量数据的高效处理,主要处理庞大的数据;云计算给大数据提供了有力的工具,大数据为云计算提供了数据能力上的支撑;大数据和云计算为人工智能提供了强大的数据存储和计算能力,服务于人工智能所需要的海量数据。
第二部分:大数据的发展演进
一、大数据的发展(国际):1980年美国作家阿尔文.托夫勒在【第三次浪潮】书中,将大数据称为“第三次浪潮的华彩乐章”。
1997年美国宇航局研究员迈克尔-考克斯首次使用“大数据”这一术语来描述海量数据带来的挑战。数据之大,超出了存储器的承载能力,称之为“大数据”问题。
2002年9.11袭击后,美国政府曾计划整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库,后来停止了这一项目。
2006年云计算出现、2007-2008年、社交网络激增、刺激了大数据技术的发展。
2010年肯尼斯库克尔发表大数据专题报告,《数据,无所不在的数据》。
2011年6月,麦肯锡发布报告,正式定义了大数据的概念,后逐渐受到了各行各业的关注。
2012年英国科学家维克托路迈尔的《大数据时代》一书出版。
2012年1月瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据、大影响》宣称,数据已经成为一种新的经济资产类别。
2014年4月世界经济论坛以《大数据的回报与风险》主题发布了《全球信息技术报告(第13版)》。
大数据的发展(国内):2011年12月、工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智商分析,这些都是大数据的重要组成部分。
2012年7月、为挖掘大数据的价值,阿里巴巴在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台-“聚石塔”,为电商及电商服务商等提供数据云服务。2014年“大数据”首次出现在当年的《政府工作报告》中,《报告》中指出,要设立新型产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。
2014年、国务院通过《企业信息公示暂行条例(草案)》,要求在企业部门间建立互联共享信息平台,运用大数据等手段提升监管水平,“大数据”成为国内热议词汇。
2015年、大数据上升到国家战略层面,我国政府与2015年8月通过了《关于促进大数据发展的行动纲要》。
2015年10月26日,党的十八届五中全会召开、公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会会议,标志着大数据战略正式上升为国家战略,该次会议开启了我国大数据建设的新篇章。
二、大数据的发展阶段:
起步阶段:数据库被发明之后,使得数据管理的复杂程度大大降低,各行各业开始产生了数据,从而被记录在数据库中。这个阶段的数据、以结构化数据为主,数据的产生方式也是被动的。
转变阶段:伴随着互联网2.0时代的到来,互联网2.0的最重要的标志就是用户的原创内容;随着互联网和移动通信设备的普及、人们开始使用博客、脸书、微博、QQ空间等社交网络,从而主动产生了大量的数据。
加速阶段:是万物互联和数字化转型阶段。随着物联网的发展,各种各样的感知层节点(传感器、摄像头等)开始自动产生大量的数据,实现物理世界向数字化世界的映射。
三、大数据应用的三大阶段如下表:
NO.1(1960S开始) | NO.2(1990S开始) | NO.3(2015S开始) | |
数据源 | 业务系统数据库 | 数据仓库 | 数据湖+外部数据 |
数据与业务关系 | 随机、离散 | 常态化、体系化、外挂化 | 全域、敏捷、嵌入式 |
分析方法 | 图表统计 | BI分析 | BI+AI |
对决策的影响 | 辅助决策 | 增强决策 | 自动决策 |
四、大数据面临的挑战:
4.1需求模糊:业务部门需求模糊,企业处于观望状态,担心投入回报。
4.2数据孤岛:政府部门或企业内部数据碎片化,无法相互打通,没有进行关联和整合,无法发挥数据价值。
4.3数据流失:企业保存数据的成本较高,导致大量的有价值历史数据被遗弃,数据资产流失。
4.4数据质量差:企业忽视了大数据的预处理阶段,导致数据处理很不规范,影响了数据的准确率和可用性。
4.5数据安全隐患:安全威胁日益增加、对系统和数据进行保护的难度也随之增加。
4.6隐私保护:隐私权益保护的法律法规越来越严格,企业需要进行合规审计,合理合法的进行数据收集和利用。
4.7人才缺乏:大数据相关人才的欠缺,对大数据技术和市场发展形成了一定的阻碍。
五、大数据的未来趋势
资产化:大数据价值不断提升,在企业和社会层面成为重要的战略资源、无形的资产。
智能化:大数据将更加智能化、可以自动进行数据处理和分析,提高数据处理效率和质量。
个性化:大数据将更加关注用户需求,实现个性化服务和定制化产品。
可视化:大数据更加注重数据可视化,通过图表、报表等方式将数据呈现给用户,以实现用户对数据的直观理解。
安全性:大数据将更加注重数据安全,采用更加严格的数据保护措施,确保数据的安全性和隐私性。
第三部分:大数据的产业链
大数据产业链(如下图)
应用层 | 行业应用:包括:商业零售、工业制造、银行证券、教育医疗、政务治理 | ||||||||||
通用应用包括:广告营销、客户服务、产品研发、资源管理、市场调研等 | |||||||||||
技术层 | 大数据平台、数据中台 | ||||||||||
数据采集 | 数据存储 | 数据集成 | 数据处理 | 数据分析 | 数据可视化等 | ||||||
基础层 | 基础硬件包括:计算、存储、网络、基础软件、数据库、中间件、操作系统 | ||||||||||
数据源包括:企业数据、政府数据、行业联盟数据、第三方数据、数据交易 |
大数据的产业价值核心领域(如下图)
1.大数据的应用领域:
领域 | 潜在价值与作用 |
制造业 | 产品故障诊断与预测、改进生产工艺、优化生产过程能耗 |
电商行业 | 掌握消费者需求、进行精准营销、提升销售业绩 |
金融业 | 进行风险预测和客户分析、提高风险控制和客户服务水平 |
交通领域 | 通过交通数据分析、分析人流高峰、合理的规划出行道路 |
教育行业 | 收集学生的学习成绩、优化教学过程和方法、实现个性化教育 |
通信行业 | 利用大数据对客户离网进行分析、制定客户离网关怀、挽留客户 |
能源行业 | 分析用户用电模式、合理实际电力需求、确保电网运行安全 |
物流行业 | 分析优化物流网络、提高物流运输效率、降低物流成本 |
生物医学 | 进行流行病预测、智慧医疗、健康管理、提升医疗系统效率 |
安全领域 | 构建安全保障体系、抵御网络攻击、加强系统防御能力 |
体育娱乐 | 寻找薄弱环节、提高竞技运动成绩 |
3.大数据的未来市场发展趋势规模:
2022年、我国大数据产业规模达到1.57万亿元、同比增长18%、成为推动数字经济发展的重要力量。
预计未来三年保持15%以上的增长速度、到2023年底产业规模超过1万亿元。其中:基础设施市场规模约为3千亿元、服务市场约为5千亿元。融合应用市场规模约为7千亿元。
第四部分:大数据的关键技术
1.大数据的技术演进:
-1960年代、能够统一管理和共享数据的数据库管理系统(DBMS)诞生。
-1990年代、为满足企业数据分析的诉求、数据仓库诞生。
-2000年、以Hadoop为代表的大数据技术体系诞生、大数据研究框架成型
-2010年代、在云技术的带动下、云上纯托管的存储系统逐步取代HDFS,开始出现数据湖。
-2020年代、开始逐步走向“云湖共生、“湖仓一体””。
九、大数据的处理过程(详见下图)
1.数据预处理与存储:大数据的预处理环节包括:
1.1数据清理:主要就是初步对数据进行、不一致检测、噪声识别、数据过滤修正等、进一步提高数据的准确性、真实性、可用性等。
1.2数据集成:将多个数据源的数据进行集成、从而形成集中、统一的数据库。
1.3数据归约:在不损害分析结果准确性的前提下、通过维归约、数量归约、数据抽样等技术、提高大数据存储的价值性。
1.4数据转换处理:通过转换实现数据统一、这一过程有利于提升大数据的一致性和可用性。大数据存储主要是利用分布式文件系统、数据仓库、关系数据库、云数据库等实现对结构化、半结构化、非结构化海量数据的存储和管理。
2.大数据的技术架构:
安装、部署、配置和管理工具 | ||||||
分布式协作服务 | 实时分布式数据库 | 作业流调度系统 | ||||
数据仓库 | 数据流处理 | 数据挖掘库 | 结构化数据 | (数据库ET工具) | ||
分布式计算框架 | DAG计算框架 | 流失计算框架 | 内存计算框架 | |||
YARM:集群资源管理系统 | 日志收集工具 | |||||
HDFS(分布式文件系统) |
3.大数据的技术起源:
3.1大数据的技术栈:包括基础能力、数据采集、数据存储、数据计算及其他。在大数据的关键技术中其中有一项最为重要的平台即Hadoop平台。Hadoop是一个开发和运行处理大规模数据的软件平台。其优点就是:高可靠性、高扩展性、高效性、高容错性、低成本。
3.2大数据的关键技术中的批处理、流处理
批处理:收集并存储多项数据记录,然后在一次操作中进行集中处理。适用于不需要实时分析的场景。适用于MapReduce.
流处理:持续监测数据源、并在出现新数据事件时实时处理数据源。不同节点之间数据的传输是实时传递。适用于Storm、Spark、Streaming、Fink等数据湖的概念:数据湖是一类存储数据自然/原始格式的集中式存储库。数据湖通常是企业中全量数据的单一存储。允许以任意规模存储所有结构化、半结构化和非结构化数据。是一种在不断演进中、可扩展的大数据存储、处理、分析的基础设施。以数据为导向、实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。通过与各类外部异构数据的交互集成、支持各类企业级应用。以下是数据湖、数据仓库、湖仓一体在不同应用场景中的相互比较。
4.湖仓一体归纳表(见下图)
数据湖 | 数据仓库 | 湖仓一体 | |
数据格式 | 开放格式 | 专有格式 | 开放格式 |
数据类型 | 结构化数据 | 结构化数据 | 结构化数据 |
半结构化数据 | 半结构化数据 | 半结构化数据 | |
非结构化数据 | 非结构化数据 | ||
数据访问 | Open Api | SCL | Open Api |
可靠性 | 低质量数据 | 高质量可靠数据 | 高质量可靠数据 |
治理与安全 | 弱 | 行级、字段级细粒 度安全和治理 | 行级、字段级细 粒度安全和治理 |
性能 | 低 | 高 | 高 |
扩展性 | 高扩展性、 低成本 | 高扩展性、成本 比例增加 | 高扩展性、 低成本 |
参考文献:
《hadoop大数据技术基础及应用》,大数据研习社;
《中国大数据分析平台行业研究报告,艾瑞咨询》;
《大数据白皮书(2022)》,信通院;
《2022中国大数据产业发展白皮书》,大数据产业生态联盟;
《全国一体化政务大数据体系建设指南》,炼石网络。