大数据算法面临的挑战

(整期优先)网络出版时间:2021-01-04
/ 2

大数据算法面临的挑战

盛海

重庆工贸职业技术学院


目前随着计算技术的不断进步以及移动互联网、物联网、移动通信网络技术的发展,信息技术已经明显呈现“人-机-物”三元融合的态势,新兴应用不断出现,引发了数据规模的爆炸式增长,大数据(Big Data)引起了国内外产业界、学术界和政府部门的高度关注,甚至被认为是继人力、资本之后种新的非物质生产要素,蕴含巨大价值,不可或缺的战略资源。各类基于大数据的应用正日益对全球生产、流通、分配、消费活动以,经济运行机制、社会生活方式和国家治理能力产生重要影响。但是,如何从数据中获得价值?大数据的内涵和外延究竟是什么?大数据对人们思题的方式带来了什么影响?对大数据的处理和传统对数据的处理有什么本质的不同?这都是我们目前面临的问题,我们今天先来看看数据计算遇到的挑战.

数据中蕴含的价值,需要通过计算来获取,大数据计算就是通过对数据的计算获取价值的过程。大数据的4V或5V特征,对数据处理的过程带来直接的挑战。

首先是数据规模带来的挑战。随着数据规模的增大,直接感受到挑战的是数据的存储和计算能力。从传感器获得的大量数据经过预处理后,需要被存储下来,并根据各种数据查询任务和数据分析任务的需求,进行数据加工和分析计算。特别是对于有些时效性较高的分析任务,这种压力更为巨大。

应对规模性,一个思路是“分而治之”。当存储和计算的能力超出一台计算机的极限时,人们自然想到用多台计算机来分担存储和计算任务,在将数据存储在不同节点的基础

上,将计算任务分解,并交由不同的计算节点来并发执行。而这样一个由一组相互协作的计算机通过高速网络互联起来形成的存储和计算系统,则被称为分布式系统。一个分布式系统需要管理分布的节点资源,并有效调度存储和计算任务,支撑整个系统的高效运行。一个良好设计的分布式系统应当具有可扩展性,即通过扩大分布式系统的规模,处理更大量的数据和更多的计算任务。分布式系统也可以根据存储数据的特点和计算任务的特点做定制化设计,以便更高效地利用资源,完成任务。应对规模性,另一个思路则是充分利用数据的特征,“变蛮算为巧算”。这就需要进一步考察不同大数据集的特点,考察基于这个数据集的查询或计算任务的特点,有针对性地设计优化方法。而这些优化方法的设计也可以有一些基本的原则。

1.大数据数量庞大,但合理的采样仍然具有意义。

采样显然是从大数据集中挑选一部分数据进行计算的一种手段。在传统的采样方法中,样本选取的差异可能在减少计算量的同时引入结果的不确定性,采样的质量和精确性都会对计算结果产生影响。但是,在大数据的计算中,有些计算任务允许计算精度在一定范围内波动,对单一数据项和分析算法的精确性要求就不再苛刻,可以牺牲部分精确性来换取计算量的减少。这就像在炒菜时,为了判断盐放的是不是合适,人们会选择性地“尝菜”,以估计整锅菜的甜咸。此外,一些针对性设计的采样方法,也可以保证采样结果与全样结果对特定问题保持确定的数学性质,例如求取一个数据集的均值,在全部数据集上求得的均值与通过随机采样求得的均值就会保持相同。这为大数据的“巧算”提供一种思路。

2.大数据变化频繁,在计算中应利用好数据的“增量”特性。

大数据种类繁多、变化频繁,已有的计算模式往往通过预先确定的分类方法简化问题的难度和规模,提高预测的准确性。而在大数据计算中,数据的持续更新可能难以形成稳定的分类,不仅要考虑可分类条件下的精确算法,还要考虑动态数据下的增量算法。考虑到相对于大量的存量数据,增量数据的规模要小许多,如果能够找到方法,不需要每次计算都重新扫描所有数据,而只要在上次计算结果的基础上,通过对更新数据的计算,合并出新的计算结构,就可以避免大量的计算。尽管不是每个计算任务都具有增量算法,但如果能够找到支持增量的算法,显然可以让大数据计算变得更加有效。

3.大数据种类繁多,利用多源数据有助于寻找关联关系。

大数据研究不同于传统的逻辑推理研究。针对一个问题,往往不只是在一个确定的数据集上开展研究,而是对数量巨大的数据做统计分析和归纳,甚至可以根据数据分析的目的

有针对性地获取、整合关联数据,从而形成多源异构的大数据集。传统的确定性问题往往通过自顶向下的还原方法,逐步分解并加以研究,而对多源异构大数据的相关问题不仅需要还原方法,还需要自底向上的归纳方法,通过关联关系补充因果关系的不足,实现多源数据和多种计算方法的有效融合。此外,大数据需要收集、汇聚和从各种渠道获取全量复杂关联的数据集,并在此基进行价值的提取,这必然催生对数据安全和个人隐私保护的巨大需求;大数据的商业价值推动服务企业以更加激进的方式收集用户数据,数据公开的呼声与潜在的数据交易需求则放大了数据安全和个人数据泄露的风险,这些使大数据时代的安全和隐私保护成为一个核心课题。目前这一问题已经引起计算机科学及法学界的关注,欧盟在2018年5月也正式实施了于个人隐私保护的通用数据保护条例(General Data Protection Regulation,GDPR)。

在全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力成为趋势,有关发达国家相继制定实施大数据战略性文件,大力推动大数据发展和应用。我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场,大数据的部分关键技术研发取得突破,涌现出一批互联网创新企业和创新应用,一些地府已启动大数据相关工作。坚持创新驱动发展,加快大数据部署,深化大数据应用,已稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。