数据挖掘技术统计分析应用的研究

(整期优先)网络出版时间:2018-04-14
/ 2

数据挖掘技术统计分析应用的研究

赵立男

(国网伊春供电公司黑龙江伊春153000)

摘要:文章主要分析了数据挖掘的相关信息技术,数据挖掘技术应用到统计工作中就显得尤为必要。该文主要分析了数据挖掘的概念和功能与工作过程,工作方法,应用简介与在实际中的应用。

关键词:数据挖掘技术;统计工作;应用

一、数据挖掘的概况

(一)数据仓库的概念。数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据集成到一起,为决策者提供各种类型的,有效的数据分析,起到决策支持的作用。数据仓库概念的创始人在《建立数据仓库》一书中指出:“数据仓库是面向主题的,集成的,稳定的,随时间变化的数据集合,用以支持经营管理中的决策制定过程。

(二)数据挖掘的基本原理。数据挖掘就是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一种从大型数据库或数据中提取隐藏的预测性信息的新技术,它能开采出潜在的模式,找出最有价值的信息,指导商业行为或辅助科学研究。

(三)数据挖掘的分类。数据挖掘可按数据库类型,挖掘对象,挖掘任务,挖掘方法与技术以而已以及应用等几个方面进行分类。按挖掘任务分类有:关联规则挖掘,序列模式挖掘,聚类数据挖掘,分类数据挖掘,偏差数据挖掘和预测数据挖掘等类型,各类数据挖掘任务不同,采用的方法和技术也将会不同。

二、数据挖掘的主要功能

(一)自动预测趋势和行为功能。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据库提供。

(二)关联分析功能。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联,时序关联,因果关联,关联分析的目的是找出数据库中隐藏的关联网。

(三)聚类功能。数据库中的记录可被化为分一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

(四)概念描述功能。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

(五)偏差检测功能。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

三、数据挖掘技术的途径

(一)数据挖掘的一般过程。数据挖掘的过程一般可分为:数据选取、数据预处理、数据转换、数据挖掘、模式解释和知识说不准三等知识的作用等等。

(二)数据挖掘的常用方法。数据挖掘的常用方法主要包括:关联分析,聚类分析,分类分析,分布分析与趋势预测。

四、数据挖掘的方法

(一)归纳学习法。归纳学习方法是目前重点研究的方向之一,研究成果众多。从采用的技术上看,分为两类“信息论方法和集合论方法”。信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,所以一般文献中称它为决策树方法,该类方法的实用效果好,影响较大。

(二)仿生物技术法。仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成独立的研究体系,它们在数据挖掘中也发挥了巨大的作用,我们将它们归并为仿生物技术类。

(三)公式发现法。在工程和科学数据库中对若干数据项进行一定的数学运算的相应的数学公式,常见的有物理定律发现BACON经验公式发现系统。

(四)统计分析法。利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和知识,它是一门独立的学科,也作为数据挖掘的一大类方法,包括:常用统计,相关分析,回归分析,差异分析,聚类分析,判断分析。

(五)模糊数学法。模糊性是客观存在的,当系统的复杂性越高,其精度的复杂性越高,其精确化能力便越低,这就意味着模糊性越强,利用模糊集合理论进行数据挖掘的方法有:模糊模式识别,模糊聚类,模糊分类和模糊关联规则等。

(六)可视化技术。可视化技术是一种图形显示技术,例如,把数据库中多维数据变成多种图形,这对于揭示数据中内在本质以及分布规律起到很强的作用,对数据挖掘过程可视化,并进行人机交互可提高数据挖掘的效果,可视化方法有以下几种:提取几何图元,绘制,显示和演放。

五、数据挖掘的应用简析

数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持,信息管理,科学研究等许多领域。

(一)在金融企业领域中的应用。

(二)在商业零售业中的应用。

(三)在工业生产中的应用。

(四)在生物与医学中的应用。

六、数据挖掘与统计学的关系

数据挖掘是一个年轻的领域,从技术上讲,数据挖掘集人工智能,统计学,数据库管理,数据仓库,可视化,并行计算。决策支持为一体,利用数据库,数据仓库技术存储和管理数据,利用统计学方法和人工智能分析数据,对数据挖掘技术在统计工作中应用的研究,可以使统计学适应大数据时代数据量的变化,挖掘出更多更有意义的数据信息,值得欣慰。

(一)数据挖掘是智能化统计。统计工作中应用数据挖掘是十分有必要的,数据挖掘可以说是统计工作借助于信息技术的发展延伸。

(二)数据挖掘的新特征推动统计学进一步发展。数据挖掘处理有以下特征:数据量大且维数高,数据结构复杂化,数据类型多样化等,数据挖掘的各种特征推动统计工作结合计算机技术进一步发展。

七、统计工作中应用数据挖掘技术的适应性分析

(一)综合应用型强。数据挖掘技术是一种能满足统计数据者特性数据需要的,综合应用型强的技术手段,不断促进统计工作向应用深度和范围广度上扩展。

(二)实际有效性高。数据挖掘具有稳定的工作性能,是一种目的明确的数据深加工技术,不仅能对统计工作的数据进行分析整理,更能通过聚类分析,神经网络等技术手段挖掘更深层次更有用的信息。在实际的统计工作应用中展现出的实际有效性很高。

(三)技术适用性高。统计工作需要强大的数据库,这为挖掘技术应用在统计工作中提供了平台,数据挖掘技术在此整合,保证统计工作统计工作信息的有效性,精确性,可以获得更深层次的信息资源。

八、数据挖掘技术在统计工作中的应用前景

数据挖掘技术在统计工作中的应用主要有以下几个方面

(一)开发数据挖掘系统。

(二)提升数据挖掘质量。

(三)简化数据挖掘结果。

(四)数据挖掘的保密性和安全性。

结束语

在国家的经济发展中,统计工作至关重要,随着数据挖掘技术在政府统计工作中应用的不断深入,对数据的统计分析也有更高的标准和更高的质量要求,在统计工作中充分利用数据挖掘技术,将带来巨大的经济效益和社会效益。

参考文献:

[1]王恂,基于数据挖掘技术的统计工作创新研究。无线互联科技,2015(4)

[2]岳悦,浅谈数据挖掘技术在经济统计中的应用。经营管理者,2015(30)

[3]赵慧,数据挖掘在统计工作中的应用前景分析。科技资讯,2017,14。