从数据中发现不确定性知识研究

(整期优先)网络出版时间:2010-02-12
/ 3

从数据中发现不确定性知识研究

杨庆仙,宋绍云,唐合文

杨庆仙①YangQingxian;宋绍云②SongShaoyun;唐合文②TangHewen

(①云南交通职业技术学院,昆明650101;②玉溪师范学院信息技术工程学院,玉溪653100)

摘要:从数据中发现不确定知识并进行量化一直是研究的难点,在阐述不确定性知识概念的基础上,λ构造叠加算子,并应用该算子从实际例子中发现不确定性知识,从结果可以看出,该算法得到的不确定知识可靠性较高。

关键词:数据挖掘;不确定性;知识表示;知识处理

中图分类号:TP183文献标识码:A文章编号:1006-4311(2010)05-0154-03

0引言

当今是一个数据泛滥的时代,虽然我们能从大量的数据中来获取知识,并用得到的知识进行决策和预测等工作,但从庞大数据中获得的知识是匮乏的,由于现实世界中客观事物或现象的不确定性,导致了人们在认识领域中的信息和知识大多是不精确的,知识真正是,并永远是不确定的[1]。

1数据与知识

数据是客观事物的符号表示,它被看作自然对象,其主要形态有数字、符号、图形、图像、声音数据,主要组织有结构化、半结构化和非结构等。

知识是人类(或系统)对信息(数据)加工后产生的高级产品,知识可以表示成各种形式:规则、科学规律、方程或概念网。主要有两类知识的来源,首先是经验知识(专家知识),主要是针对特定领域的问题求解,不仅依赖于特定领域确定的理论知识,而且更多地依赖于专家的经验和常识。由于现实世界中客观事物或现象的不确定性,导致了人们在各认识领域中的信息和知识大多是不精确的,这就要求专家系统中知识的表示和处理模式能够反映这种不确定性。其次的知识来源是数据中挖掘的知识,其主要对象是数据,面临的问题是怎样通过推理发现数据中隐藏的知识,以便提供决策,主要的手段是通过不确定性方法(模糊集、粗糙集、概率、信息熵等)来获得数据中的知识。

2知识发现

知识发现是指从数据集中抽取和精炼有用的模式。

2.1知识发现的任务

数据总结:对数据进行总结与概括。传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值或者用直方图、饼状图等图形方式表示。

聚类:根据数据的不同特征,将其划分为不同的类,属于无导师学习。

分类:根据分类模型对数据集合分类,即将给定对象划归于某个类。分类(Classification)是知识发现中一项非常重要的任务,是一种有指导的学习(机器学习中的称谓)。

偏差分析:基本思想是寻找观察结果与参照量之间的差别。通过发现异常,可以引起人们对特殊情况的加倍注意。

建模:构造描述一种活动或状态的数学模型(如贝叶斯模型)。

2.2问题的不确定性

随机性:主要用概率论来揭示随机现象的统计规律性。

模糊性:主要用模糊集和粗糙集来揭示模糊现象的规律性。

随机性和模糊性是不确定性的两个方面,确定性可以被看作是不确定性的特例。

2.3知识发现的方法

知识发现方法主要有:传统方法(回归分析、聚类分析等);模糊集方法;粗糙集方法和机器学习(规则归纳、决策树、范例推理、支持向量机、神经网络、贝叶斯信念网络等)。下面介绍粗糙集方法的应用。

3粗糙集的应用

3.1粗糙集简介

粗糙集作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备信息的有效工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论)。基于粗糙集的方法可用于:近似推理、信息检索、机器学习和数据挖掘等。

3.2属性约简

3.2.1基本概念

设,U:为非空对象集,称为论域。R:为U上的等价关系,且其具有以下性质。

自反性:(a,a)∈R;

对称性:if(a,b)∈R,then(b,a)∈R

传递性:if(a,b)∈R,(b,c)∈R,then(a,c)∈R

由U上的等价关系R定义U上的划分,每个划分块称为等价类。U/R定义为由R导出的等价类。[x]R定义为包含对象x的等价类。

例1:设U={x1,x2,…,x8}为积木集。

设R1:颜色(红,黄,蓝)

R2:形状(方,圆,三角)

R3:体积(大,小)

那么:U/R1={红(x1,x2,x7),蓝(x4,x5),黄(x3,x6,x8)}

U/R2={圆(x1,x5),方(x2,x6),三角(x3,x4,x7,x8)}

U/R3={大(x2,x7,x8),小(x1,x3,x4,x5,x6)}

设U为论域,R={R1,R2,R3}是U上的等价关系簇,则{R1,R2,R3}的交也是等价关系,记为Ind(R)。

定义1:设R={R1,…,Rn}。若U/ind(R)=U/ind(R-{Ri}),则Ri称为R上的冗余关系。

定义2:设P,Q是两个等价关系,且Q?哿P。如果Q中没有冗余关系且U/ind(P)=U/ind(Q),称Q是P的约简。

定义3:设P和Q是两个等价关系。Q依赖于P,记为P?圯Q,当且仅当U/ind(P)?哿U/ind(Q)。

定义4:Q对P的依赖度记为d(P?圯Q),d(P?圯Q)=|POSP(Q)|/|U|,其中POSP(Q)称为P关于Q的正域,即P中被包在Q中的对象,|U|是U中对象数,|POSP(Q)|是P中被包在Q中的对象数。

3.2.2属性约简的应用

例2:设有如表1所示的病历表。

U=(e1,e2,…,e8)是对象集(病人),A={A1,…,A4}是U上的属性集。C=(A1,A2,A3)称为条件属性,D=(A4)称为决定属性。

则:

U/A1={(e1,e2,e3),(e4,e5,e6,e7,e8)}

U/A2={(e1,e2,e3,e4,e6,e8),(e5,e7)}

U/A3={(e1,e4),(e2,e5,e7),(e3,e6,e8)}

U/ind(A1,A2,A3)={(e1),(e2),(e3),(e4),(e5,e7),(e6,e8)}

U/ind(A1,A3)={(e1),(e2),(e3),(e4),(e5,e7),(e6,e8)}

(A1,A3)是C的约简,我们可以删去表中的A2属性。

3.3属性依赖的应用决策属性对条件属性的依赖度,是条件属性重要程度的衡量。在评价某属性的重要程度时,除要依据本属性(单一属性)的重要程度,还要依据该属性与其他属性构成的属性集的重要程度。目前,绝大多数文献对依赖度的研究,限于求解单一属性依赖度,认为单一属性依赖度为0的属性对决策表并无贡献,在约简时将其舍弃。然而,通过研究得知,把单一属性依赖度为0的属性删除,往往会造成知识的丢弃。因此,研究两个或两个以上属性构成的属性集依赖度,具有更加重要的意义。下面我们从聚类、关联度确定和关联度叠加对植物分布的实际例子进行研究。关于聚类,可以采用模糊聚类等方法,这里我们主要关注关联度确定和关联度叠加。

3.3.1关联度确定

例3:植物分布表(表2)

根据表2有,样本集T={t1,t2,…,t8},属性集C={A1,A2,A3}为条件属性,D={B1,B2,B3}为决定属性集,A1的值域dom(A1)={a1,a2,a3},A2的值域dom(A2)={b1,b2,b3,b4},A3的值域dom(A3)={c1,c2,c3}

3.3.1.1基于Ai的T的划分直观地,基于属性A1可将T分为:{(t1,t2),(t3,t4,t5,t6),(t7,t8)},基于Ai的T的划分记为IND(Ai)。

将IND(Ai)中第K个等价类记为Ajk,IND(A1)={A11(t1,t2),A12(t3,t4,t5,t6),A13(t7,t8)}。Ajk和Bnm的交记为Pos(Ajk,Bnm),Pos(Ajk,Bnm)中对象数目记为|(Pos(Ajk,Bnm))|,则有:

IND(A1)={A11(t1,t2),A12(t3,t4,t5,t6),A13(t7,t8)}

IND(A2)={A21(t1),A22(t2,t7,t8),A23(t3,t4),A24(t5,t6)}

IND(B1)={B11(t1,t2,t3,t4,t7),B12(t5,t7),B13(t6)}

IND(B2)={B21(t1,t2,t4,t8),B22(t3,t5,t6),B23(t7)}

IND(B3)={B31(t1,t2,t3,t7,t8),B32(t4,t5),B33(t6)}

Pos(A11,B11)={t1,t2}|(Pos(A11,B11))|=2

Pos(A11,B12)={Φ}|(Pos(A11,B12))|=0

3.3.1.2关联度假定a1:气根,f1:半潮湿,f2:干旱,f3:潮湿。直观地,a1只生活f3地区,说明a1与潮湿环境联系密切。a1生活在f3地区,同时能生活在f2和f1地区,说明a1与潮湿环境没什么联系。

考察f1时:

f2相对于f1的贴近程度记为SP(f1,f2),SP(f1,f2)是f2相对于f1的权,记为w12,当然W11=SP(f1,f1)=1。

定义5(关联度定义):Ajk对Bnm的关联度记为λ(Ajk,Bnm),λ(Ajk,Bnm)=|(pos(Ajk,Bn1)|*w1+|(Pos(Ajk,Bn2)|*w2+…+|(pos(Ajk,Bnm))|*wm]/|(Ajk)|。

考察λ(A12,B22),其中A12=a2,B22=f2,(即深根植物(a2)与降水少地区(f2)的关系,表3)。

设w1=SP(f1,f2)=0.4,w2=SP(f2,f2)=1,w3=SP(f3,f2)=0,由表3可以看到a2分布于f2地区有3个对象,分布于f1有1个对象,分布于f3有0个对象。

则有λ(A12,B22)=|(Pos(a2,f1)|*w1+|(Pos(a2,f2)|*w2+|(Pos(a2,f3)|*w3]/4=(1*0.4+3*1+0*0)/4=3.4/4=0.85

3.3.1.3λ的折叠算子关联度λ∈[0,1],希望将其扩展到[-1,1],设μ(Aij,Bnm)=(λ(Ajk,Bnm)-0.5)/0.5即对λ进行平移和放大。0<μ≤1表示Aij适于环境Bnm;-1≤μ<0表示Aij不适于环境Bnm;μ=0表示Aij与环境Bnm没关系。

μ也称为关联度,λ的折叠算子应满足以下性质:

μ1?茌μ2=μ2?茌μ1

(μ1?茌μ2)?茌μ3=μ1?茌(μ2?茌μ3)

ifμ1>0,μ2>0thenμ1?茌μ2>max(μ1,μ2)

│μ1?茌μ2│?燮1

ifμ1<0,μ2<0thenμ1?茌μ2<min(μ1,μ2)

if│μ1│=1thenμ1?茌μ2=1

3.3.2构造λ的叠加算子

定义6:我们把μ1?茌μ2=μ1+μ2+sig(μ1*μ2)称为关于μ1和μ2的叠加算子。

其中

sig=1(μ1<0∧μ2<0)or(μ1>0∧μ2<0∧│μ1│<│μ2│)-1(μ1>0∧μ2>0)or(μ1>0∧μ2<0∧│μ1│>│μ2│)0(μ1>0∧μ2<0)∧│μ1│=│μ2│

实例:设美人蕉的基本属性如表4,根据前面知深根与降水之间的关系如表5,预测美人蕉的适应环境。

λ(a2,f2)=(1*0.4+3*1+0*0)/4=3.4/4=0.85μ(a2,f2)=0.7,从表7可以得到美人焦适应环境为表6。

4结论

从表7可以看出,美人蕉λ叠加结果为0.93,可信度较高。不确定性人工智能是未来可能取得重大突破的研究方向。虽然已有许多不确定性知识表示和处理方法,但这些方法有些仍在发展中,在有些实际问题中的应用还需进一步研究。本文提出的叠加算法,希望能够给不确定实质的研究者提供一个参考。

参考文献:

[1](美)沃勒斯坦著,王昺等译.知识的不确定性[M].山东大学出版社,2006-1-1.

[2]李凡.专家系统中的不确定性[M].气象出版社,1992.

[3]WangDaopingetc.StudyontheClassificationandDisposalofUncertainKnowledgeinIntelligentFaultDiagnosisSystems[C].Pro.Ofthe3thWCIIC&A.2000,Heifei,P.R.China.

[4]吴泉源,刘江宁等.人工智能与专家系统[M].国防科技大学出版社,1995.

[5]武波,马玉祥.专家系统[M].北京理工大学出版社,2001.

[6]虞和济等.故障诊断专家系统[M].冶金工业出版社,1991.

[7][日]末木刚博等著,杜柚石,孙中原译.理代逻辑学问题[M].中国人民大学出版社,1983.

[8]JohnF.Sowa.ConceptualStructure.UK:ADDISON_welslely,1984.

[9]曾黄磷.粗糙集理论及其应用[M].重庆大学出版社,1998.

[10]黄文虎.设备故障诊断原理、技术及应用[M].科学出版社,1996.

[11]赵克勤.集对分析及其初步应用[M].浙江科学技术出版社,2000.