论基于网格的信息集成

(整期优先)网络出版时间:2019-04-25
/ 2

摘 要:在现代社会,信息集成是计算机领域的重要研究课题之一。而进入21世纪后,新网格作为计算机人的一种理想,一直被人们追求着。随着各种基础理论和科学计算的需求,网格的研究越来越受到重视。网格计算从数据网格发展到信息网格,并对知识网格的认识越来越明确。信息集成对异构资源提供统一的表示、存储、查询和管理,在新的情况下为网格中的异构资源整合提供了一条有效途径,在研究中,主要方法有物化(Materialized)和虚拟(Virtual)两种。由于资源本身的动态性,在使用中使得虚拟方法更加适合对网格资源进行集成;然而网络传输成为了制约其查询效率进一步提高的主要因素之一。本文主要的研究内容是:通过资源缓冲和 Agent 的交互协作,提高了系统的并行性,在基于资源聚类的优化策略基础上,改善了信息集成中网络传输带来的效率问题。
  关键词:信息网格;信息集成;Multi-Agent
  
  1. 背景概述
  1.1 网格技术
  网格技术起源于20世纪90年代的美国。美国政府开始实施的著名的的分布式超级计算(Distributed Supercomputing)项目I-WAY.从1993年开始,高性能计算技术和互连网技术进一步融合,酝酿产生了继因特网、Web之后的第三大技术浪潮。网格在刚刚开始的时候被想得像插座一样,“插上插头”就能源源不断地获得计算能力。现在,网格早已远远超出了计算的范畴。除了计算网格外,数据网格、仪器网格、虚拟现实网格、服务网格、信息网格、知识网格等,将网格应用扩展到方方面面。网格的应用领域主要有五个方面:分布式超级计算、分布式仪器系统、数据密集型计算、远程沉浸和信息集成。在1994年秋季举办的COMDEX大会上,比尔·盖茨曾经预言,2005年将实现“信息随手可得”的目标。事实已经证实了比尔·盖茨的预言。
  1.2 网格性质
  网格是将广域的、动态的、异构的计算资随着网格技术的不断发展,网格中的资源多样化也随之而来。信息网格中的资源由于其异构性、分布性和动态性,使得网格环境下的异构信息集成越来越迫切的为人们所需要,异构资源的整合已经成为了目前学界的研究热点。在人们以往研究的数据级的集成层面上,信息集成技术仍然是必选的方法。信息集成技术主要包括物化(materialized)和虚拟(virtual)两种方法,随着信息资源的种类范畴从单纯的关系型资源延伸到半结构化的 XML 文件资源、甚至非结构化的文本资源,虚拟方法的不定性和可扩展性使其优势日渐凸显,但是现在WEB的过多运用,家庭计算机网络的增多,过多的网络传输负载成为了制约其优势效率发挥的因素之一。
  第三代网格的三个重要特征是分布全局合作,元数据和面向服务的方法。第三代网格具有很强的自动意义:①包含元数据组件和整体网格状态的详细知识;②自动地构建网格系统;③寻求各种优化行为来获得效率最优化目的;④感知它的环境。由于 Agent 本身的特点,使得基于 Agent 的计算特别适合于具有动态改变环境重要属性的第三代网格。
  1.3信息集成技术概述
  信息集成是对各种异构资源信息提供统一的表示、存储和管理,信息集成屏蔽了各种异构资源间的差异,通过信息集成平台对其进行统一的处理。信息集成技术是解决目前普遍存在的“信息孤岛”问题的重要方法,所谓“信息孤岛”,即网格异构资源之间是独立的、特殊的,不能有效地进行信息交换和共享。而信息集成系统在全局应用上为用户提供了统一透明访问己存在的自治、分布和异构资源的方法,这些异构资源包括各种类型的 DBMS,XML 文档以及普通文件等结构化、半结构化和非结构化信息。因此信息集成技术可以在网格的条件下继续进行扩展,最重要的是可以在同时解决“信息孤岛”这个现在成为过街老鼠,人人喊打的问题。 2. 信息集成系统问题的研究
  信息集成系统简单地说就是将多个分散的,异构的,领域相关的信息(单点)集成在一起,为用户提供一个统一的访问界面,支持用户在全局模式上对集成的多个资源进行全局查询,其应用系统具有多层体系结构,根据中间层的实现方法不同,信息集成系统可以划分为:1) 物化(materialized)集成系统; 2) 虚拟(virtual)集成系统。由于用户只需获得即时的查询结果,且数据源中的数据频繁更新、集成操作各异,或资源仅仅提供了有限的访问方法以及全局模式经常变动的情况下,因此我认为:虚拟集成系统(VIIS)显然比数据仓库(DW)要有效的多。VIIS 基于的是一个中间模式,数据仍保留在局部资源中,在全局不占用更多的空间和资源,在全局的效率上不会对用户造成影响,用户在中间模式上提交的查询语句,不需要了解每个数据源的特点,中间层的查询执行引擎直接与数据源或数据的包装程序(wrapper)交互,将基于中间模式的查询分解重构成对多个局部数据源的直接查询,并在数据源处执行查询语句,中间层对查询结果进行合并返回给用户。因此,虚拟方法更适用于资源数目多、安全性能要求高、各资源的自治性很高、资源异构且局部数据经常变化的网格环境。与 DW 相比,VIIS具有如下优点:1.VIIS 能够集成有限访问模式的资源。2. VIIS 支持用户的实时访问,并可以针对不同的用户提供不同的中间模式。3. VIIS的全局占用和局部数据的占用比率最为小。


  
  3. 基于 Multi-Agent 的信息集成技术
  将 Multi-Agent 技术应用在信息集成技术系统中,如此引入,主要基于以下两个目的 1)使得信息集成操作尽可能的本地化,从而提高效率,尽可能的减少网络传输所带来的巨大负载。2)使得查询访问的处理更加的分散化与合理化,Agent 之间通过互相的协调,在整体间搭建了各个桥梁,使得各个数据元之间,共同完成信息集成的工作,并使得负载相对均衡,增加了信息集成系统的智能性。
  在非 Multi-Agent 系统中,容易出现用户的每一次查询,系统都要去相应的资源缓冲站点中取得所有相关资源的数据,然后将所有的资源的数据全部发回给查询计划执行引擎,在得到确定之后,查询计划执行引擎在确定所有的信息都被正确的传送到达之后,对所有的数据进行相应的集成,所有的集成的工作量全部都集中在集成查询系统中,使之成为了一个网状型结构的中心,因此受到效率的制约,往往不能非常高效和快速的给用户返回查询的结果,特别是这样的查询系统中返回的数据并不能保证完全的准确。且在非 Agent 系统中,集成操作是有查询计划执行引擎单独完成的,计算没有被有效并行化和全部化。将 Multi-Agent 技术引入到系统中来,使的原本需要全部集中完成的信息集成操作被分布式执行了,系统的负载更加均衡了,每个 Agent 被下放到各个资源缓冲站点后,主要有两个好处:1) 集成的计算量被分布到资源缓冲站点上完成,使得集成操作被分布式执行,提高了系统的并行化 2) Agent 在缓冲站点进行本地的信息集成,相对于网络传输,因此省去了大量的冗余网络传输,大大地提高了效率。
  
  4. 结论
  随着网格技术的不断发展,网格技术的更新也被更多的人所提出,网格中的资源多样化也随之而来。信息网格中的资源由于其异构性、分布性和动态性,使得网格环境下的异构信息集成越来越迫切的为人们所需要,异构资源的整合已经成为了当前研究热点。因此本文将 Multi-Agent 技术引入到信息集成系统中,通过 Agent 本地操作减少网络负载;并在此基础上认为Multi-Agent技术,特别是该技术的运用,可以提高本地操作的命中率,从而大大地提高了系统的性能。
  
  参考文献
  [1]徐志伟,冯百明.网格计算技术,北京:电子工业出版社,2004
  [2]桂小林,钱德沛,基于Internet的网格计算模型研究,西安交通大学学报,2005
  [3]张艳,孙世新,彭文钦.网格多处理机的一种改进的子网分配算法闭,软件学报,2006
  [4]王汝传,姚旭敏,王海艳.网格计算在分布式虚拟环境中的应用,重庆邮电学院学报(自然科学版),2005
  [5]徐志伟,李伟织女星网格的体系结构研究,计算机研究与发展,2002
  [6]禄昭义,王思明.计算机通信网信息量理论,北京:电子工业出版社,2005