网页指纹查重技术的研究

(整期优先)网络出版时间:2014-05-15
/ 2

网页指纹查重技术的研究

张晓伟

张晓伟ZHANGXiao-wei(泰山职业技术学院,泰安271000)(TaishanPolytechnic,Taian271000,China)

摘要院网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关键词在网页中出现的频率来判断网页是否重复,如果关键词相近,可能造成查重误判的情况。本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率。

Abstract:Webpagefingerprintcheckingisakeytechnologytoscanandgetusefulinformation.Thetraditionalmethodofwebpageduplicatedetectionselectsthefrequencyofoccurrenceofkeywordsasthestandardtoverifywhetherit’sduplicate,thesimilarkeywordsmaymisleadtheduplicatedetection.Thispaperproposedtheuniquewebpagefingerprinttechnology,designednewdetectionalgorithm.Comparingwithwebpagefeatureoffingerprint,thepapercompletesthewebpagerepeat-checkingworkandimprovestheaccuracyofduplicatedetection.关键词院网页指纹;网页查重;位置向量Keywords:webpagefingerprint;webpageduplicatedetection;positionvector中图分类号院TP393.0文献标识码院A文章编号院1006-4311(2014)15-0225-020

引言当今世界处于互联网信息时代,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题。用户浏览不同网站目的是查找需要的信息,实际情况是大量信息在各网页间转载,存在数量众多内容重复的网页,用户要获取的信息中存在许多近似网页,既增加了时间又加重了用户的负担,降低了搜索和浏览的效率。

因此,在搜索网页信息的过程中,要增加一项对网页内容的查重步骤,去除内容重复网页,这就需要设计一种有效的网页查重检测算法,便于准确有效检测出近似网页。

早期的SCAM查重技术,主要技术是通过待检测网页中某些字词的出现次数,可称之为关键词,把这些关键词及对应出现频率与库存特征库中的信息进行比对,如果相近似的程度超过一个设定的阈值,则可判定此网页是重复或已浏览过的重复网页。

在传统查重技术中,如果选定的关键词名称及数量不合适,可能出现关键词非常近似,网页被误判成重复网页,造成网页被筛除而不能被用户浏览,不能得到所需信息,也就不能满足用户的准确需求。设想对提取的关键词加以改进,不是简单依赖网页的某些关键词,而是对被检网页提取它的独特结构,称之为网页指纹,使其具有本网页唯一性,通过与网页指纹特征库中的指纹比较,通过相似度来判断网页是否重复,减少了传统检测中只依赖关键词产生误判的情况发生,提高检测准确率。

1查重原理互联网上的站点数量众多,实际情况是,有很多网站是转载信息,用户要通过网上区获取信息,理想要求是准确快速进行搜索定位到有用信息,由于重复网页的大量存在,用户搜索到所想要的信息浪费了大量时间和精力。要缩短时间提高搜索信息效率,网页查重是搜索领域的关键技术问题。网页查重的一般过程如图1所示。

淤提取特征关键词,对网页进行预处理,设关键词用Ki(Q)(i=1,2,…N)表示,N为选取信息特征关键词的个数,用Ki(D)(i=1,2,…N)表示网页特征库的特征信息。

于将Ki(Q)与Ki(D)比较计算,得到关键词数据的相似度s,即:s=Ni=1移Ki(Q)伊Ki(D)移Ni=1K2i(Q)伊移Ni=1K2姨i=1(D)(1)盂设定合适的相似度阈值囟,则有:s逸囟网页重复s<囟非重复可以看出,传统的SCAM技术的算法简单,判断网页是否重复的操作步骤的关键是如何选取合适的网页特征信息作为关键词。如果用户浏览了相近似的网页,关键词就会非常相近,相似度会接近1,出现误判为相似网页,结果是网页被查重掉,用户不能浏览到此网页。

如何完善改进传统方法存在的不足,设想把依赖网页关键词改为网页的独特结构,就好比指纹一样具有唯一性。因此,把网页中的关键词、位置向量、出现次数作为该网页的特征信息,称之为网页指纹,在与特征库中的指纹进行比较,通过比较提高查重的准确率及效率,避免了只依赖关键词查重而造成误判的情况发生。

2网页指纹算法网页重复主要是指网页中的正文内容,不包括网页导航栏、视频、图片、广告信息等条目。如果网页中的正文可能存在转载方式,与原网页内容一致,就容易误判为重复。

2.1网页预处理查重之前的工作是对网页中各种链接、图片信息、广告信息删除,去掉所有噪声,只保留网页的纯文本信息。下一步要对纯文本信息进行统一的归一化处理,利用语法规则,对标点符号、英文字母、空格、回车符等分隔符进行一致优化,保证对文本的信息提取时的准确量化。为了提取网页指纹信息,运用信息检索技术,得到被检测网页中关键词的频率集合F越{F1,F2,F3…Fm},从中选取前n个(n<m)频率大的关键词作为网页指纹的关键词F越{F1,F2…Fn};下一步确定这n个关键词的位置向量集合T越{T1,T2…Tn}。关键词F及对应的向量T组成网页指纹Ki(Q),即:Ki(Q)越{K1(F1,T1),K2(F2,T2)…Kn(Fn,Tn)}。

2.2网页指纹算法利用提取有特征的网页指纹Ki(Q)与特征库的指纹信息Ki(D)进行计算比较,利用公式(1)得到相似度s,再与设定的阈值囟比较,得出网页是否重复,提高网页查重的准确率。网页查重算法流程为:淤第一步对被检测网页预处理,对链接、广告、图片等噪声进行去噪处理。得到纯文本信息。于对关键词及位置向量进行提取,构成网页指纹信息。盂比较网页指纹信息,计算相似度。榆与设定阈值囟比较得出是否为重复网页。

网页查重算法流程如图2所示。

3结束语本文提出的利用关键词及位置向量结合构成网页指纹的算法,避免了传统查重技术中只有关键词而造成的准确率不高的情况发生,提升了查重效率,提高了用户浏览网页信息的准确度和效率。

参考文献院[1]王希杰.一种基于网页指纹的网页查重技术研究[J].计算机仿真,2011(9):154-157.[2]马成前,毛许光.网页查重算法shingling和simhash研究[J].计算机与数学工程,2009,37(1):15-17.[3]白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005(07).