简介:网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。
简介:以英国和澳大利亚少儿图书内容索引情况为线索,从其少儿图书内容索引的研究、政策支持、普及程度、编制质量等角度,介绍其先进于我国的方面,旨在为我国少儿图书内容索引的发展提供启示。
基于网页正文逻辑段落和长句提取的网页去重算法
西方少儿图书内容索引介绍及对我国的启示——以英国和澳大利亚为例