学科分类
/ 1
3 个结果
  • 简介:网页去是提高网络检索效果的有效途径。针对现有网页去算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去效果。

  • 标签: 网页去重 逻辑段落 长句提取 句子相似度
  • 简介:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detectnear—DuplicateWebPages)。试验证明,比起其他网页去算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

  • 标签: 网页去重算法 特征向量 近似网页 支持向量机
  • 简介:80年代以来,世界上几乎所有发达国家都已相继建成了国家级的教育和科研计算机网络,并相互连成覆盖全球的国际性学术计算机网络INTERNET。这种全球计算机信息网络的产生跨越了“地理位置的束缚”,加快了信息传递速度,为学校图书馆教师和学生,以及科研人员提供了一个全新的网络计算环境,从根本上改变并促进了他门之间的信息交流、资源共享、科学计算和科研合作,成为这些国家教育和科研工作的最重要基础设施之一,促进了这些国家教育和科研事业的迅速发展。近两年来,许多发达国家为进一步保持其在经济

  • 标签: 图书情报工作人员 科研计算机网络 中小学 科研工作 教育建设 科研人员