基于 Python的网络爬虫程序设计

在线阅读 下载PDF 导出详情
摘要 摘要:网络信息量的迅猛增长,从海量的信息中准确的搜索到用户需要的信息提出了极大的挑战。网络爬虫具有能够自动提取网页信息的能力。对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用 Scrapyredis对爬虫进行拓展,利用 Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。
出处 《科学与技术》 2019年22期
出版日期 2020年07月01日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献