基于Python爬虫技术分析-中国期刊网

首页 > 《中国科技信息》 > 2023年12期 > 基于Python爬虫技术分析

（整期优先）网络出版时间：2023-10-15

作者: 吴泳龙

建筑科学 >建筑技术科学

打印

同系列资源

/ 2

基于Python爬虫技术分析

吴泳龙

重庆机电职业技术大学，重庆 404100

摘要：随着信息技术的发展，网络数据成为一种重要资产，如何快速有效地提取和分析数据是目前该研究领域的热点。应用Requests技术分别开发了商品评论、百度贴吧图片爬虫，优化了爬虫算法，并为用户提供了有效的信息参考。下面本文就Python爬虫技术进行简要探讨。

关键词：Python；爬虫技术；

1 爬虫技术介绍

使用Requests、Scrapy和Selenium技术开发的网络爬虫，由于抓取的原始数据格式包含HTML、XML和JSON，因此对目标数据的获取要辅以其他技术解析并持久化保存。

1.1 Requests技术

Requests技术属于爬虫基础性工具包，它模拟人输入网址向服务器递交网络请求，实现自动爬取HTML网页页面信息的功能。根据HTTP协议对资源的六大操作方法，Requests配备对应的GET、POST、HEAD、PUT、PATCH、DELETE六个基础方法和一个REQUEST通用方法，具有HTTP连接池自动化、持久Cookie会话、SSL认证等基本功能。

1.2 Selenium技术

Selenium技术是一个基于Web应用程序且支持浏览器驱动的开源自动化测试框架，其运行过程就是一个可视化地模拟人输入网址、滚动鼠标、点击等动态的操作过程，能够对Chrome、Firefox、IE等浏览器中的对象元素进行定位、窗口跳转及结果比较等操作，具有执行网页JS加载、Ajax动态异步等技术，能做到可见即可爬，支持Python、Java、C#主流编程语言二次开发。

1.3 Scrapy技术

Scrapy技术是一个网站数据爬取和结构性数据提取的应用框架，包含引擎、调度器、下载器、解析爬虫、项目管道五个模块和下载器、解析爬虫两个中间件。该技术框架已设计了爬虫通用的数据和业务接口，方便根据业务需求聚焦爬取、解析、下载、存储等操作。

1.4 其他辅助技术

网络爬虫爬取初始数据后需要进行解析，常用的技术如下：(1)Xpath库，它能够对特定数据进行定位，以更好地获取特定元素，通常存储在XML文档中，在一定程度上起着导航作用。(2)RE正则表达式库，它通过规定一系列的字符及符号来进行数据筛选，实现图片、视频和关键字的搜索，进而实现信息的爬取。(3)BS4库，它运用HTML解析策略，把HTML源代码重新进行格式化，方便使用者对其中的节点、标签、属性等进行操作，完成网站数据的抓取、筛选操作。(4)JSON库，它是一种轻量级的数据交换格式，采用对象和数组的组合形式表示数据，用于将数据对象编码为JSON格式进行输出或存储，再将JSON格式对象解码为Python对象。

2 网页爬虫

2.1 爬取网站上的相关信息：爬取网站“京东”的首页，并且输出到文件中运用爬虫技术的一般流程，按照要求，运用 Python 提供的相关库的函数，按照步骤完成。