Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战

【实验内容】

本实验主要介绍和使用selenium库在js动态加载网页中数据采集的作用。

【实验目的】

1、理解动态加载网页的概念

2、学习Selenium库基本使用

3、掌握动态加载数据采集流程

【实验步骤】

步骤1理解动态加载网页

步骤2学习使用Selenium库

步骤3 采集河北政府采购网

步骤1:理解动态加载网页

动态加载网页是指在页面初次加载完成后,通过JavaScript等前端技术,根据用户的交互或其他触发条件,向服务器请求额外的数据并将其加载到已有页面中,而无需刷新整个页面。这种技术使得网页能够更快地响应用户操作,提升用户体验,同时避免了每次交互都重新加载整个页面的开销。以下是一些常见的动态加载网页的情形:

异步加载: 通过AJAX(Asynchronous JavaScript and XML)等技术,网页可以在后台异步加载数据,然后使用JavaScript更新页面的部分内容,而无需重新加载整个页面。

无限滚动: 在一些网页中,当用户滚动页面到底部时,会自动加载更多的内容,实现无限滚动效果。

实时更新: 一些网页需要实时显示最新的信息,例如社交媒体的实时更新流。上图站长之家就是使用js动态渲染网页,在传统的静态网页爬取中,爬虫工具通常只能获取页面初次加载时的静态内容,而无法直接获取动态加载的数据。

步骤2:学习Selenium库基本使用

(1) 介绍

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等...进而拿到网页渲染之后的结果,可支持多种浏览器

(2) 安装Selenium库:

/============== /

(3) 下载浏览器驱动

根据使用的浏览器下载对应版本的浏览器驱动,例如Chrome浏览器需要下载ChromeDriver。将驱动文件保存在一个合适的位置。

下载地址:

/=================================== /
(4) 初始化Selenium WebDriver

在Python脚本中使用Selenium库,初始化一个WebDriver,指定浏览器类型和驱动路径。

-***************************************************************

(5) 访问目标网址

使用WebDriver访问需要采集数据的目标网页。

-***************************************************************

(6) 模拟用户行为

/====================================================== /

(7) 等待数据加载

由于动态加载可能需要一些时间,需要使用等待机制确保数据加载完成。

-****************************************************

(8) 提取数据

一旦数据加载完成,使用Selenium提取目标数据。

-****************************************************

(9) 关闭浏览器
步骤3 采集河北政府采购网

(1) 分析页面

主页面

地址:http://www.ccgp-hebei.gov.cn/province/cggg/zhbgg/index_1.html


进入主页面后,摁F12打开开发者工具,点击Doc输入关键字学,点击检索按钮,可以出现如上图4步骤所示的接口,preview中可以查看到该接口的返回值。

子页面

/======================================================================================================= /

(2) 解析出子页面信息

导入第三方模块:

/==================================================================================================/


/==================================================================================================/

(3) 获取子页面源代码

导入模块

-***********************************************************************

首先初始化一个Chrome(options=chrome_options) ,创建了一个新的Chrome WebDriver实例,传入配置参数。


/================================================================================================================================================== /

-******************************************************************

/=============================================================================================================================================== /

整个操作是在一个try-except-finally块中进行的,如果出现异常(比如加载超时),会打印一条消息,并在 finally 块中关闭 WebDriver,确保资源被正确释放。

(4) 解析子页面数据下面代码是解析子页面主要标信息字段的代码,使用xpath语法对数据进行提取。

/=================================================================================================================================================== /

-****************************************************************

提取的数据字段最终保存为如下图所示。

-*************************************************************************

(5) 保存为json文件

-*******************************************************************

使用with语句打开文件 "hebei -zhong.json",打开模式为追加模式 a,以UTF-8编码。将JSON格式的字符串 message 写入文件,并添加一个逗号和换行符,以便在后续追加新的JSON数据,这有助于生成一个包含多个JSON对象的有效JSON数组。

生成单个字段完整示例如下:

-*************************************************************************************

相关推荐
Eric.Lee20214 小时前
ubuntu 安装 Miniconda
linux·运维·python·ubuntu·miniconda
无心水4 小时前
【Python实战进阶】1、Python高手养成指南:四阶段突破法从入门到架构师
开发语言·python·django·matplotlib·gil·python实战进阶·python工程化实战进阶
李剑一5 小时前
Python学习笔记1
python
Salt_07287 小时前
DAY 19 数组的常见操作和形状
人工智能·python·机器学习
无心水7 小时前
【Python实战进阶】2、Jupyter Notebook终极指南:为什么说不会Jupyter就等于不会Python?
python·jupyter·信息可视化·binder·google colab·python实战进阶·python工程化实战进阶
上班日常摸鱼8 小时前
Shell脚本基础教程:变量、条件判断、循环、函数实战(附案例)
python
无心水9 小时前
【Python实战进阶】5、Python字符串终极指南:从基础到高性能处理的完整秘籍
开发语言·网络·python·字符串·unicode·python实战进阶·python工业化实战进阶
2301_807583239 小时前
了解python,并编写第一个程序,常见的bug
linux·python
小白学大数据9 小时前
构建混合爬虫:何时使用Requests,何时切换至Selenium处理请求头?
爬虫·python·selenium·测试工具
2401_827560209 小时前
【Python脚本系列】PyAudio+librosa+dtw库录制、识别音频并实现点击(四)
python·语音识别