python爬虫入门案例day05:Pexels

python爬虫入门案例day05:Pexels

目标网站

Pexels

目标网址

https://www.pexels.com/zh-cn/search/日落/

开发环境

1、window11

2、python3.7

3、PyCharm Community Edition 2021.2.1

4、双核浏览器

5、浏览器自带开发者工具

网站分析

复制代码
在下拉网页的过程中发现,会不断加载出新的图片,说明该网页为动态网页,那我们可以初步猜想图片的链接存放在通过Ajax请求的网络数据包中,抓包过程如图:

数据包url规律分析

bash 复制代码
1、https://www.pexels.com/zh-cn/api/v3/search/photos?page=10&per_page=24&query=%E6%97%A5%E8%90%BD&orientation=all&size=all&color=all
2、https://www.pexels.com/zh-cn/api/v3/search/photos?page=11&per_page=24&query=%E6%97%A5%E8%90%BD&orientation=all&size=all&color=all
3、https://www.pexels.com/zh-cn/api/v3/search/photos?page=12&per_page=24&query=%E6%97%A5%E8%90%BD&orientation=all&size=all&color=all
4、https://www.pexels.com/zh-cn/api/v3/search/photos?page=13&per_page=24&query=%E6%97%A5%E8%90%BD&orientation=all&size=all&color=all
5、https://www.pexels.com/zh-cn/api/v3/search/photos?page=14&per_page=24&query=%E6%97%A5%E8%90%BD&orientation=all&size=all&color=all

经过对比发现,只有参数page在变化,且从1开始隔间为1开始递增,可以删除的参数color、size、orientation

请求头分析

先将请求头内容照如图所写,发现返回报错:{'error_messages': ['Bad API credentials.']}

原因是因为网站服务器对gei请求的参数进行了校验,但是请求头中没有找到密钥,于是修改请求头如下图:

响应数据结构分析


bash 复制代码
如上图一眼可以看出,响应数据格式为json数据格式,可以使用jsonpath对json数据进行解析,方便简单且快速

源代码

下载的图片

知识点总结

bash 复制代码
1、requests模块的get方法就是模拟浏览器发起get网络请求,得到服务器返回响应数据,headers中添加了user-agent用来将程序伪装成浏览器,user-agent是浏览器标识,一般服务器都会检查请求头中的user-agent字段的内容;
2、响应数据是字符串格式,但是看起来和json数据一样,使用json.loads()将str格式数据转换为json格式数据;
3、使用jsonpath.jsonpath()方法来对json格式数据进行解析提取出图片名称和图片链接;
4、为了降低爬虫程序对目标服务器造成的压力,要在程序中设置强制随机休眠time.sleep(random.randint(3, 5));
相关推荐
知识分享小能手10 分钟前
Flask入门学习教程,从入门到精通,Flask智能租房——前期准备 知识点详解(5)
python·学习·flask
Curvatureflight13 分钟前
【架构实战】生产级大模型 API 接入指南:流式响应(Streaming)异常处理与监控闭环
python·架构
smj2302_796826521 小时前
解决leetcode第3943题递增后的数对数量
数据结构·python·算法·leetcode
এ慕ོ冬℘゜1 小时前
JS 前端基础面试题
开发语言·前端·javascript
浩少7021 小时前
【无标题】
java·开发语言
deepin_sir1 小时前
06 Chroma_持久化与生产环境部署实战
python
nnsix2 小时前
C# 字符串 根据换行符分割
开发语言·c#
Vallelonga2 小时前
Rust Conversion 工具 trait AsRef AsMut
开发语言·rust
Vallelonga2 小时前
Rust 中的“解引用”和智能指针与 MutexGuard 等
开发语言·rust
小鱼仙官2 小时前
Windonws 视频存储,10s/不限时
开发语言·qt·音视频