解决爬虫在重定向(Redirect)情况下,URL没有变化的方法

重定向是一种网络服务,它可以实现从一个网页跳转到另一个网页的功能。它把用户请求的网页重定向到一个新的位置,而这个位置可以是更新的网页,或最初请求的网页的不同版本。另外,它还可以用来改变用户流量,当用户请求某个网页后,它会将用户请求重定向到一个截然不同的页面,从而达到在流量分发上更有效率的目的。

重定向(Redirect)就是通过各种方法将各种网络请求重新定个方向转到其它位置(如:网页重定向、域名的重定向、路由选择的变化也是对数据报文经由路径的一种重定向)。

打开 https://yanglee.com/information/ 主页 - 资讯这一版,可见 第1页,url 就是这一链接。

当点击第2页后,url 还是那个

打开 "Network",可见这 url 是动态加载的,请求方式是 "POST"

打开 "Form Data" 可以看到,当我们点击时,其实就是通过 这4个参数去发起请求的。其中可见 pageIndex 就是页码。

再点击 第2页后,看看 "Form Data" 的数据参数,pageIndex 变成 2 了

那么通过这样观察,就可以知道每一分页实际的链接。那么链接是什么? 回到 Header 请求头这一版,可以看到 Request URL 是 https://yanglee.com/Action/GetInformationList.ashx,这个也就是 接口。

回到 "Form Data", 刚才看到有4个参数组成,那么完整的请求 url 就是 接口地址?xxx=xxx&xxx=xxx 这样的表达方式。

?后面连接的就是那4个参数,表达形式 xxx=xxx 就是以键值对(key-value) 来表达的,每个key-value之间用 & 符号连接。

从参数的表达形式可见为 xxx:xxx,如果参数少,我们可以直接手动更改,或者直接最快捷的方法,点击 "view source"

点击后,会自动生成 xxx=xxx&xxx=xxx 这样的 key-value 表达方式。

因此第2页实际完整的链接为:https://yanglee.com/Action/GetInformationList.ashx?pageIndex=2\&pageSize=15\&i=0\&OrderBy=C_ADDTIME+DESC

最后成功解析出第2页的 page source

相关推荐
fsnine2 分钟前
Python Web框架对比与模型部署
开发语言·前端·python
广州华水科技19 分钟前
单北斗GNSS形变监测系统在桥梁安全中的应用与技术解析
前端
打小就很皮...30 分钟前
ShowCountCard 功能迭代:新增周月对比属性,完善数据可视化场景
前端·react.js·信息可视化
IT_陈寒39 分钟前
Redis性能翻倍的7个冷门技巧:从P5到P8都在偷偷用的优化策略!
前端·人工智能·后端
B站计算机毕业设计之家43 分钟前
深度学习实战:python动物识别分类检测系统 计算机视觉 Django框架 CNN算法 深度学习 卷积神经网络 TensorFlow 毕业设计(建议收藏)✅
python·深度学习·算法·计算机视觉·分类·毕业设计·动物识别
程序猿小D1 小时前
【完整源码+数据集+部署教程】 【运输&加载码头】仓库新卸物料检测系统源码&数据集全套:改进yolo11-DRBNCSPELAN
python·yolo·计算机视觉·目标跟踪·数据集·yolo11·仓库新卸物料检测系统
Moonbit1 小时前
MoonBit Meetup 丨 手把手带你走进 AI 编程新世代
前端·后端·程序员
携欢1 小时前
PortSwigger靶场之 CSRF where token is not tied to user session通关秘籍
前端·csrf
SiYuanFeng1 小时前
《Synthetic Visual Genome》论文数据集的预处理
python·场景图
MUTA️1 小时前
python中进程和线程
python