技术栈
scrapy框架流程
西界M
2023-11-24 20:28
1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象
2、将request请求对象传递给爬虫中间件
3、将request请求对象传递给Scrapy引擎(核心代码)
4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)
5、将request请求对象传递给scrapy引擎
6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)
7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)
8、将requests传递给下载中间件
9、下载中间件将response对象传递给scrapy引擎
10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)
11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)
12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理
scrapy
上一篇:
3ds Max 电脑配置建议 | 建模+渲染选专业显卡or游戏显卡?
下一篇:
深入理解RC4加密算法
相关推荐
麦麦大数据
3 天前
scrapy爬取汽车、车评数据【上】
scrapy
·
汽车
A~taoker
8 天前
scrapy爬虫基础
爬虫
·
scrapy
jiaoxingk
10 天前
不会JS逆向也能高效结合Scrapy与Selenium实现爬虫抓取
javascript
·
爬虫
·
python
·
selenium
·
scrapy
计算机学姐
11 天前
基于大数据可视化的化妆品推荐及数据分析系统
vue.js
·
hadoop
·
spring boot
·
python
·
scrapy
·
mysql
·
信息可视化
2401_87251497
14 天前
Scrapy爬虫IP代理池:提升爬取效率与稳定性
爬虫
·
tcp/ip
·
scrapy
北愚
15 天前
Scrapy爬虫实战——某瓣250
python
·
scrapy
Bigcrab__
18 天前
Python3网络爬虫开发实战(15)Scrapy 框架的使用(第一版)
爬虫
·
python
·
scrapy
热门推荐
01
【经验分享】Ubuntu22.04安装微信(linux官方版)
02
安卓系列机型永久去除data分区加密 详细步骤解析
03
2024年高教社杯数学建模国赛C题超详细解题思路分析
04
CTF网络安全大赛简单的web抓包题目:HEADache
05
组基轨迹建模 GBTM的介绍与实现(Stata 或 R)
06
【2024数模国赛赛题思路公开】国赛B题思路丨附可运行代码丨无偿自提
07
pve(Proxmox VE)安装i225v网卡驱动
08
苍穹外卖面试总结
09
【2024高教社杯全国大学生数学建模竞赛】B题 生产过程中的决策问题——解题思路 代码 论文
10
RAG 实践- Ollama+RagFlow 部署本地知识库