scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
麦麦大数据3 天前
scrapy爬取汽车、车评数据【上】
scrapy·汽车
A~taoker8 天前
scrapy爬虫基础
爬虫·scrapy
jiaoxingk10 天前
不会JS逆向也能高效结合Scrapy与Selenium实现爬虫抓取
javascript·爬虫·python·selenium·scrapy
计算机学姐11 天前
基于大数据可视化的化妆品推荐及数据分析系统
vue.js·hadoop·spring boot·python·scrapy·mysql·信息可视化
2401_8725149714 天前
Scrapy爬虫IP代理池:提升爬取效率与稳定性
爬虫·tcp/ip·scrapy
北愚15 天前
Scrapy爬虫实战——某瓣250
python·scrapy
Bigcrab__18 天前
Python3网络爬虫开发实战(15)Scrapy 框架的使用(第一版)
爬虫·python·scrapy