scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
我可以将你更新哟8 小时前
【scrapy框架】爬取内容后写入数据库
数据库·windows·scrapy
qq 8762239651 天前
永磁同步电机二阶线性/非线性自抗扰控制器(ADRC)的Matlab Simulink模型与三阶...
scrapy
风跟我说过她5 天前
基于Scrapy-Redis的分布式房产数据爬虫系统设计与实现
redis·分布式·爬虫·scrapy
mylinke6 天前
构网变流器功率控制在dq坐标系下的下垂控制策略:实现准确功率跟踪与电压前馈响应
scrapy
聊天QQ:4877392787 天前
14bit 100M SAR ADC的Matlab建模探索
scrapy
养乐多q.♡16 天前
scrcpy 设置手机熄屏后不影响投屏
scrapy·智能手机·手机控制
韩立学长18 天前
【开题答辩实录分享】以《计算机类专业招聘信息爬取与查询系统设计与实现》为例进行答辩实录分享
python·scrapy·django
Aerelin18 天前
scrapy的介绍与使用
前端·爬虫·python·scrapy·js
生而为虫19 天前
31.Python语言进阶
python·scrapy·django·flask·fastapi·pygame·tornado
m***667319 天前
网页数据抓取:融合BeautifulSoup和Scrapy的高级爬虫技术
爬虫·scrapy·beautifulsoup