scrapy框架流程

西界M2023-11-24 20:28

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎（核心代码）

4、将request请求对象传递给调度器（它负责对多个request安排，好比交通管理员负责指挥交通）

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件（可以更换代理IP 更换cookie 更换user-agent，自动重试等）

7、request请求对象传递给到下载器（它通过异步的发送HTTP（s）请求。得到响应封装为response对象）

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件（这里可以处理异常情况）

11、爬虫对象中的parse函数被调用（在这里可以得到的response对象进行处理例如status得到的响应码，xpath可以进行提取数据等）

12、第11步调用的yelid管道调用piplines 对数据进行存储或处理

上一篇：3ds Max 电脑配置建议 | 建模+渲染选专业显卡or游戏显卡？

下一篇：深入理解RC4加密算法

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Labelme从安装到标注：零基础完整指南 08“我的电脑”图标没了怎么办 4种方法找回 09Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 10全球最强模型Grok4，国内已可免费使用！（附教程）