scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
吖吖耶3335 天前
【Python爬虫】Scrapy框架实战
爬虫·python·scrapy
2401_857617626 天前
Scrapy并发请求深度解析:如何高效控制爬虫速度
爬虫·scrapy
明月清风徐徐11 天前
Scrapy爬取豆瓣电影Top250排行榜
python·selenium·scrapy
aqua353574235812 天前
第二天python笔记
c语言·开发语言·python·scrapy·算法·蓝桥杯
q5673152313 天前
通过scrapy和Django登录、爬取和持久化数据
java·开发语言·数据库·scrapy·django
黑金IT15 天前
Scrapy框架:Python爬虫开发快速入门与初试
爬虫·python·scrapy
我就说好玩24 天前
使用Scrapy框架爬取博客信息
scrapy·pycharm·网络爬虫·spider
孤客网络科技工作室1 个月前
深入学习 Scrapy 框架:从入门到精通的全面指南
学习·scrapy
虞书欣的61 个月前
Python小游戏14——雷霆战机
python·scrapy·游戏·pycharm·pygame
胜天半月子1 个月前
Scrapy | 通过爬取豆瓣Top250电影信息来学习在中间件中应用随机请求头和代理ip
selenium·scrapy·中间件·代理ip