scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
梦想画家21 小时前
结合Splash与Scrapy:高效爬取动态JavaScript网站
javascript·scrapy
不会飞的鲨鱼2 天前
Scrapy框架之Scrapyd部署及Gerapy分布式爬虫管理框架的使用
分布式·爬虫·scrapy
MinggeQingchun3 天前
Python - 爬虫;Scrapy框架(一)
爬虫·python·scrapy
梦想画家3 天前
Scrapy爬虫实战:如何用Rules实现高效数据采集
爬虫·scrapy
不会飞的鲨鱼8 天前
Scrapy框架之 中间件的使用
python·scrapy·中间件
微臣愚钝9 天前
【Scrapy】简单项目实战--爬取dangdang图书信息
scrapy
不会飞的鲨鱼9 天前
Scrapy框架之CrawlSpider爬虫 实战 详解
爬虫·scrapy
小白学大数据11 天前
如何避免爬虫因Cookie过期导致登录失效
开发语言·爬虫·python·scrapy
北漂程序员学习18 天前
如何避免被目标网站识别为爬虫?
爬虫·python·scrapy·flask·scipy
爱吃泡芙的小白白19 天前
爬虫学习——Scrapy
爬虫·python·scrapy·学习记录