scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
朱剑君3 天前
第三十天:Scrapy 框架-分布式
分布式·爬虫·scrapy
Minner-Scrapy7 天前
零知识证明与 ZK Rollups 详解
scrapy·区块链·网络爬虫·零知识证明
大叔是90后大叔20 天前
scrapy在pipelines中获取项目根目录
python·scrapy
_曦1 个月前
Scrapy如何设置iP,并实现IP重用, IP代理池重用
爬虫·scrapy
m0_748255262 个月前
【头歌】Scrapy爬虫(二)热门网站数据爬取
爬虫·scrapy
小白学大数据2 个月前
Django多线程爬虫:突破数据抓取瓶颈
数据库·爬虫·scrapy·数据分析·django
声声codeGrandMaster2 个月前
Scrapy中间件的使用
python·scrapy·中间件
蹦蹦跳跳真可爱5892 个月前
Python----Python爬虫(Scrapy的应用:CrawlSpider 使用,爬取小说,CrawlSpider版)
爬虫·python·scrapy
百年੭ ᐕ)੭*⁾⁾2 个月前
scrapy爬取图片
爬虫·python·scrapy
jidawanghao2 个月前
scrapy 教程
scrapy