scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
泡泡以安2 天前
Scrapy分布式爬虫调度器架构设计说明
分布式·爬虫·scrapy·调度器
yq1982043011564 天前
构建高可用资源导航平台:基于Django+Scrapy的分布式架构实践
分布式·scrapy·django
袖清暮雨5 天前
Python爬虫(Scrapy框架)
开发语言·爬虫·python·scrapy
岱宗夫up5 天前
Scrapy框架实战教程(上):从入门到实战,搭建你的第一个专业爬虫
爬虫·python·scrapy
B站计算机毕业设计超人6 天前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
强化试剂瓶9 天前
全面掌握Ergosterol-PEG-Biotin,麦角甾醇PEG生物素的使用与注意事项
python·scrapy·flask·scikit-learn·pyqt
深蓝电商API18 天前
Scrapy 爬虫监控:结合 Prometheus+Grafana 实践
爬虫·python·scrapy
林智勇(小学信息技术高级教师)18 天前
学习 Scratch 最好的方式
学习·scrapy
深蓝电商API18 天前
Scrapy 自定义命令与扩展:打造专属爬虫工具
爬虫·python·scrapy
深蓝电商API19 天前
Scrapy杜绝重复请求:Rfpdupfilter源码分析与优化
爬虫·python·scrapy