scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
智航GIS16 小时前
10.6 Scrapy:Python 网页爬取框架
python·scrapy·信息可视化
@杨某5 天前
scrapy的暂停与重启
scrapy
@杨某5 天前
selenium嵌入scrapy动态网页抓取
selenium·测试工具·scrapy
猫头虎7 天前
如何解决pip报错 import pandas as pd ModuleNotFoundError: No module named ‘pandas‘问题
java·python·scrapy·beautifulsoup·pandas·pip·scipy
qq_139484288210 天前
python基于大数据技术的酒店消费数据分析系统
大数据·python·scrapy·django·flask
小白学大数据13 天前
Python 网络爬虫:Scrapy 解析汽车之家报价与评测
开发语言·爬虫·python·scrapy
Elaine33614 天前
实战教学:使用 Scrapy 爬取 CSDN 文章与用户头像
python·scrapy·网络爬虫
Elaine33614 天前
深度实战:基于 Scrapy CrawlSpider 的全自动化教程采集系统
python·scrapy·自动化·网络爬虫
胡伯来了15 天前
07 - 数据收集 - 网页采集工具Scrapy
python·scrapy·数据采集
傻啦嘿哟16 天前
Docker部署Scrapy集群:爬虫容器化实战指南
爬虫·scrapy·docker