scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎(核心代码)

4、将request请求对象传递给调度器(它负责对多个request安排,好比交通管理员负责指挥交通)

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件(可以更换代理IP 更换cookie 更换user-agent,自动重试等)

7、request请求对象传递给到下载器(它通过异步的发送HTTP(s)请求。得到响应封装为response对象)

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件(这里可以处理异常情况)

11、爬虫对象中的parse函数被调用(在这里可以得到的response对象进行处理 例如status得到的响应码 ,xpath可以进行提取数据等)

12、第11步调用的yelid管道 调用piplines 对数据进行存储或处理

相关推荐
水w2 天前
【Python爬虫】简单案例介绍3
开发语言·爬虫·python·scrapy·beautifulsoup
q567315233 天前
使用Scrapy库结合Kotlin编写爬虫程序
爬虫·scrapy·kotlin
小白学大数据3 天前
Scrapy结合Selenium实现搜索点击爬虫的最佳实践
开发语言·chrome·爬虫·selenium·scrapy
q567315234 天前
利用Ruby的Typhoeus编写爬虫程序
开发语言·爬虫·scrapy·ruby
q567315236 天前
使用Java的HttpClient实现文件下载器
java·开发语言·爬虫·scrapy
q567315237 天前
用Dispatch库的爬虫程序爬取图片网站
开发语言·爬虫·python·scrapy
q567315237 天前
使用Alamofire下载网站首页内容
开发语言·爬虫·python·scrapy·golang
猿小猴子11 天前
使用Scrapy官方开发的爬虫部署、运行、管理工具:Scrapyd
爬虫·scrapy
叫我王富贵i14 天前
0基础入门scrapy 框架,获取豆瓣top250存入mysql
爬虫·python·scrapy
九月镇灵将15 天前
6.git项目实现变更拉取与上传
git·python·scrapy·scrapyd·gitpython·gerapy