scrapy的暂停与重启

进入项目的目录:

新建一个目录,目录名为job_info:因为要暂停爬虫,所以需要保存许多中间状态,这个目录就是为了保存状态

打开命令行cmder

进入虚拟环境

因为要暂停爬虫,所以需要保存许多中间状态

以lagou爬虫为例:

第一点:不同的spider是不能共用同一个spider的,所以要在job_info 下新建一个文件夹,名为001

第二点:不同的spider在run的时候也不能共用同一个目录

cmd 复制代码
scrapy crawl  cnblogs -s JOBDIR=job_info/001

执行命令后启动指定爬虫,且记录状态到指定目录

爬虫现已运行,能按键盘上的Ctrl+C停止爬虫,停止后再看看记录文件夹,会多出3个文件,其中的requests.queue文件夹里的p0文件就是url记录文件,有该文件就表示还有没有完成的url,在全部url完成后会自动删除该文件

再重新执行命令:

cmder 复制代码
scrapy crawl cnblogs -s JOBDIR=zant/001 

时爬虫会按照p0文件从停止的地方开始再次爬取。

相关推荐
深蓝电商API9 天前
Scrapy 爬虫监控:结合 Prometheus+Grafana 实践
爬虫·python·scrapy
林智勇(小学信息技术高级教师)9 天前
学习 Scratch 最好的方式
学习·scrapy
深蓝电商API9 天前
Scrapy 自定义命令与扩展:打造专属爬虫工具
爬虫·python·scrapy
深蓝电商API10 天前
Scrapy杜绝重复请求:Rfpdupfilter源码分析与优化
爬虫·python·scrapy
深蓝电商API10 天前
Scrapy LinkExtractor参数详解与复杂链接提取
爬虫·python·scrapy
爱吃提升11 天前
Scrapy 从入门到实战,爬取网页数据全流程
scrapy
深蓝电商API11 天前
Scrapy爬虫部署到Scrapyd服务端详解
爬虫·python·scrapy
深蓝电商API11 天前
Scrapy Feed Exports 进阶:多种格式导出配置
爬虫·python·scrapy
深蓝电商API12 天前
Scrapy信号机制:监控爬虫全生命周期
爬虫·python·scrapy
深蓝电商API12 天前
Scrapy与MongoDB管道集成:异步存储方案
数据库·scrapy·mongodb