scrapy的暂停与重启

@杨某2026-01-07 16:42

进入项目的目录：

新建一个目录，目录名为job_info:因为要暂停爬虫，所以需要保存许多中间状态,这个目录就是为了保存状态

打开命令行cmder

进入虚拟环境

因为要暂停爬虫，所以需要保存许多中间状态

以lagou爬虫为例：

第一点：不同的spider是不能共用同一个spider的，所以要在job_info 下新建一个文件夹，名为001

第二点:不同的spider在run的时候也不能共用同一个目录

cmd 复制代码

scrapy crawl  cnblogs -s JOBDIR=job_info/001

执行命令后启动指定爬虫，且记录状态到指定目录

爬虫现已运行，能按键盘上的Ctrl+C停止爬虫，停止后再看看记录文件夹，会多出3个文件，其中的requests.queue文件夹里的p0文件就是url记录文件，有该文件就表示还有没有完成的url，在全部url完成后会自动删除该文件

再重新执行命令：

cmder 复制代码

scrapy crawl cnblogs -s JOBDIR=zant/001

时爬虫会按照p0文件从停止的地方开始再次爬取。