scrapy的暂停与重启

进入项目的目录:

新建一个目录,目录名为job_info:因为要暂停爬虫,所以需要保存许多中间状态,这个目录就是为了保存状态

打开命令行cmder

进入虚拟环境

因为要暂停爬虫,所以需要保存许多中间状态

以lagou爬虫为例:

第一点:不同的spider是不能共用同一个spider的,所以要在job_info 下新建一个文件夹,名为001

第二点:不同的spider在run的时候也不能共用同一个目录

cmd 复制代码
scrapy crawl  cnblogs -s JOBDIR=job_info/001

执行命令后启动指定爬虫,且记录状态到指定目录

爬虫现已运行,能按键盘上的Ctrl+C停止爬虫,停止后再看看记录文件夹,会多出3个文件,其中的requests.queue文件夹里的p0文件就是url记录文件,有该文件就表示还有没有完成的url,在全部url完成后会自动删除该文件

再重新执行命令:

cmder 复制代码
scrapy crawl cnblogs -s JOBDIR=zant/001 

时爬虫会按照p0文件从停止的地方开始再次爬取。

相关推荐
@杨某2 天前
selenium嵌入scrapy动态网页抓取
selenium·测试工具·scrapy
猫头虎4 天前
如何解决pip报错 import pandas as pd ModuleNotFoundError: No module named ‘pandas‘问题
java·python·scrapy·beautifulsoup·pandas·pip·scipy
qq_13948428826 天前
python基于大数据技术的酒店消费数据分析系统
大数据·python·scrapy·django·flask
小白学大数据10 天前
Python 网络爬虫:Scrapy 解析汽车之家报价与评测
开发语言·爬虫·python·scrapy
Elaine33610 天前
实战教学:使用 Scrapy 爬取 CSDN 文章与用户头像
python·scrapy·网络爬虫
Elaine33610 天前
深度实战:基于 Scrapy CrawlSpider 的全自动化教程采集系统
python·scrapy·自动化·网络爬虫
胡伯来了11 天前
07 - 数据收集 - 网页采集工具Scrapy
python·scrapy·数据采集
傻啦嘿哟12 天前
Docker部署Scrapy集群:爬虫容器化实战指南
爬虫·scrapy·docker
我可以将你更新哟19 天前
【scrapy框架】爬取内容后写入数据库
数据库·windows·scrapy