scrapy的暂停与重启

进入项目的目录:

新建一个目录,目录名为job_info:因为要暂停爬虫,所以需要保存许多中间状态,这个目录就是为了保存状态

打开命令行cmder

进入虚拟环境

因为要暂停爬虫,所以需要保存许多中间状态

以lagou爬虫为例:

第一点:不同的spider是不能共用同一个spider的,所以要在job_info 下新建一个文件夹,名为001

第二点:不同的spider在run的时候也不能共用同一个目录

cmd 复制代码
scrapy crawl  cnblogs -s JOBDIR=job_info/001

执行命令后启动指定爬虫,且记录状态到指定目录

爬虫现已运行,能按键盘上的Ctrl+C停止爬虫,停止后再看看记录文件夹,会多出3个文件,其中的requests.queue文件夹里的p0文件就是url记录文件,有该文件就表示还有没有完成的url,在全部url完成后会自动删除该文件

再重新执行命令:

cmder 复制代码
scrapy crawl cnblogs -s JOBDIR=zant/001 

时爬虫会按照p0文件从停止的地方开始再次爬取。

相关推荐
青春不朽5121 天前
Scrapy框架入门指南
python·scrapy
泡泡以安3 天前
Scrapy分布式爬虫调度器架构设计说明
分布式·爬虫·scrapy·调度器
yq1982043011565 天前
构建高可用资源导航平台:基于Django+Scrapy的分布式架构实践
分布式·scrapy·django
袖清暮雨6 天前
Python爬虫(Scrapy框架)
开发语言·爬虫·python·scrapy
岱宗夫up6 天前
Scrapy框架实战教程(上):从入门到实战,搭建你的第一个专业爬虫
爬虫·python·scrapy
B站计算机毕业设计超人7 天前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
强化试剂瓶10 天前
全面掌握Ergosterol-PEG-Biotin,麦角甾醇PEG生物素的使用与注意事项
python·scrapy·flask·scikit-learn·pyqt
深蓝电商API19 天前
Scrapy 爬虫监控:结合 Prometheus+Grafana 实践
爬虫·python·scrapy
林智勇(小学信息技术高级教师)19 天前
学习 Scratch 最好的方式
学习·scrapy
深蓝电商API19 天前
Scrapy 自定义命令与扩展:打造专属爬虫工具
爬虫·python·scrapy