基于scrapy框架的单机爬虫与分布式爬虫

我们知道,对于scrapy框架来说,不仅可以单机构建复杂的爬虫项目,还可以通过简单的修改,将单机版爬虫改为分布式的,大大提高爬取效率。下面我就以一个简单的爬虫案例,介绍一下如何构建一个单机版的爬虫,并做简单修改,使其实现分布式功能。

需求分析

  1. 访问页面,并实现1-10页的页面爬取,并保存到data目录下
  2. 解析页面,并获取到图片链接,并下载图片,保存到imgs目录下

单机版爬虫

准备爬虫项目

使用命令构建爬虫项目

在自己的放置爬虫的目录,或新目录内运行命令scrapy startproject scrapyMovieDemo 创建一个scrapy工程

效果如下:

使用命令构建爬虫

使用cd scrapyMovieDemo命令进入已经创建的爬虫项目目录

运行scrapy genspider mv_spider_single ssr4.scrape.center命令创建基础爬虫

效果如下:

下面我们来看一下创建爬虫工程与创建爬虫过程中,我们的工程与项目文件结构

如下:

最外层是一个名为scrapyMovieDemo的目录

  1. 创建data与imgs目录
  2. 开发单机爬虫
  3. 修改settings配置
  4. 命令启动
  5. 脚本启动
  6. 评估与回顾
相关推荐
2501_941148153 小时前
从边缘节点到云端协同的分布式缓存一致性实现原理实践解析与多语言代码示例分享笔记集录稿
笔记·分布式·物联网·缓存
sugar椰子皮4 小时前
【DrissionPage源码-2】dp如何控制浏览器
爬虫
回家路上绕了弯5 小时前
分布式事务SAGA模式详解:长事务与复杂流程的柔性事务方案
分布式·后端
Caco.D5 小时前
Aneiang.Pa 代理池(Proxy Pool)功能与 ASP.NET Core Web API 集成实战
爬虫·asp.net·.net·aneiang.pa
Gofarlic_oms16 小时前
集中式 vs 分布式许可:跨地域企业的管控架构选择
大数据·运维·人工智能·分布式·架构·数据挖掘·需求分析
神秘面具男038 小时前
ceph分布式存储
分布式·ceph
北亚数据恢复8 小时前
VSAN分布式存储下非正常关机导致的虚拟机磁盘丢失如何恢复数据?
分布式·数据恢复·服务器数据恢复·北亚数据恢复·vsan数据恢复
阎*水9 小时前
Ceph 分布式存储完整实践指南
linux·运维·分布式·ceph
yours_Gabriel9 小时前
【kafka】基本概念
分布式·中间件·kafka
sugar椰子皮10 小时前
一个cdp的检测
爬虫