基于scrapy框架的单机爬虫与分布式爬虫

我们知道,对于scrapy框架来说,不仅可以单机构建复杂的爬虫项目,还可以通过简单的修改,将单机版爬虫改为分布式的,大大提高爬取效率。下面我就以一个简单的爬虫案例,介绍一下如何构建一个单机版的爬虫,并做简单修改,使其实现分布式功能。

需求分析

  1. 访问页面,并实现1-10页的页面爬取,并保存到data目录下
  2. 解析页面,并获取到图片链接,并下载图片,保存到imgs目录下

单机版爬虫

准备爬虫项目

使用命令构建爬虫项目

在自己的放置爬虫的目录,或新目录内运行命令scrapy startproject scrapyMovieDemo 创建一个scrapy工程

效果如下:

使用命令构建爬虫

使用cd scrapyMovieDemo命令进入已经创建的爬虫项目目录

运行scrapy genspider mv_spider_single ssr4.scrape.center命令创建基础爬虫

效果如下:

下面我们来看一下创建爬虫工程与创建爬虫过程中,我们的工程与项目文件结构

如下:

最外层是一个名为scrapyMovieDemo的目录

  1. 创建data与imgs目录
  2. 开发单机爬虫
  3. 修改settings配置
  4. 命令启动
  5. 脚本启动
  6. 评估与回顾
相关推荐
.生产的驴3 小时前
Vue3 加快页面加载速度 使用CDN外部库的加载 提升页面打开速度 服务器分发
运维·服务器·前端·vue.js·分布式·前端框架·vue
大神薯条老师10 小时前
Python零基础入门到高手8.4节: 元组与列表的区别
开发语言·爬虫·python·深度学习·机器学习·数据分析
@小了白了兔10 小时前
RabbitMQ工作流程及使用方法
分布式·rabbitmq
小白学大数据10 小时前
Python爬虫如何应对网站的反爬加密策略?
开发语言·爬虫·python
dddaidai12310 小时前
分布式ID和分布式锁
redis·分布式·mysql·zookeeper·etcd
weixin_4082663411 小时前
深度学习-分布式训练机制
人工智能·分布式·深度学习
北漂老男孩12 小时前
ChromeDriver 技术生态与应用场景深度解析
java·爬虫·python·自动化
MZWeiei14 小时前
Spark SQL 运行架构详解(专业解释+番茄炒蛋例子解读)
大数据·分布式·sql·架构·spark
不穿铠甲的穿山甲15 小时前
MySQL-数据库分布式XA事务
数据库·分布式·mysql
咕噜咕噜啦啦16 小时前
Python爬虫入门
开发语言·爬虫·python