基于scrapy框架的单机爬虫与分布式爬虫

我们知道,对于scrapy框架来说,不仅可以单机构建复杂的爬虫项目,还可以通过简单的修改,将单机版爬虫改为分布式的,大大提高爬取效率。下面我就以一个简单的爬虫案例,介绍一下如何构建一个单机版的爬虫,并做简单修改,使其实现分布式功能。

需求分析

  1. 访问页面,并实现1-10页的页面爬取,并保存到data目录下
  2. 解析页面,并获取到图片链接,并下载图片,保存到imgs目录下

单机版爬虫

准备爬虫项目

使用命令构建爬虫项目

在自己的放置爬虫的目录,或新目录内运行命令scrapy startproject scrapyMovieDemo 创建一个scrapy工程

效果如下:

使用命令构建爬虫

使用cd scrapyMovieDemo命令进入已经创建的爬虫项目目录

运行scrapy genspider mv_spider_single ssr4.scrape.center命令创建基础爬虫

效果如下:

下面我们来看一下创建爬虫工程与创建爬虫过程中,我们的工程与项目文件结构

如下:

最外层是一个名为scrapyMovieDemo的目录

  1. 创建data与imgs目录
  2. 开发单机爬虫
  3. 修改settings配置
  4. 命令启动
  5. 脚本启动
  6. 评估与回顾
相关推荐
38242782722 分钟前
使用 webdriver-manager配置geckodriver
java·开发语言·数据库·爬虫·python
YDS82924 分钟前
SpringCloud —— 分布式事务管理Seata详解
分布式·spring·spring cloud·seata
如旧呀1 小时前
爬虫小知识
数据库·爬虫·mysql
回家路上绕了弯2 小时前
分布式系统重试策略详解:可靠性与资源消耗的平衡艺术
分布式·后端
Elaine3362 小时前
深度实战:基于 Scrapy CrawlSpider 的全自动化教程采集系统
python·scrapy·自动化·网络爬虫
无名小卒Rain2 小时前
Jmeter性能测试-分布式压测配置和执行过程
分布式·jmeter
a程序小傲2 小时前
蚂蚁Java面试被问:分布式Session的实现方案
java·分布式·面试
a努力。2 小时前
京东Java面试:如何设计一个分布式ID生成器
java·分布式·后端·面试