基于scrapy框架的单机爬虫与分布式爬虫

我们知道,对于scrapy框架来说,不仅可以单机构建复杂的爬虫项目,还可以通过简单的修改,将单机版爬虫改为分布式的,大大提高爬取效率。下面我就以一个简单的爬虫案例,介绍一下如何构建一个单机版的爬虫,并做简单修改,使其实现分布式功能。

需求分析

  1. 访问页面,并实现1-10页的页面爬取,并保存到data目录下
  2. 解析页面,并获取到图片链接,并下载图片,保存到imgs目录下

单机版爬虫

准备爬虫项目

使用命令构建爬虫项目

在自己的放置爬虫的目录,或新目录内运行命令scrapy startproject scrapyMovieDemo 创建一个scrapy工程

效果如下:

使用命令构建爬虫

使用cd scrapyMovieDemo命令进入已经创建的爬虫项目目录

运行scrapy genspider mv_spider_single ssr4.scrape.center命令创建基础爬虫

效果如下:

下面我们来看一下创建爬虫工程与创建爬虫过程中,我们的工程与项目文件结构

如下:

最外层是一个名为scrapyMovieDemo的目录

  1. 创建data与imgs目录
  2. 开发单机爬虫
  3. 修改settings配置
  4. 命令启动
  5. 脚本启动
  6. 评估与回顾
相关推荐
雨言yyds13 小时前
Kafka
分布式·kafka
tang7778914 小时前
深挖66免费代理网站:隐藏功能与真实体验报告
爬虫·python·网络爬虫·ip
学到头秃的suhian17 小时前
Redis分布式锁
java·数据库·redis·分布式·缓存
若水不如远方17 小时前
分布式一致性原理(四):工程化共识 —— Raft 算法
分布式·后端·算法
三水不滴18 小时前
千万级数据批处理实战:SpringBoot + 分片 + 分布式并行处理方案
spring boot·分布式·后端
电商API_1800790524718 小时前
电商评论数据爬虫:情感分析与数据可视化实战
大数据·人工智能·爬虫·信息可视化·数据分析
笨蛋不要掉眼泪18 小时前
从单体到分布式:一次完整的架构演进之旅
分布式·架构
会算数的⑨18 小时前
Spring AI Alibaba 学习(三):Graph Workflow 深度解析(下篇)
java·人工智能·分布式·后端·学习·spring·saa
认真的薛薛18 小时前
数据库-日志管理、备份恢复与主从同步
数据库·分布式·mysql
王解18 小时前
从自然语言到爬虫工作流:深入解析 ScrapeGraphAI 的原理与架构思维
爬虫·架构·scrapegraphai