基于scrapy框架的单机爬虫与分布式爬虫

我们知道,对于scrapy框架来说,不仅可以单机构建复杂的爬虫项目,还可以通过简单的修改,将单机版爬虫改为分布式的,大大提高爬取效率。下面我就以一个简单的爬虫案例,介绍一下如何构建一个单机版的爬虫,并做简单修改,使其实现分布式功能。

需求分析

  1. 访问页面,并实现1-10页的页面爬取,并保存到data目录下
  2. 解析页面,并获取到图片链接,并下载图片,保存到imgs目录下

单机版爬虫

准备爬虫项目

使用命令构建爬虫项目

在自己的放置爬虫的目录,或新目录内运行命令scrapy startproject scrapyMovieDemo 创建一个scrapy工程

效果如下:

使用命令构建爬虫

使用cd scrapyMovieDemo命令进入已经创建的爬虫项目目录

运行scrapy genspider mv_spider_single ssr4.scrape.center命令创建基础爬虫

效果如下:

下面我们来看一下创建爬虫工程与创建爬虫过程中,我们的工程与项目文件结构

如下:

最外层是一个名为scrapyMovieDemo的目录

  1. 创建data与imgs目录
  2. 开发单机爬虫
  3. 修改settings配置
  4. 命令启动
  5. 脚本启动
  6. 评估与回顾
相关推荐
U-Mail邮件系统21 分钟前
U-Mail企业邮件系统分布式部署方案
分布式
小白学大数据2 小时前
基于 Python 的知网文献批量采集与可视化分析
开发语言·爬虫·python·小程序
飞向天空的鹰2 小时前
反爬虫-开发者调用检测(网页自动关闭)
爬虫
深蓝电商API3 小时前
Scrapy 爬虫监控:结合 Prometheus+Grafana 实践
爬虫·python·scrapy
@zulnger3 小时前
刚认识爬虫
爬虫
林智勇(小学信息技术高级教师)4 小时前
学习 Scratch 最好的方式
学习·scrapy
鱼跃鹰飞4 小时前
面试题:Kafka的零拷贝的底层实现是什么?是MMAP还是sendFile还是其他的?
分布式·kafka·系统架构
工业甲酰苯胺4 小时前
【面试题】RabbitMQ 中无法路由的消息会去到哪里?
分布式·rabbitmq
翼龙云_cloud5 小时前
阿里云渠道商:弹性伸缩爬虫实战 智能应对流量高峰的 3 步方案
爬虫·阿里云·云计算
weixin_457297105 小时前
Hadoop面试题
大数据·hadoop·分布式