我们知道,对于scrapy框架来说,不仅可以单机构建复杂的爬虫项目,还可以通过简单的修改,将单机版爬虫改为分布式的,大大提高爬取效率。下面我就以一个简单的爬虫案例,介绍一下如何构建一个单机版的爬虫,并做简单修改,使其实现分布式功能。
需求分析
- 访问页面,并实现1-10页的页面爬取,并保存到data目录下
- 解析页面,并获取到图片链接,并下载图片,保存到imgs目录下
单机版爬虫
准备爬虫项目
使用命令构建爬虫项目
在自己的放置爬虫的目录,或新目录内运行命令scrapy startproject scrapyMovieDemo
创建一个scrapy工程
效果如下:
使用命令构建爬虫
使用cd scrapyMovieDemo
命令进入已经创建的爬虫项目目录
运行scrapy genspider mv_spider_single ssr4.scrape.center
命令创建基础爬虫
效果如下:
下面我们来看一下创建爬虫工程与创建爬虫过程中,我们的工程与项目文件结构
如下:
最外层是一个名为scrapyMovieDemo的目录
- 创建data与imgs目录
- 开发单机爬虫
- 修改settings配置
- 命令启动
- 脚本启动
- 评估与回顾