1.实战讲解（XXTop250完整信息的爬取）：
- [1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察](#1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察)
- [1.2 配置settings文件中使用scrapy_redis的必要配置，并使用公共redsi数据存储区域（通过使用特定管道实现）](#1.2 配置settings文件中使用scrapy_redis的必要配置，并使用公共redsi数据存储区域（通过使用特定管道实现）)
- [1.3 注意：上述settings.py配置中有个可选项SCHEDULER_PERSIST，作用是决定清理还是不清理redis队列：](#1.3 注意：上述settings.py配置中有个可选项SCHEDULER_PERSIST，作用是决定清理还是不清理redis队列：)
- [1.4 但是上面并不能在redis中看到每个请求URL的信息：](#1.4 但是上面并不能在redis中看到每个请求URL的信息：)
- [1.5 实例实现断点续爬：](#1.5 实例实现断点续爬：)

1.实战讲解（XXTop250完整信息的爬取）：

先用单独一个项目来使用scrapy_redis，讲解一些重要点！

1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察

1.2 配置settings文件中使用scrapy_redis的必要配置，并使用公共redsi数据存储区域（通过使用特定管道实现）

python 复制代码

# 第一步：加入以下代码：
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"

#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"

#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379

# 不清理redis队列，允许暂停/恢复抓取    （可选）    允许暂停，redis数据不丢失     可以实现断点续爬！！！
SCHEDULER_PERSIST = True


# 第二步：开启将数据存储进redis公共区域的管道！
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   # 'film.pipelines.FilmPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 100,
   # 'film.pipelines.DoubanSqlPipeline': 200,
}