Scrapy 核心组件之Spiders组件的使用

Spiders 组件是 Scrapy 框架的核心组件，它定义了网络爬虫抓取网站数据的方式，其中包括抓取的动作，如是否跟进链接，以及如何从网页内容中提取结构化数据。换言之，++Spiders 组件用于定义抓取网页数据的动作及解析网页数据。++

编程梦想家（大学生版）-CSDN博客

那么，Spiders 组件是如何循环抓取所有网页数据的呢？对于使用 Scrapy 编写的爬虫来说，
循环抓取网页数据的流程分为如下 4 个步骤。

（1） 根据初始 URL 创建 Request ，并设置回调函数。当该 Request 设置完毕后返回 Response ，
并将 Response 作为参数传递给该回调函数。需要说明的是，爬虫中初始的 Request 是通过调
用 start_requests() 方法获取的，在该方法中读取 start_urls 中的 URL ，并以 parse() 方法作为回
调函数生成 Request 。
（2） 在回调函数中分析返回的内容。返回的内容主要有 Item 对象、 Request 对象两种形
式。其中， Request 对象会经过 Scrapy 处理，下载相应的内容，并调用设置的回调函数。
（3） 在回调函数中，可以使用 Selectors （ Scrapy 自带的选择器，用于从网页源代码中提
取数据）、 Beautiful Soup 、 lxml 或其他解析器来解析网页数据，并根据解析的数据生成 Item 。
（4） 将 Spiders 返回的 Item 数据经 Item Pipeline 组件处理后存储到数据库或文件中。
虽然以上步骤对大多数 Spiders 都适用，但 Scrapy 仍然为不同的采集需求提供了多种默认
的 Spiders ，例如 10.5 节即将介绍的 CrawlSpider 类。
Scrapy 框架提供了 Spider 作为爬虫的基类，自定义的爬虫需要继承这个类。 scrapy.Spider
类的常用属性和方法介绍如下。

name 属性：设置爬虫名称的字符串。由于爬虫名称用于被 Scrapy 定位和初始化一个爬虫，所以它必须是唯一的。通常情况下，我们会将待抓取网站的域名作为爬虫名称。例如，抓取域名为 mywebsite.com 网站的爬虫被命名为 mywebsite。

allowed_domains 属性：设置爬虫允许抓取的域名列表。

start_urls 属性：表示初始 URL 元组或列表。当没有指定 URL 时，爬虫会从该列表中

开始抓取。

init()方法：负责初始化爬虫名称和初始 URL 列表。

start_requests()方法：负责生成 Requests 对象，交给 Scrapy 下载并返回 Response。 start_requests()方法的返回值是一个可迭代对象，该对象中包含了爬虫抓取的第一个 Request 对象，默认使用初始 URL 列表中的第一个 URL。

parse(response)方法：负责解析 Response，并返回 Item 或 Requests（需指定回调函数）。 Item 传给 Item Pipeline 组件进行持久化存储，而 Requests 则交由 Scrapy 下载，并由指定的回调函数（默认为 parse()）处理。之后会持续循环，直到处理完所有的数据为止。

log(message[level, component])方法：负责发送日志信息。