Scrapy 核心组件之Spiders组件的使用

Spiders 组件是 Scrapy 框架的核心组件,它定义了网络爬虫抓取网站数据的方式,其中包 括抓取的动作,如是否跟进链接,以及如何从网页内容中提取结构化数据。换言之,++Spiders 组件用于定义抓取网页数据的动作及解析网页数据。++

编程梦想家(大学生版)-CSDN博客

那么,Spiders 组件是如何循环抓取所有网页数据的呢?对于使用 Scrapy 编写的爬虫来说,
循环抓取网页数据的流程分为如下 4 个步骤。

(1) 根据初始 URL 创建 Request ,并设置回调函数。当该 Request 设置完毕后返回 Response ,
并将 Response 作为参数传递给该回调函数。需要说明的是,爬虫中初始的 Request 是通过调
用 start_requests() 方法获取的,在该方法中读取 start_urls 中的 URL ,并以 parse() 方法作为回
调函数生成 Request 。
(2) 在回调函数中分析返回的内容。返回的内容主要有 Item 对象、 Request 对象两种形
式。其中, Request 对象会经过 Scrapy 处理,下载相应的内容,并调用设置的回调函数。
(3) 在回调函数中,可以使用 Selectors ( Scrapy 自带的选择器,用于从网页源代码中提
取数据)、 Beautiful Soup 、 lxml 或其他解析器来解析网页数据,并根据解析的数据生成 Item 。
(4) 将 Spiders 返回的 Item 数据经 Item Pipeline 组件处理后存储到数据库或文件中。
虽然以上步骤对大多数 Spiders 都适用,但 Scrapy 仍然为不同的采集需求提供了多种默认
的 Spiders ,例如 10.5 节即将介绍的 CrawlSpider 类。
Scrapy 框架提供了 Spider 作为爬虫的基类,自定义的爬虫需要继承这个类。 scrapy.Spider
类的常用属性和方法介绍如下。

  • name 属性:设置爬虫名称的字符串。由于爬虫名称用于被 Scrapy 定位和初始化一个 爬虫,所以它必须是唯一的。通常情况下,我们会将待抓取网站的域名作为爬虫名称。例如, 抓取域名为 mywebsite.com 网站的爬虫被命名为 mywebsite。
  • allowed_domains 属性:设置爬虫允许抓取的域名列表。
  • start_urls 属性:表示初始 URL 元组或列表。当没有指定 URL 时,爬虫会从该列表中
  • 开始抓取。
  • init()方法:负责初始化爬虫名称和初始 URL 列表。
  • start_requests()方法:负责生成 Requests 对象,交给 Scrapy 下载并返回 Response。 start_requests()方法的返回值是一个可迭代对象,该对象中包含了爬虫抓取的第一个 Request 对象,默认使用初始 URL 列表中的第一个 URL。
  • parse(response)方法:负责解析 Response,并返回 Item 或 Requests(需指定回调函数)。 Item 传给 Item Pipeline 组件进行持久化存储,而 Requests 则交由 Scrapy 下载,并由指定的回 调函数(默认为 parse())处理。之后会持续循环,直到处理完所有的数据为止。
  • log(message[level, component])方法:负责发送日志信息。
相关推荐
风跟我说过她3 天前
基于Scrapy-Redis的分布式房产数据爬虫系统设计与实现
redis·分布式·爬虫·scrapy
mylinke4 天前
构网变流器功率控制在dq坐标系下的下垂控制策略:实现准确功率跟踪与电压前馈响应
scrapy
聊天QQ:4877392785 天前
14bit 100M SAR ADC的Matlab建模探索
scrapy
养乐多q.♡14 天前
scrcpy 设置手机熄屏后不影响投屏
scrapy·智能手机·手机控制
韩立学长16 天前
【开题答辩实录分享】以《计算机类专业招聘信息爬取与查询系统设计与实现》为例进行答辩实录分享
python·scrapy·django
Aerelin16 天前
scrapy的介绍与使用
前端·爬虫·python·scrapy·js
生而为虫17 天前
31.Python语言进阶
python·scrapy·django·flask·fastapi·pygame·tornado
m***667317 天前
网页数据抓取:融合BeautifulSoup和Scrapy的高级爬虫技术
爬虫·scrapy·beautifulsoup
猫头虎18 天前
如何解决pip install网络报错SSLError: TLSV1_ALERT_PROTOCOL_VERSION(OpenSSL过旧)问题
网络·python·scrapy·pycharm·beautifulsoup·pip·scipy
桃子叔叔20 天前
爬虫实战|Scrapy+Selenium 批量爬取汽车之家海量车型外观图(附完整源码)一
爬虫·selenium·scrapy