python爬虫学习第二十八天-------了解scrapy(二十八天)

🎈🎈作者主页: 喔的嘛呀🎈🎈

🎈🎈所属专栏:python爬虫学习🎈🎈

✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨

hello,兄弟姐妹们!我是喔的嘛呀。今天我们首先来了解scrapy。为后面的学习打下基础。

一、scrapy是什么?

Scrapy 是一个用于爬取网站数据并提取结构化信息的强大 Python 框架。它可以帮助开发人员快速、高效地构建网络爬虫,从而自动化地从网页中提取所需数据。Scrapy 提供了一套完整的工具和组件,包括用于定义爬取规则的 Spider、用于提取数据的选择器(Selectors)、用于处理数据的管道(Pipeline)等,使得爬虫开发变得简单且高效。Scrapy 还支持异步处理和并发请求,可以处理复杂的爬取任务,并提供了命令行工具和调试工具,方便开发人员进行调试和监控。Scrapy 在数据挖掘、信息收集、监测和自动化测试等领域都有广泛的应用。

二、工作原理和重要功能

工作原理:

  1. 引擎(Engine):是 Scrapy 的核心,负责调度整个爬取流程的执行。
  2. 调度器(Scheduler):接收引擎发来的请求,并根据一定的策略进行调度,以确保合理高效地使用网络和系统资源。
  3. 下载器(Downloader):负责下载网页并将响应传递给 Spider。
  4. Spider:定义了如何抓取某个网站的规则,包括如何开始抓取以及如何跟踪链接等。
  5. Item Pipeline:负责处理爬取到的数据,可以进行数据清洗、验证、存储等操作。
  6. Downloader Middleware:介于引擎和下载器之间的一层组件,可以修改请求和响应,例如添加代理、设置 User-Agent 等。
  7. Spider Middleware:介于引擎和 Spider 之间的一层组件,用于处理 Spider 的输入和输出。

主要功能:

  1. Spider:定义了如何爬取某个(些)网站的规则,包括起始URL、如何跟踪链接、如何解析页面等。
  2. Selector:用于从页面中提取数据的工具,支持 XPath 和 CSS 选择器。
  3. Item:表示从网页中提取的数据,类似于字典或数据库表的行。
  4. Pipeline:负责处理爬取到的数据,可以进行数据清洗、去重、验证、存储等操作。
  5. Downloader Middleware:用于在下载器处理请求和响应的过程中进行额外的操作,比如修改请求头、处理代理等。
  6. Spider Middleware:对 Spider 的输出(Item 和 Request)进行处理的组件,可以对请求和响应进行预处理或后处理。
  7. Scrapy Shell:交互式 shell 环境,用于测试和调试 XPath 或 CSS 选择器表达式。
  8. 命令行工具 :用于运行爬虫、检查爬取结果等,例如 scrapy crawl spider_name

三、工作流程

Scrapy 的工作流程可以简要地描述为以下几个步骤:

  1. 启动爬虫
    • 使用命令行工具或代码启动 Scrapy 爬虫。
  2. 引擎调度请求
    • 引擎接收到启动爬虫的命令后,会根据 Spider 的配置和规则生成初始请求,并将请求交给调度器。
  3. 调度器管理请求队列
    • 调度器会根据一定的策略管理请求队列,确保请求按照合理的顺序被发送给下载器。
  4. 下载器下载网页
    • 下载器接收到调度器发送的请求后,会下载对应的网页内容,并将下载到的响应返回给引擎。
  5. 引擎将响应发送给 Spider
    • 引擎接收到下载器返回的响应后,会将响应发送给对应的 Spider 进行处理。
  6. Spider 解析响应
    • Spider 接收到响应后,会根据预先定义的规则,解析网页内容,提取需要的数据,并生成新的 Item 对象。
  7. Item 被发送到 Item Pipeline
    • Spider 将解析得到的 Item 对象发送到 Item Pipeline 进行处理,包括数据清洗、验证、存储等操作。
  8. 数据存储
    • Item Pipeline 将处理后的数据存储到指定的数据存储介质(如数据库、文件等)中。
  9. Spider 继续爬取
    • Spider 可能会继续根据规则跟踪链接,生成新的请求,并重复上述流程,直到没有新的请求或达到停止条件。
  10. 爬虫关闭
    • 当爬取结束时,Spider 可能会发送信号给引擎,引擎收到信号后关闭爬虫。

这就是 Scrapy 的基本工作流程。通过这个流程,Scrapy 能够高效地从网页中提取数据,并进行处理和存储,实现了一个完整的网络爬虫功能。

介绍完了scrapy相信你对它已经有了一定的了解。不要着急,后面我会详细解析scrapy的知识点。那今天的学习就到这里了,我们明天再见啦。要天天开心!

相关推荐
炼丹师小米8 分钟前
Ubuntu24.04.1系统下VideoMamba环境配置
python·环境配置·videomamba
GFCGUO15 分钟前
ubuntu18.04运行OpenPCDet出现的问题
linux·python·学习·ubuntu·conda·pip
985小水博一枚呀2 小时前
【深度学习基础模型】神经图灵机(Neural Turing Machines, NTM)详细理解并附实现代码。
人工智能·python·rnn·深度学习·lstm·ntm
丝丝不是土豆丝2 小时前
学习 CSS 新的属性 conic-gradient 实现环形进度条
学习
S hh2 小时前
【Linux】进程地址空间
java·linux·运维·服务器·学习
wusam3 小时前
螺蛳壳里做道场:老破机搭建的私人数据中心---Centos下Docker学习04(环境准备)
学习·docker·centos
攸攸太上3 小时前
Spring Gateway学习
java·后端·学习·spring·微服务·gateway
萧鼎3 小时前
Python调试技巧:高效定位与修复问题
服务器·开发语言·python
Geek之路3 小时前
QT系统学习篇(1)
开发语言·qt·学习
IFTICing3 小时前
【文献阅读】Attention Bottlenecks for Multimodal Fusion
人工智能·pytorch·python·神经网络·学习·模态融合