scrapy框架

概念

scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy使用了Twisted['twistid']异步网络框架,可以加快我们的下载速度

作用

少量的代码,就能快速的抓取

流程描述如下:

1.爬虫中起始的url构成request对象-->爬虫中间件-->引擎-->调度器

2.调度器把request-->引擎-->下载中间件-->下载器

3.下载器发送请求,获取response响应---->下载中间件---->引擎---->爬虫中间件---->爬虫

4.爬虫提取url地址,组装成request对象---->爬虫中间件---->引擎---->调度器,重复步骤2

5.爬虫提取数据---->引擎---->管道处理和保存数据

各个模块只和引擎做交互

python 复制代码
class Item(object):
    def __init__(self, url, headers):
        self.url  = url
        self.headers = headers

item = Item('https://www.baidu.com', 'headers')
print(item)
print(item.url)
print(item.headers)
    

将url做成一个对象传给引擎

scrapy的三个内置对象

request请求对象:由url method post_data headers等构成

response响应对象:由url body status headerss等构成

item数据对象:本质是个字典

scrapy中每个模块的具体作用

引擎 数据和信号的传递

调度器 任务队列

下载器

爬虫 起始的url 解析

管道 保存数据

中间件 定制化操作

scrapy的入门使用

安装 pip3 install scrapy

相关推荐
深蓝电商API17 小时前
将爬虫部署到服务器:Scrapy+Scrapyd 实现定时任务与监控
服务器·爬虫·scrapy
数据牧羊人的成长笔记1 天前
python爬虫scrapy框架使用
爬虫·python·scrapy
MongoVIP3 天前
Scrapy爬虫实战:正则高效解析豆瓣电影
python·scrapy
深蓝电商API4 天前
Scrapy 框架深度解析:架构、组件与工作流程
scrapy·架构
深蓝电商API5 天前
Scrapy 中间件详解:自定义下载器与爬虫的 “拦截器”
爬虫·scrapy·中间件
计算机毕设残哥6 天前
基于Hadoop+Spark的人体体能数据分析与可视化系统开源实现
大数据·hadoop·python·scrapy·数据分析·spark·dash
计算机毕设残哥9 天前
基于Hadoop+Spark的商店购物趋势分析与可视化系统技术实现
大数据·hadoop·python·scrapy·spark·django·dash
万粉变现经纪人14 天前
如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘tokenizers’ 问题
python·selenium·测试工具·scrapy·beautifulsoup·fastapi·pip
B站_计算机毕业设计之家16 天前
✅ 基于Scrapy与朴素贝叶斯的校园舆情监测与预警系统 Django+B/S架构 可视化大屏 机器学习
python·scrapy·架构·数据分析·django·情感分析·舆情分析
万粉变现经纪人1 个月前
如何解决pip安装报错ModuleNotFoundError: No module named ‘cuml’问题
python·scrapy·beautifulsoup·pandas·ai编程·pip·scipy