scrapy框架

概念

scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy使用了Twisted['twistid']异步网络框架,可以加快我们的下载速度

作用

少量的代码,就能快速的抓取

流程描述如下:

1.爬虫中起始的url构成request对象-->爬虫中间件-->引擎-->调度器

2.调度器把request-->引擎-->下载中间件-->下载器

3.下载器发送请求,获取response响应---->下载中间件---->引擎---->爬虫中间件---->爬虫

4.爬虫提取url地址,组装成request对象---->爬虫中间件---->引擎---->调度器,重复步骤2

5.爬虫提取数据---->引擎---->管道处理和保存数据

各个模块只和引擎做交互

python 复制代码
class Item(object):
    def __init__(self, url, headers):
        self.url  = url
        self.headers = headers

item = Item('https://www.baidu.com', 'headers')
print(item)
print(item.url)
print(item.headers)
    

将url做成一个对象传给引擎

scrapy的三个内置对象

request请求对象:由url method post_data headers等构成

response响应对象:由url body status headerss等构成

item数据对象:本质是个字典

scrapy中每个模块的具体作用

引擎 数据和信号的传递

调度器 任务队列

下载器

爬虫 起始的url 解析

管道 保存数据

中间件 定制化操作

scrapy的入门使用

安装 pip3 install scrapy

相关推荐
源码之屋8 天前
计算机毕业设计:新能源汽车多维度数据分析系统 Django框架 Scrapy爬虫 可视化 数据分析 大数据 大模型 机器学习(建议收藏)✅
大数据·python·scrapy·django·汽车·课程设计·美食
IP老炮不瞎唠9 天前
Scrapy 高效采集:优化方案与指南
网络·爬虫·python·scrapy·安全
wxy_summer10 天前
scrcpy 的安装与使用
scrapy·app
小白学大数据13 天前
效率翻倍:Scrapy-Redis 分布式全站爬虫并发优化进阶
redis·分布式·爬虫·scrapy
博士僧小星15 天前
python3_scrapy_Requests类解析(请求与回应)
python·scrapy
q_354888515319 天前
计算机毕业设计源码:Python动漫智能推荐与可视化分析系统 Django框架 协同过滤推荐算法 可视化 数据分析 大数据 大模型(建议收藏)✅
python·scrapy·数据分析·django·课程设计·旅游·推荐算法
B站计算机毕业设计之家19 天前
Python 基于协同过滤的动漫推荐与数据分析平台 Django框架 协同过滤推荐算法 可视化 数据分析 大数据 大模型 计算机毕业设计(建议收藏)✅
大数据·python·scrapy·数据分析·django·课程设计·推荐算法
万粉变现经纪人20 天前
如何解决 pip install pillow-simd 报错 需要 AVX2/特定编译器 支持 问题
python·scrapy·beautifulsoup·aigc·pandas·pillow·pip
小白学大数据21 天前
如何判断网站流量飙升是搜索引擎爬虫导致的?
爬虫·scrapy·搜索引擎·pycharm
安逸sgr1 个月前
【端侧 AI 实战】BitNet 详解:1-bit LLM 推理优化从原理到部署!
人工智能·python·scrapy·fastapi·ai编程·claude