scrapy框架

概念

scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy使用了Twisted['twistid']异步网络框架,可以加快我们的下载速度

作用

少量的代码,就能快速的抓取

流程描述如下:

1.爬虫中起始的url构成request对象-->爬虫中间件-->引擎-->调度器

2.调度器把request-->引擎-->下载中间件-->下载器

3.下载器发送请求,获取response响应---->下载中间件---->引擎---->爬虫中间件---->爬虫

4.爬虫提取url地址,组装成request对象---->爬虫中间件---->引擎---->调度器,重复步骤2

5.爬虫提取数据---->引擎---->管道处理和保存数据

各个模块只和引擎做交互

python 复制代码
class Item(object):
    def __init__(self, url, headers):
        self.url  = url
        self.headers = headers

item = Item('https://www.baidu.com', 'headers')
print(item)
print(item.url)
print(item.headers)
    

将url做成一个对象传给引擎

scrapy的三个内置对象

request请求对象:由url method post_data headers等构成

response响应对象:由url body status headerss等构成

item数据对象:本质是个字典

scrapy中每个模块的具体作用

引擎 数据和信号的传递

调度器 任务队列

下载器

爬虫 起始的url 解析

管道 保存数据

中间件 定制化操作

scrapy的入门使用

安装 pip3 install scrapy

相关推荐
m***66734 天前
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程
爬虫·scrapy
源码之家8 天前
基于python租房大数据分析系统 房屋数据分析推荐 scrapy爬虫+可视化大屏 贝壳租房网 计算机毕业设计 推荐系统(源码+文档)✅
大数据·爬虫·python·scrapy·数据分析·推荐算法·租房
*才华有限公司*11 天前
用Scrapyd爬取豆瓣图书Top250
scrapy
深蓝电商API14 天前
Scrapy源码剖析:下载器中间件是如何工作的?
爬虫·scrapy
深蓝电商API17 天前
解析器的抉择:parsel vs lxml,在 Scrapy 中如何做出最佳选择?
scrapy·lxml·parsel
小白学大数据22 天前
集成Scrapy与异步库:Scrapy+Playwright自动化爬取动态内容
运维·爬虫·scrapy·自动化
深蓝电商API22 天前
爬虫性能压榨艺术:深入剖析 Scrapy 内核与中间件优化
爬虫·scrapy
B站_计算机毕业设计之家1 个月前
python舆情分析可视化系统 情感分析 微博 爬虫 scrapy爬虫技术 朴素贝叶斯分类算法大数据 计算机✅
大数据·爬虫·python·scrapy·数据分析·1024程序员节·舆情分析
深兰科技1 个月前
深兰科技法务大模型亮相,推动律所文书处理智能化
人工智能·scrapy·beautifulsoup·scikit-learn·pyqt·fastapi·深兰科技
龙腾AI白云1 个月前
大模型-7种大模型微调方法 上
scrapy·scikit-learn·pyqt