scrapy项目开发流程

1.创建项目:

scrapy startproject mySpider

2.生成一个爬虫:

scrapy genspider itcast itcast.cn

3.提取数据:

根据网站结构在spider中实现数据采集相关内容

4.保存数据

使用pipeline进行数据后续处理和保存

1.创建项目

items.py-->自己预计需要爬取的内容

middlewares.py-->自定义中间件的文件

pipelines.py-->管道,保存数据

settings.py-->设置文件,UA,启动管道

spiders-->自己定义的spider的文件夹

2.创建爬虫

scrapy startproject <爬虫名字><允许爬取的域名>

itcast.py-->定义spider的文件

python 复制代码
import scrapy


class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    start_urls = ["https://itcast.cn"]

    def parse(self, response):
        #定义对于网站的相关操作
        pass

爬虫文件的介绍

三个参数

name allowed_domains start_urls(设置起始的url,请求会被自动的发送出去,然后 返回parse方法做解析)

一个方法

parse方法 ------ 解析方法,通常用于起始url对于响应的解析

运行爬虫需在爬虫项目路径下

scrapy crawl <爬虫名字>

相关推荐
ん贤10 天前
Scrapy 嵌入 FastAPI 的坑:Asyncio/Twisted 桥接 + 代理池设计
python·scrapy·fastapi
龙腾AI白云19 天前
具身智能体的长期任务规划与记忆机制
python·scrapy·plotly·数据挖掘·pyqt
青春不朽51223 天前
Scrapy框架入门指南
python·scrapy
泡泡以安25 天前
Scrapy分布式爬虫调度器架构设计说明
分布式·爬虫·scrapy·调度器
yq1982043011561 个月前
构建高可用资源导航平台:基于Django+Scrapy的分布式架构实践
分布式·scrapy·django
袖清暮雨1 个月前
Python爬虫(Scrapy框架)
开发语言·爬虫·python·scrapy
岱宗夫up1 个月前
Scrapy框架实战教程(上):从入门到实战,搭建你的第一个专业爬虫
爬虫·python·scrapy
B站计算机毕业设计超人1 个月前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
强化试剂瓶1 个月前
全面掌握Ergosterol-PEG-Biotin,麦角甾醇PEG生物素的使用与注意事项
python·scrapy·flask·scikit-learn·pyqt
深蓝电商API1 个月前
Scrapy 爬虫监控:结合 Prometheus+Grafana 实践
爬虫·python·scrapy