scrapy项目开发流程

1.创建项目:

scrapy startproject mySpider

2.生成一个爬虫:

scrapy genspider itcast itcast.cn

3.提取数据:

根据网站结构在spider中实现数据采集相关内容

4.保存数据

使用pipeline进行数据后续处理和保存

1.创建项目

items.py-->自己预计需要爬取的内容

middlewares.py-->自定义中间件的文件

pipelines.py-->管道,保存数据

settings.py-->设置文件,UA,启动管道

spiders-->自己定义的spider的文件夹

2.创建爬虫

scrapy startproject <爬虫名字><允许爬取的域名>

itcast.py-->定义spider的文件

python 复制代码
import scrapy


class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    start_urls = ["https://itcast.cn"]

    def parse(self, response):
        #定义对于网站的相关操作
        pass

爬虫文件的介绍

三个参数

name allowed_domains start_urls(设置起始的url,请求会被自动的发送出去,然后 返回parse方法做解析)

一个方法

parse方法 ------ 解析方法,通常用于起始url对于响应的解析

运行爬虫需在爬虫项目路径下

scrapy crawl <爬虫名字>

相关推荐
风跟我说过她2 天前
基于Scrapy-Redis的分布式房产数据爬虫系统设计与实现
redis·分布式·爬虫·scrapy
mylinke3 天前
构网变流器功率控制在dq坐标系下的下垂控制策略:实现准确功率跟踪与电压前馈响应
scrapy
聊天QQ:4877392784 天前
14bit 100M SAR ADC的Matlab建模探索
scrapy
养乐多q.♡13 天前
scrcpy 设置手机熄屏后不影响投屏
scrapy·智能手机·手机控制
韩立学长15 天前
【开题答辩实录分享】以《计算机类专业招聘信息爬取与查询系统设计与实现》为例进行答辩实录分享
python·scrapy·django
Aerelin15 天前
scrapy的介绍与使用
前端·爬虫·python·scrapy·js
生而为虫16 天前
31.Python语言进阶
python·scrapy·django·flask·fastapi·pygame·tornado
m***667316 天前
网页数据抓取:融合BeautifulSoup和Scrapy的高级爬虫技术
爬虫·scrapy·beautifulsoup
猫头虎17 天前
如何解决pip install网络报错SSLError: TLSV1_ALERT_PROTOCOL_VERSION(OpenSSL过旧)问题
网络·python·scrapy·pycharm·beautifulsoup·pip·scipy
桃子叔叔19 天前
爬虫实战|Scrapy+Selenium 批量爬取汽车之家海量车型外观图(附完整源码)一
爬虫·selenium·scrapy