scrapy项目开发流程

1.创建项目:

scrapy startproject mySpider

2.生成一个爬虫:

scrapy genspider itcast itcast.cn

3.提取数据:

根据网站结构在spider中实现数据采集相关内容

4.保存数据

使用pipeline进行数据后续处理和保存

1.创建项目

items.py-->自己预计需要爬取的内容

middlewares.py-->自定义中间件的文件

pipelines.py-->管道,保存数据

settings.py-->设置文件,UA,启动管道

spiders-->自己定义的spider的文件夹

2.创建爬虫

scrapy startproject <爬虫名字><允许爬取的域名>

itcast.py-->定义spider的文件

python 复制代码
import scrapy


class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    start_urls = ["https://itcast.cn"]

    def parse(self, response):
        #定义对于网站的相关操作
        pass

爬虫文件的介绍

三个参数

name allowed_domains start_urls(设置起始的url,请求会被自动的发送出去,然后 返回parse方法做解析)

一个方法

parse方法 ------ 解析方法,通常用于起始url对于响应的解析

运行爬虫需在爬虫项目路径下

scrapy crawl <爬虫名字>

相关推荐
@杨某2 天前
scrapy的暂停与重启
scrapy
@杨某2 天前
selenium嵌入scrapy动态网页抓取
selenium·测试工具·scrapy
猫头虎4 天前
如何解决pip报错 import pandas as pd ModuleNotFoundError: No module named ‘pandas‘问题
java·python·scrapy·beautifulsoup·pandas·pip·scipy
qq_13948428827 天前
python基于大数据技术的酒店消费数据分析系统
大数据·python·scrapy·django·flask
小白学大数据10 天前
Python 网络爬虫:Scrapy 解析汽车之家报价与评测
开发语言·爬虫·python·scrapy
Elaine33611 天前
实战教学:使用 Scrapy 爬取 CSDN 文章与用户头像
python·scrapy·网络爬虫
Elaine33611 天前
深度实战:基于 Scrapy CrawlSpider 的全自动化教程采集系统
python·scrapy·自动化·网络爬虫
胡伯来了12 天前
07 - 数据收集 - 网页采集工具Scrapy
python·scrapy·数据采集
傻啦嘿哟13 天前
Docker部署Scrapy集群:爬虫容器化实战指南
爬虫·scrapy·docker
我可以将你更新哟19 天前
【scrapy框架】爬取内容后写入数据库
数据库·windows·scrapy