scrapy项目开发流程

1.创建项目:

scrapy startproject mySpider

2.生成一个爬虫:

scrapy genspider itcast itcast.cn

3.提取数据:

根据网站结构在spider中实现数据采集相关内容

4.保存数据

使用pipeline进行数据后续处理和保存

1.创建项目

items.py-->自己预计需要爬取的内容

middlewares.py-->自定义中间件的文件

pipelines.py-->管道,保存数据

settings.py-->设置文件,UA,启动管道

spiders-->自己定义的spider的文件夹

2.创建爬虫

scrapy startproject <爬虫名字><允许爬取的域名>

itcast.py-->定义spider的文件

python 复制代码
import scrapy


class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    start_urls = ["https://itcast.cn"]

    def parse(self, response):
        #定义对于网站的相关操作
        pass

爬虫文件的介绍

三个参数

name allowed_domains start_urls(设置起始的url,请求会被自动的发送出去,然后 返回parse方法做解析)

一个方法

parse方法 ------ 解析方法,通常用于起始url对于响应的解析

运行爬虫需在爬虫项目路径下

scrapy crawl <爬虫名字>

相关推荐
猫头虎9 天前
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
爬虫·python·opencv·scrapy·beautifulsoup·numpy·scipy
51716 天前
Scrapy爬虫集成MongoDB存储
爬虫·scrapy·mongodb
万粉变现经纪人17 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘keras’问题
人工智能·python·深度学习·scrapy·pycharm·keras·pip
一勺菠萝丶19 天前
零基础掌握 Scrapy 和 Scrapy-Redis:爬虫分布式部署深度解析
redis·爬虫·scrapy
万粉变现经纪人22 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘dash’问题
python·scrapy·pycharm·flask·pip·策略模式·dash
万粉变现经纪人23 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘plotly’问题
python·scrapy·plotly·pycharm·flask·pandas·pip
t_hj1 个月前
Scrapy
前端·数据库·scrapy
陌上倾城落蝶雨1 个月前
python爬虫
python·scrapy·pycharm
猫头虎1 个月前
什么是 npm、Yarn、pnpm? 有什么区别? 分别适应什么场景?
前端·python·scrapy·arcgis·npm·beautifulsoup·pip