七、Scrapy框架-案例1

溪奇的数据2024-09-21 12:34

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

安装Scrapy库
python 复制代码
```
pip install scrapy
```
创建Scrapy项目

通过cmd进入命令窗口，执行命令scrapy startproject xxxx (xxxx为scrapy项目名)，创建scrapy项目。
python 复制代码
```
scrapy startproject douban_spider2024
```
创建爬虫项目

执行scrapy genspider xxx（爬虫名称） xxx（网址）创建爬虫项目。
python 复制代码
```
scrapy genspider douban www.bouban.com
```

1.2 虚拟环境构建

使用Pycharm打开创建好的douban_spider2024文件夹，进入项目。
构建虚拟环境(venv)
利用requirement.txt文件安装依赖库，也可以自己一个个pip安装。
- 查看依赖库：pip freeze > requirements.txt
- 安装依赖库：pip install -r requirements.txt

1.3 主程序编写

主程序（douban.py）用于编写解析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

通过start_requests函数获取urls列表，并用Request封装（需要配合在settings.py中启用下载中间件）。
通过parse函数进行网页解析。

1.4 items.py设置

继承scrapy.Item的自定义类SongItem，导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数，例如USER_AGENT、COOKIES、代理、中间件启停等。

修改USER_AGENT，模拟浏览器登录。
关闭Obey robots.txt rules，将True设置为False。
设置下载延迟
打开下载中间件（downloader_middlewares），实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

cookies设置

进入middlewares.py程序中设置，新增一个处理cookies的函数，执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。
scrapy 利用sock代理？？

1.7 多层url解析

利用回调函数解析多层url：在parse函数最后解析获取新的url，并提交新的Request，并传递item到回调函数parse_detail中解析。
在items.py中添加新的item信息。

1.8 pipelines.py设置

通过pipelines.py构建Excel存储管道，用于将爬取的数据存储到excel中。

上一篇：开源 AI 智能名片 S2B2C 商城小程序与正能量融入对社群归属感的影响

下一篇：MySQL基础篇的补充

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03Linux下V2Ray安装配置指南 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05jdk21下载、安装（Windows、Linux、macOS）06Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 07【踩坑笔记】50系显卡适配的 PyTorch 安装 082025-04-03 Latex学习1——本地配置Latex + VScode环境 09KGG转MP3工具|非KGM文件|解密音频 10UV安装并设置国内源