七、Scrapy框架-案例1

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

  1. 安装Scrapy库

    python 复制代码
    pip install scrapy
  2. 创建Scrapy项目

    通过cmd进入命令窗口,执行命令scrapy startproject xxxx (xxxx为scrapy项目名),创建scrapy项目。

    python 复制代码
    scrapy startproject douban_spider2024
  3. 创建爬虫项目

    执行scrapy genspider xxx(爬虫名称) xxx(网址)创建爬虫项目。

    python 复制代码
    scrapy genspider douban www.bouban.com


1.2 虚拟环境构建

  1. 使用Pycharm打开创建好的douban_spider2024文件夹,进入项目。

  2. 构建虚拟环境(venv)

  3. 利用requirement.txt文件安装依赖库,也可以自己一个个pip安装。

    • 查看依赖库:pip freeze > requirements.txt

    • 安装依赖库:pip install -r requirements.txt

1.3 主程序编写

主程序(douban.py)用于编写解析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

  • 通过start_requests函数获取urls列表,并用Request封装(需要配合在settings.py中启用下载中间件)。

  • 通过parse函数进行网页解析。

1.4 items.py设置

  • 继承scrapy.Item的自定义类SongItem,导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数,例如USER_AGENT、COOKIES、代理、中间件启停等。

  • 修改USER_AGENT,模拟浏览器登录。

  • 关闭Obey robots.txt rules,将True设置为False。

  • 设置下载延迟

  • 打开下载中间件(downloader_middlewares),实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

  • cookies设置

    进入middlewares.py程序中设置,新增一个处理cookies的函数,执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

    在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。

  • scrapy 利用sock代理??

1.7 多层url解析

  • 利用回调函数解析多层url:在parse函数最后解析获取新的url,并提交新的Request,并传递item到回调函数parse_detail中解析。

  • 在items.py中添加新的item信息。

1.8 pipelines.py设置

  • 通过pipelines.py构建Excel存储管道,用于将爬取的数据存储到excel中。

相关推荐
喵手14 小时前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache
喵手15 小时前
Python爬虫实战:容器化与定时调度实战 - Docker + Cron + 日志轮转 + 失败重试完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·容器化·零基础python爬虫教学·csv导出·定时调度
喵手17 小时前
Python爬虫实战:全站 Sitemap 自动发现 - 解析 sitemap.xml → 自动生成抓取队列的工业级实现!
爬虫·python·爬虫实战·零基础python爬虫教学·sitemap·解析sitemap.xml·自动生成抓取队列实现
iFeng的小屋18 小时前
【2026年新版】Python根据小红书关键词爬取所有笔记数据
笔记·爬虫·python
Love Song残响18 小时前
揭秘Libvio爬虫:动态接口与逆向实战
爬虫
喵手20 小时前
Python爬虫实战:构建招聘会数据采集系统 - requests+lxml 实战企业名单爬取与智能分析!
爬虫·python·爬虫实战·requests·lxml·零基础python爬虫教学·招聘会数据采集
iFeng的小屋21 小时前
【2026最新当当网爬虫分享】用Python爬取千本日本相关图书,自动分析价格分布!
开发语言·爬虫·python
数研小生21 小时前
关键词搜索京东列表API技术对接指南
大数据·数据库·爬虫
喵手1 天前
Python爬虫实战:网页截图归档完全指南 - 构建生产级页面存证与历史回溯系统!
爬虫·python·爬虫实战·零基础python爬虫教学·网页截图归档·历史回溯·生产级方案
Blurpath住宅代理1 天前
动态代理的五大优点:提升爬虫效率与安全性
网络·爬虫·动态ip·住宅ip·住宅代理