Scrapy 入门教程

Scrapy 是一个用于爬取网站数据的 Python 框架，功能强大且易于扩展。本文将介绍 Scrapy 的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。

1. 什么是 Scrapy？

Scrapy 是一个开源的、用于爬取网站数据的框架，主要特点包括：

高效、异步的爬取机制
强大的 XPath 和 CSS 选择器解析能力
内置中间件，支持代理、去重等功能
易于扩展，适用于各种爬虫需求

2. 安装 Scrapy

Scrapy 需要 Python 3.7 及以上版本，推荐使用虚拟环境进行安装。

sh 复制代码

pip install scrapy

安装完成后，可以运行以下命令检查是否安装成功：

sh 复制代码

scrapy version

3. 创建 Scrapy 项目

使用 Scrapy 创建一个新项目：

sh 复制代码

scrapy startproject myproject

项目结构如下：

复制代码

myproject/
│── myproject/      # 项目模块
│   ├── spiders/    # 存放爬虫文件
│   ├── items.py    # 定义数据结构
│   ├── middlewares.py  # 中间件
│   ├── pipelines.py  # 数据处理
│   ├── settings.py  # 配置文件
└── scrapy.cfg       # 配置文件

4. 编写一个爬虫

进入 spiders 目录，新建 quotes_spider.py 文件，编写爬虫：

python 复制代码

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ["http://quotes.toscrape.com/"]

    def parse(self, response):
        for quote in response.css("div.quote"):
            yield {
                'text': quote.css("span.text::text").get(),
                'author': quote.css("small.author::text").get(),
                'tags': quote.css("div.tags a.tag::text").getall(),
            }

运行爬虫：

sh 复制代码

scrapy crawl quotes

5. 数据存储

Scrapy 支持将爬取的数据存储为 JSON、CSV 等格式：

sh 复制代码

scrapy crawl quotes -o quotes.json

6. 进一步学习

中间件：处理请求和响应，如代理、UA 伪装
管道：对数据进行存储、去重等处理
去重机制：Scrapy 默认去重相同 URL，可自定义去重策略
调试工具 ：scrapy shell 交互式调试

Scrapy 是一个强大且灵活的框架，适用于各种网络爬取需求。希望这篇教程能帮助你快速入门！