强大的开源网络爬虫框架Scrapy的基本介绍(入门级)

Scrapy 是一个强大的开源网络爬虫框架，用于从网站上抓取数据。它基于 Twisted 异步网络框架，可以高效地处理并发请求和数据处理。

以下是 Scrapy 框架的一些重要特点和功能：

**灵活的架构**：

Scrapy 提供了灵活的架构，可以轻松地定义和定制爬虫逻辑、数据提取规则和数据处理流程。

**高性能**：

Scrapy 使用 Twisted 异步网络框架，能够高效地处理并发请求和数据处理，从而实现高性能的网页抓取。

**强大的选择器**：

Scrapy 提供了强大的选择器工具，可以使用 CSS 或 XPath 语法来定位网页元素并提取数据。

**丰富的中间件支持**：

Scrapy 支持中间件机制，可以通过编写中间件来扩展和修改框架的功能，例如添加自定义的请求头、处理请求和响应等。

**多种数据存储支持**：

Scrapy 支持多种数据存储方式，包括保存到文件、存储到数据库、导出到 CSV 或 JSON 等格式。

**自动限速功能**：

Scrapy 提供了自动限速功能，可以控制请求的发送速率，避免对目标网站造成过大的压力。

**交互式 Shell 环境**：

Scrapy 提供了交互式 Shell 环境，可以快速测试和调试选择器和提取规则，方便开发者进行网页数据的提取和处理。

**可扩展性**：

Scrapy 框架具有很高的可扩展性，可以根据具体需求编写自定义的 Spider、中间件、管道等组件，并集成到框架中进行使用。

**完善的文档和社区支持**：

Scrapy 拥有完善的官方文档和活跃的社区支持，开发者可以在文档中找到详细的使用说明和示例代码，并在社区中获取帮助和交流经验。

总之，Scrapy 框架是一个功能强大、灵活易用的网络爬虫框架，适用于各种规模和复杂度的网页抓取和数据处理任务。通过合理地使用 Scrapy，开发者可以快速、高效地构建稳定可靠的网络爬虫应用。

以下是 Scrapy 的一些主要概念和方法：

**项目 (Project)**: Scrapy 项目是一个包含 spider、item、pipeline、middleware 和设置的 Python 包。项目是使用 Scrapy 进行 web 爬取的基本单位。
**Spider**: Spider 是定义如何爬取某个网站的类，包括如何进行页面遍历、如何从网页中提取数据等。每个 Spider 类定义了一个特定的爬虫行为。
**Request 和 Response**: Request 是 Scrapy 用于爬取网页的类，而 Response 是网页返回的内容。Spider 通过产生 Request 对象并返回给 Scrapy 引擎来指示要爬取的网页。引擎再将网页内容封装成 Response 对象并返回给 Spider。
**Item**: Item 是保存爬取数据的容器。在 Scrapy 项目中，你需要定义自己的 Item 类型，并在 Spider 中返回这些 Item。
**Pipeline**: Pipeline 是处理 Item 的组件。当 Spider 返回一个 Item 时，它会被送到 Item Pipeline 中进行处理。处理可能包括清理、验证和持久化（如存储到数据库）数据。
**Middleware**: Middleware 是处理 Request 和 Response 的组件。它们提供了一个方便的机制，可以插入自定义的功能到 Scrapy 的请求/响应处理流程中，例如处理请求头、代理设置等。
**Selector**: Selector 是基于 lxml 库，用于从 HTML 或 XML 文档中提取数据的类。Scrapy 提供了两种选择器：CSS 和 XPath。
**Setting**: 在 Scrapy 项目的 settings.py 文件中，你可以对 Scrapy 项目进行配置。例如，你可以设置并发请求的数量、延迟下载等。

以下是 Scrapy 的一些重要方法：

`scrapy.Request(url, callback)`: 创建一个新的请求。`url` 参数是你要请求的 URL，`callback` 参数是一个函数，当请求完成并返回响应时，Scrapy 将调用这个函数。
`response.css(selector)`: 使用 CSS 选择器从响应中提取数据。`selector` 参数是你的 CSS 选择器。
`response.xpath(selector)`: 使用 XPath 选择器从响应中提取数据。`selector` 参数是你的 XPath 选择器。
`selector.get()`: 返回选择器选择的第一个结果。
`selector.get_all()`: 返回选择器选择的所有结果。
`item[field]`: 获取或设置 item 的字段。`field` 参数是你的字段名称。
`yield item`: 在 Spider 中，你可以使用 `yield` 语句返回 item。Scrapy 将把这个 item 送到 item pipeline 中进行处理。
`scrapy crawl spidername`: 这是一个命令行指令，用于启动一个 spider。`spidername` 参数是你的 spider 的名称。

这就是 Scrapy 的一些重要概念和方法。你可以在 Scrapy 的官方文档中找到更详细的信息。

Scrapy 框架的使用流程通常是：

定义 Spider 类，实现抓取规则和数据提取逻辑。
定义 Item 类，描述要抓取的数据结构。
配置 Pipeline 类，处理和存储抓取到的数据。
可选地配置 Middleware 类，扩展或修改 Scrapy 的功能。
使用 CrawlerProcess 启动爬虫任务，Scrapy 将自动执行抓取任务并处理数据。

例如，如果你想创建一个名为 "myproject" 的项目，你应该运行以下命令：

复制代码

scrapy startproject myproject

这将创建一个名为 "myproject" 的目录，其中包含以下文件和目录：

myproject/
- scrapy.cfg: 项目的配置文件。
- myproject/
  - __init__.py: 一个空的 Python 文件，用于告诉 Python 这个目录应被视为一个 Python 包。
  - items.py: 项目的 item 文件，定义了爬取的数据结构。
  - middlewares.py: 项目的中间件文件。
  - pipelines.py: 项目的管道文件，用于处理爬取到的 item。
  - settings.py: 项目的设置文件，定义了如何配置项目。
  - spiders/
    - __init__.py: 另一个空的 Python 文件，用于告诉 Python 这个目录应被视为一个 Python 包。

这些文件是 Scrapy 项目的基本结构，你可以在这个基础上添加更多的 spiders，修改设置，定义 items，以及添加中间件和管道。

python 复制代码

import scrapy


class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 解析页面，提取数据
        title = response.css('title::text').get()
        paragraphs = response.css('p::text').getall()

        # 输出标题和段落到控制台
        self.logger.info("Title: %s", title)
        self.logger.info("Paragraphs:")
        for paragraph in paragraphs:
            self.logger.info("- %s", paragraph)

        # 将数据传递给管道进行存储
        yield {
            'title': title,
            'paragraphs': paragraphs
        }

# process_item 方法接收两个参数：item 和 spider。
# 其中，item 是一个字典，包含了抓取到的数据；spider 则是抓取数据的 Spider 对象。
class MyPipeline:
    def process_item(self, item, spider):
        # 处理数据，存储到文件或数据库中
        with open('output.txt', 'a') as f:
            f.write(f"Title: {item['title']}\n")
            f.write("Paragraphs:\n")
            for paragraph in item['paragraphs']:
                f.write(f"- {paragraph}\n")
            f.write('\n')
        return item


# 启动爬虫
from scrapy.crawler import CrawlerProcess

process = CrawlerProcess(settings={
    'ITEM_PIPELINES': {'__main__.MyPipeline': 1},
})
process.crawl(MySpider)
process.start()

# 这段代码创建了一个 Scrapy CrawlerProcess 对象，用于启动和管理爬虫任务。
# 在创建 CrawlerProcess 对象时，传入了一个 settings 参数，其中指定了要使用的 Item Pipeline。
# 然后，使用 process.crawl(MySpider) 启动了一个名为 MySpider 的 Spider 对象，即爬虫任务。
# MySpider 是之前定义的一个 Scrapy Spider 类。
# 最后，调用 process.start() 方法开始执行爬虫任务，Scrapy 将会按照 Spider 中定义的规则抓取网页并处理数据。在抓取和处理完成后，程序将退出。

Scrapy 程序的日志输出信息解释：

`INFO: Scrapy 2.11.1 started (bot: scrapybot)`：Scrapy 框架开始运行，显示框架版本号。
`INFO: Enabled addons: []`：显示已启用的 Scrapy 插件为空。
`WARNING: ... ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.`：显示一个 Scrapy 的设置即将被弃用的警告信息。
`DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor`：显示 Scrapy 使用的反应器（reactor）类型。
`INFO: Telnet Password: be39fc00d9595468`：显示启用的 Telnet 控制台的密码。
`INFO: Overridden settings: {}`：显示覆盖的 Scrapy 设置为空。
`INFO: Enabled downloader middlewares: ...`：显示已启用的下载器中间件列表。
`INFO: Enabled spider middlewares: ...`：显示已启用的 Spider 中间件列表。
`INFO: Enabled item pipelines: ['main.MyPipeline']`：显示已启用的 Item Pipeline 列表。
`INFO: Spider opened`：Spider 开始运行。
`INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)`：显示已抓取的页面数和提取的数据项数。
`INFO: Telnet console listening on 127.0.0.1:6023`：显示 Telnet 控制台已在指定地址和端口上监听。
`DEBUG: Crawled (200) <GET http://example.com> (referer: None)`：显示一个 HTTP 请求已被成功抓取。
`DEBUG: ...`：显示 Spider 或 Pipeline 中的自定义调试信息。
`INFO: Closing spider (finished)`：Spider 结束运行。
`INFO: Dumping Scrapy stats: ...`：显示 Scrapy 运行统计信息，如请求次数、响应次数、抓取的数据项数等。
`INFO: Spider closed (finished)`：Spider 已关闭。

这些日志信息提供了关于 Scrapy 程序运行状态和执行过程的详细信息，有助于调试和监控程序的运行情况。