Scrapy 爬虫监控：结合 Prometheus+Grafana 实践

在大规模爬虫集群运维场景中，实时监控爬虫的运行状态、请求成功率、数据抓取量等核心指标，是保障业务稳定性和数据质量的关键。Scrapy 作为 Python 生态中最流行的爬虫框架，本身提供了基础的日志输出功能，但缺乏可视化的监控面板和告警机制。本文将介绍如何通过Prometheus （时序数据监控系统）和Grafana（可视化仪表盘工具），搭建一套完整的 Scrapy 爬虫监控体系。

一、监控方案整体架构

在 Scrapy 爬虫监控方案中，核心组件分为三层：

数据采集层：通过 Scrapy 扩展，在爬虫运行过程中采集核心指标（如请求数、响应数、错误数、item 产出量等），并暴露为 Prometheus 可抓取的 HTTP 接口。
数据存储与聚合层：Prometheus 定期从爬虫暴露的接口拉取指标数据，存储为时序数据，并支持通过 PromQL 进行指标查询和聚合。
可视化与告警层：Grafana 对接 Prometheus 数据源，通过自定义仪表盘展示爬虫运行状态，并配置告警规则，当指标异常时触发通知（如邮件、钉钉）。

整体流程：Scrapy爬虫(采集指标) → 暴露metrics接口 → Prometheus(拉取/存储数据) → Grafana(可视化/告警)

二、环境准备

基础环境
- Python 3.8+
- Scrapy 2.0+
- Docker & Docker Compose（推荐用于快速部署 Prometheus 和 Grafana）
核心依赖包 安装用于暴露 Prometheus 指标的 Python 库：

bash

运行
复制代码
```
pip install prometheus-client scrapy-prometheus-exporter
```
- prometheus-client：官方 Python 客户端，用于生成和暴露 metrics 指标。
- scrapy-prometheus-exporter：Scrapy 的第三方扩展，简化爬虫指标的采集和暴露流程。

三、Scrapy 爬虫集成 Prometheus 指标采集

3.1 配置 Scrapy 扩展

修改 Scrapy 项目的settings.py文件，启用 Prometheus 扩展并配置相关参数：

python

运行

复制代码

# settings.py
# 1. 启用Prometheus扩展
DOWNLOADER_MIDDLEWARES = {
    'scrapy_prometheus_exporter.PrometheusMiddleware': 543,
}

# 2. 配置Prometheus指标暴露的端口和路径
PROMETHEUS_ENABLED = True
PROMETHEUS_PORT = 9091  # 指标暴露端口，避免与Prometheus服务端口冲突
PROMETHEUS_PATH = '/metrics'  # 指标访问路径，默认/metrics
PROMETHEUS_REGISTRY = 'prometheus_client.registry.CollectorRegistry'

# 3. 可选：自定义监控指标（如item产出量、自定义业务指标）

3.2 内置核心指标说明

scrapy-prometheus-exporter默认采集以下核心指标（均为 Counter 类型，累计值）：

指标名	指标说明	标签
`scrapy_requests_total`	总请求数	`spider`（爬虫名）、`method`（请求方法）
`scrapy_responses_total`	总响应数	`spider`、`status`（响应状态码）
`scrapy_items_total`	总 Item 产出量	`spider`、`item_type`（Item 类型）
`scrapy_errors_total`	总错误数	`spider`、`error`（错误类型）
`scrapy_requests_duration_seconds`	请求耗时直方图	`spider`

3.3 自定义业务指标

如果需要监控业务相关指标（如数据去重数、解析成功率），可以通过prometheus-client手动注册指标：

python

运行

复制代码

# 在爬虫项目中创建custom_metrics.py
from prometheus_client import Counter, Histogram, CollectorRegistry

# 创建自定义指标注册表
registry = CollectorRegistry()

# 1. 自定义Counter指标：数据去重数
duplicate_item_counter = Counter(
    'scrapy_duplicate_items_total',
    'Total number of duplicate items',
    ['spider'],
    registry=registry
)

# 2. 自定义Histogram指标：Item解析耗时
item_parse_duration = Histogram(
    'scrapy_item_parse_duration_seconds',
    'Duration of item parsing process',
    ['spider'],
    registry=registry
)

在爬虫的parse方法中使用自定义指标：

python

运行

复制代码

from scrapy import Spider
from .custom_metrics import duplicate_item_counter, item_parse_duration

class MySpider(Spider):
    name = 'my_spider'
    
    def parse(self, response):
        # 记录解析耗时
        with item_parse_duration.labels(spider=self.name).time():
            item = {}
            # 业务解析逻辑...
            # 模拟去重判断
            if self.is_duplicate(item):
                duplicate_item_counter.labels(spider=self.name).inc()
                return
            yield item
    
    def is_duplicate(self, item):
        # 去重逻辑实现
        return False

3.4 启动爬虫并验证指标

启动 Scrapy 爬虫：

bash

运行

复制代码

scrapy crawl my_spider

爬虫运行后，访问http://localhost:9091/metrics，即可看到暴露的指标数据，类似如下格式：

plaintext

复制代码

# HELP scrapy_requests_total Total number of requests
# TYPE scrapy_requests_total counter
scrapy_requests_total{method="GET",spider="my_spider"} 100
# HELP scrapy_responses_total Total number of responses
# TYPE scrapy_responses_total counter
scrapy_responses_total{spider="my_spider",status="200"} 95
scrapy_responses_total{spider="my_spider",status="404"} 5

四、部署 Prometheus 采集指标数据

Prometheus 支持通过静态配置或服务发现机制抓取目标指标。本文采用 Docker Compose 快速部署 Prometheus，并配置静态抓取目标。

4.1 编写 Prometheus 配置文件

创建prometheus.yml配置文件：

yaml

复制代码

global:
  scrape_interval: 15s  # 全局抓取间隔，每15秒抓取一次指标
  evaluation_interval: 15s

scrape_configs:
  # 配置Scrapy爬虫指标抓取任务
  - job_name: 'scrapy_spiders'
    static_configs:
      - targets: ['host.docker.internal:9091']  # 爬虫暴露的指标地址
        labels:
          project: 'my_scrapy_project'  # 自定义标签，用于区分不同项目

scrape_interval：控制 Prometheus 抓取指标的频率，根据业务需求调整（如 10s / 次）。
targets：爬虫的 IP 和端口，若爬虫和 Prometheus 在同一主机，Docker 环境下使用host.docker.internal访问宿主机端口。

4.2 Docker Compose 部署 Prometheus

创建docker-compose.yml文件：

yaml

复制代码

version: '3'
services:
  prometheus:
    image: prom/prometheus:v2.45.0
    container_name: prometheus
    ports:
      - "9090:9090"
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
      - prometheus_data:/prometheus
    restart: always
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--web.console.libraries=/usr/share/prometheus/console_libraries'
      - '--web.console.templates=/usr/share/prometheus/consoles'

volumes:
  prometheus_data:

启动 Prometheus 容器：

bash

运行

复制代码

docker-compose up -d prometheus

访问http://localhost:9090进入 Prometheus UI，在Status → Targets中可查看爬虫目标的抓取状态（State为UP表示抓取成功）。

五、Grafana 可视化仪表盘配置

5.1 启动 Grafana 容器

修改docker-compose.yml，添加 Grafana 服务：

yaml

复制代码

version: '3'
services:
  prometheus:
    # 同上...
  grafana:
    image: grafana/grafana:9.5.2
    container_name: grafana
    ports:
      - "3000:3000"
    volumes:
      - grafana_data:/var/lib/grafana
    restart: always
    depends_on:
      - prometheus

volumes:
  prometheus_data:
  grafana_data:

启动 Grafana：

bash

运行

复制代码

docker-compose up -d grafana

5.2 配置 Prometheus 数据源

访问http://localhost:3000，默认账号密码：admin/admin，首次登录需修改密码。
点击左侧菜单栏Configuration → Data sources → Add data source。
选择Prometheus，配置数据源参数：
- URL：http://prometheus:9090（Docker 容器内通过服务名访问）
- 其他参数保持默认，点击Save & test，提示Data source is working表示配置成功。

5.3 导入 / 创建 Scrapy 监控仪表盘

方式 1：导入社区现成仪表盘

Grafana 社区提供了丰富的开源仪表盘模板，可直接导入使用：

访问Grafana Dashboards，搜索Scrapy或Prometheus Scrapy。
复制仪表盘的 ID（如12345）。
在 Grafana 中点击Create → Import，输入仪表盘 ID，选择已配置的 Prometheus 数据源，完成导入。

方式 2：自定义仪表盘（推荐）

根据业务需求自定义监控面板，核心步骤如下：

点击Create → Dashboard → Add panel。
在Query选项卡中，选择 Prometheus 数据源，输入 PromQL 查询语句，例如：
- 请求成功率 ：sum(scrapy_responses_total{status=~"2.."}) / sum(scrapy_requests_total) * 100
- 每分钟 Item 产出量 ：rate(scrapy_items_total[1m])
- 4xx/5xx 错误占比 ：sum(scrapy_responses_total{status=~"[45].."}) / sum(scrapy_requests_total) * 100
在Visualization选项卡中选择图表类型（如折线图、柱状图、单值面板），配置图表标题、单位、颜色等样式。
保存仪表盘，设置仪表盘名称（如Scrapy爬虫监控面板）。

5.4 配置告警规则

当爬虫指标异常时（如请求成功率低于 90%、错误数骤增），Grafana 可触发告警通知：

进入仪表盘编辑页面，点击面板右上角Alert → Create alert rule。
配置告警条件：例如，设置请求成功率 < 90%持续 5 分钟触发告警。
配置通知渠道：在Alerting → Notification channels中添加通知方式（如钉钉机器人、邮件、Slack）。
保存告警规则，Grafana 将定期评估指标，满足条件时发送告警通知。

六、多爬虫集群监控扩展

当需要监控多个 Scrapy 爬虫实例时，可通过以下方式扩展：

静态配置扩展 ：在prometheus.yml的static_configs中添加多个爬虫目标：

yaml

复制代码

static_configs:
  - targets: ['host.docker.internal:9091', 'host.docker.internal:9092', 'host.docker.internal:9093']

服务发现：对于动态扩缩容的爬虫集群，可使用 Prometheus 的服务发现机制（如 Consul、Kubernetes Service Discovery），自动发现新增的爬虫实例。
指标聚合 ：通过 PromQL 的sum()、avg()等函数，聚合多个爬虫的指标，实现集群级别的监控视图。

七、常见问题与优化建议

7.1 常见问题

指标抓取失败 ：检查爬虫的PROMETHEUS_PORT是否开放，防火墙是否拦截，Prometheus 的targets配置是否正确。
指标数据缺失：确认 Scrapy 扩展是否正确启用，爬虫是否正常运行并产生指标数据。
Grafana 图表无数据：检查 PromQL 查询语句是否正确，数据源是否选择无误，时间范围是否匹配。

7.2 优化建议

指标采样频率 ：根据爬虫运行频率调整scrape_interval，高频爬虫可设置为 10s，低频爬虫可设置为 60s，减少 Prometheus 存储压力。
数据保留策略 ：在 Prometheus 配置中设置storage.tsdb.retention.time（如 30d），清理过期数据。
自定义标签 ：为指标添加project、env（开发 / 生产）等标签，便于多维度筛选和聚合。

八、总结

通过Scrapy + Prometheus + Grafana的组合，我们搭建了一套从指标采集、存储到可视化、告警的完整爬虫监控体系。这套方案不仅能实时监控爬虫的运行状态，及时发现请求失败、数据异常等问题，还能为爬虫性能优化和业务决策提供数据支持。在实际生产环境中，可结合容器编排工具（如 Kubernetes）和日志系统（如 ELK），进一步完善爬虫的运维监控体系。