普罗米修斯-告警规则

普罗米修斯告警规则是Prometheus监控系统中用于定义告警条件的核心配置,通过Alertmanager组件实现告警通知。告警规则基于PromQL查询表达式,当指标数据满足特定条件时触发告警。

告警规则基本结构

告警规则通常以YAML格式配置,包含以下关键字段:

复制代码
groups:
- name: example
  rules:
  - alert: HighRequestLatency
    expr: job:request_latency_seconds:mean5m{job="myjob"} > 0.5
    for: 10m
    labels:
      severity: page
    annotations:
      summary: "High request latency (instance {{ $labels.instance }})"
      description: "{{ $labels.job }} has a high request latency above 0.5s (current value: {{ $value }}s)"

核心配置参数

alert:告警名称,用于标识告警类型

expr:PromQL表达式,定义告警触发条件,例如:

  • up == 0:服务不可用

  • node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10:内存使用率超过90%

  • rate(http_requests_total{code="500"}[5m]) / rate(http_requests_total[5m]) * 100 > 5:5xx错误率超过5%

for:持续时间,表示条件持续满足多长时间才触发告警,避免瞬时抖动

labels:标签集合,用于告警路由和分组,常见标签包括:

  • severity: critical/warning/info

  • team: devops/backend/frontend

annotations :告警详情,支持模板变量,如{``{ $labels.instance }}{``{ $value }}

常用告警规则示例

1. 服务可用性告警

复制代码
- alert: ServiceDown
  expr: up == 0
  for: 1m
  labels:
    severity: critical
  annotations:
    summary: "服务 {{ $labels.job }} 已下线"
    description: "实例 {{ $labels.instance }} 已超过1分钟不可用"

2. CPU使用率告警

复制代码
- alert: HighCpuUsage
  expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "CPU使用率过高 (instance {{ $labels.instance }})"
    description: "CPU使用率超过80% (当前值: {{ $value }}%)"

3. 内存使用率告警

复制代码
- alert: HighMemoryUsage
  expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "内存使用率过高 (instance {{ $labels.instance }})"
    description: "内存使用率超过85% (当前值: {{ $value }}%)"

4. 磁盘使用率告警

复制代码
- alert: HighDiskUsage
  expr: (node_filesystem_size_bytes{mountpoint="/"} - node_filesystem_avail_bytes{mountpoint="/"}) / node_filesystem_size_bytes{mountpoint="/"} * 100 > 80
  for: 10m
  labels:
    severity: warning
  annotations:
    summary: "磁盘使用率过高 (instance {{ $labels.instance }})"
    description: "根分区使用率超过80% (当前值: {{ $value }}%)"

5. 网络错误率告警

复制代码
- alert: HighNetworkErrorRate
  expr: rate(node_network_receive_errs_total[5m]) / rate(node_network_receive_packets_total[5m]) * 100 > 1
  for: 2m
  labels:
    severity: warning
  annotations:
    summary: "网络接收错误率过高 (instance {{ $labels.instance }})"
    description: "网络接收错误率超过1% (当前值: {{ $value }}%)"

告警规则最佳实践

  1. 合理设置for持续时间:避免瞬时抖动触发告警,建议根据业务场景设置1-10分钟

  2. 使用标签分组 :通过group_by在Alertmanager中实现告警分组,避免告警风暴

  3. 设置告警静默:对于计划内维护,提前设置静默规则

  4. 告警分级:根据影响范围设置不同严重级别(critical/warning/info)

  5. 定期评审告警规则:清理无效告警,优化告警阈值

  6. 测试告警规则 :使用promtool验证规则语法,确保告警能正常触发

告警规则文件加载

告警规则文件通常通过Prometheus配置文件中的rule_files字段加载:

复制代码
rule_files:
  - "rules/*.yml"
  - "first_rules.yml"

配置完成后,需要重启Prometheus服务或通过/-/reload端点热加载配置。

相关推荐
没有退路那我就不要散步4 天前
问题描述:Registry 中存储的镜像数量过多,占用了大量磁盘空间,最终导致磁盘使用率达到 100%,造成服务异常(如无法推送新镜像、拉取镜像超时等)。
运维开发
樽酒ﻬق4 天前
构筑容器化基石:Docker 稳定版本抉择、极速安装与配置全解
java·docker·运维开发
做cv的小昊7 天前
【conda】打包已有conda环境并在其他服务器上搭建
运维·服务器·python·conda·运维开发·pip·开发
运维行者_13 天前
金融和电商行业如何使用网络监控保障业务稳定?
开发语言·网络·人工智能·安全·web安全·机器学习·运维开发
剑飞的编程思维18 天前
电商系统三类迭代方案评审重点
学习·系统架构·自动化·运维开发·学习方法
钰衡大师21 天前
Nohup 使用技术文档
linux·服务器·运维开发·unix
hzhsec24 天前
AI Security Agent:用自然语言做安全巡检,AI 自己跑命令
人工智能·安全·运维开发·ai编程
yeapT25 天前
宝塔部署各类项目踩坑,持续更新
运维开发
苦逼IT运维1 个月前
SVN 仓库目录迁移,仓库 “降级” 成子目录实战
linux·运维·ci/cd·svn·运维开发
慧天城寻1 个月前
H3C巡检命令与避坑技巧
运维·网络·运维开发