云原生监控体系建设：打造全方位的可观测性平台

引言

在云原生时代，监控是保障系统稳定运行的关键。一个完善的监控体系可以帮助我们及时发现问题、定位问题、解决问题。

今天就来分享一下云原生监控体系的建设经验。

监控体系概述

可观测性三支柱

监控体系通常包括三个方面：

指标：量化的度量，如CPU使用率、响应时间、内存使用量等。指标是监控的基础，可以帮助我们了解系统的运行状态。

日志：事件的记录，如应用日志、系统日志、访问日志等。日志可以帮助我们了解系统发生了什么，是问题排查的重要依据。

追踪：请求的完整路径，记录请求从入口到出口的整个过程。追踪可以帮助我们了解请求在各个服务之间的流转情况，定位性能瓶颈。

监控目标

监控体系的目标是：

发现问题：及时发现系统中的异常，如服务宕机、性能下降、错误率升高等。

定位问题：快速定位问题的根源，通过指标、日志和追踪的结合，找到问题发生的位置和原因。

解决问题：帮助解决问题，提供足够的信息让工程师能够快速修复问题。

预防问题：通过数据分析预测潜在问题，提前采取措施避免问题发生。

优化性能：通过监控数据发现性能瓶颈，进行系统优化。

监控层次

监控体系可以分为几个层次：

基础设施层：监控服务器、网络、存储等基础设施的状态。

平台层：监控Kubernetes、Docker等平台的运行状态。

应用层：监控应用程序的运行状态，包括请求数、响应时间、错误率等。

业务层：监控业务指标，如订单量、用户活跃度、转化率等。

监控工具生态

云原生监控工具生态包括：

指标监控 ：Prometheus、InfluxDB、Graphite
日志管理 ：Elastic Stack（Elasticsearch、Logstash、Kibana）、Loki、Fluentd
分布式追踪 ：Jaeger、Zipkin、OpenTelemetry
告警管理 ：Alertmanager、PagerDuty、OpsGenie
可视化：Grafana、Kibana、Datadog

指标监控

指标类型

常见的指标类型有：

基础设施指标：CPU、内存、磁盘、网络
应用指标：请求数、响应时间、错误率
业务指标：订单量、用户活跃度

指标采集

使用Prometheus采集指标：

yaml 复制代码

# prometheus.yml
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'kubernetes-pods'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
        action: keep
        regex: true
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
        action: replace
        target_label: __metrics_path__
        regex: (.+)
      - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
        action: replace
        regex: ([^:]+)(?::\d+)?;(\d+)
        replacement: $1:$2
        target_label: __address__

指标展示

使用Grafana展示指标：

json 复制代码

{
  "panels": [
    {
      "title": "CPU Usage",
      "type": "graph",
      "targets": [
        {
          "expr": "100 - (avg by(instance) (irate(node_cpu_seconds_total{mode=\"idle\"}[5m])) * 100)",
          "legendFormat": "{{instance}}"
        }
      ]
    }
  ]
}

日志管理

日志采集

使用Filebeat采集日志：

yaml 复制代码

filebeat.inputs:
- type: log
  paths:
    - /var/log/myapp/*.log
  json.keys_under_root: true
  json.add_error_key: true
  fields:
    service: myapp

output.logstash:
  hosts: ["logstash:5044"]

日志处理

使用Logstash处理日志：

ruby 复制代码

input {
  beats {
    port => 5044
  }
}

filter {
  if [service] == "myapp" {
    grok {
      match => { "message" => "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:level} %{GREEDYDATA:message}" }
    }
    date {
      match => ["timestamp", "ISO8601"]
      target => "@timestamp"
    }
  }
}

output {
  elasticsearch {
    hosts => ["elasticsearch:9200"]
    index => "myapp-logs-%{+YYYY.MM.dd}"
  }
}

日志查询

使用Kibana查询日志：

json 复制代码

{
  "query": {
    "bool": {
      "must": [
        { "term": { "level": "ERROR" } },
        { "range": { "@timestamp": { "gte": "now-1h" } } }
      ]
    }
  }
}

分布式追踪

追踪采集

使用Jaeger采集追踪数据：

yaml 复制代码

apiVersion: jaegertracing.io/v1
kind: Jaeger
metadata:
  name: jaeger
spec:
  strategy: allInOne
  ingress:
    enabled: true

追踪实现

在应用中集成OpenTelemetry：

python 复制代码

from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.jaeger.thrift import JaegerExporter

trace.set_tracer_provider(TracerProvider())
tracer = trace.get_tracer(__name__)

jaeger_exporter = JaegerExporter(
    agent_host_name="jaeger-agent",
    agent_port=6831,
)

trace.get_tracer_provider().add_span_processor(
    BatchSpanProcessor(jaeger_exporter)
)

with tracer.start_as_current_span("my-operation"):
    # 业务逻辑
    pass

告警管理

告警规则

配置Prometheus告警规则：

yaml 复制代码

groups:
  - name: node-alerts
    rules:
      - alert: HighCPUUsage
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 2m
        labels:
          severity: warning
        annotations:
          summary: "High CPU usage detected"
          description: "CPU usage is {{ $value }}% on instance {{ $labels.instance }}"

告警通知

使用Alertmanager发送告警：

yaml 复制代码

route:
  group_by: ['alertname']
  receiver: 'web.hook'

receivers:
  - name: 'web.hook'
    webhook_configs:
      - url: 'https://api.example.com/webhook'
    slack_configs:
      - channel: '#ops-alerts'
        send_resolved: true

监控最佳实践

监控覆盖

确保监控覆盖所有关键组件：

基础设施层
平台层
应用层
业务层

告警策略

设置合理的告警策略：

避免告警风暴
设置不同级别的告警
定期回顾和优化告警规则

数据存储

合理管理监控数据：

设置数据保留策略
使用合适的存储方案
定期清理过期数据

结语

监控体系是云原生架构中不可或缺的一部分。通过建立完善的监控体系，可以提高系统的可靠性和可维护性。

希望这篇文章能帮助你更好地建设监控体系。如果你有任何问题，欢迎在评论区交流。

本文作者：侯万里（万里侯），致力于打造可观测性平台的工程师