使用Grafana监控K8S中的异常Pod

工作中要维护多个K8S集群,发现运行异常的Pod要及时介入处理。

想到一个思路:使用Grafana将异常的Pod通过图表的方式显示出来。

这里用到了一个Grafana插件,Grafana-Infinity,关于这个插件的使用可以参考玩转Grafana-Infinity插件使用

思路

通过Python脚本采集K8S集群中运行异常的Pod信息,包括命名空间、状态、重启次数、运行时长等。然后将这些数据通过http接口,以JSON格式的方式暴露出来,数据供Infinity来消费。

完整脚本

脚本很简单,读者可以根据实际情况修改,

python 复制代码
import re
import json

import ansible_runner

from flask import Flask, request


def get_abnormal_pod(ip):
    response = {}
    data = []
    modules_args = "kubectl get pod --no-headers -A | grep -E -v -i 'running|completed'"
    ansi_escape = re.compile(r'\x1B(?:[@-Z\\-_]|\[[0-?]*[ -/]*[@-~])')
    pattern = re.compile(r"\s{2,}")

    try:
        runner_obj = ansible_runner.run(private_data_dir="/opt/jsonsource/abnormal_pod",
                                        inventory='/opt/jsonsource/abnormal_pod/inventory',
                                        host_pattern=ip,
                                        quiet=True,
                                        module='shell',
                                        module_args=modules_args)
        for line in runner_obj.stdout.readlines():
            # remove the ANSI escape sequences
            new_line = ansi_escape.sub('', line)
            resource_list = pattern.split(new_line)
            
            # 加保护,防止Grafana的Table panel显示异常
            if 'FAILED' in resource_list[0]:
                return {'data': [{'namespace': '正常', 'name': '正常', 'status': '正常',
                      'restarts': '正常', 'age': '正常'}]}

            ns_resource_detail = {}
            if len(resource_list) == 6:
                ns_resource_detail["namespace"] = resource_list[0]
                ns_resource_detail["name"] = resource_list[1]
                ns_resource_detail["status"] = resource_list[3]
                ns_resource_detail["restarts"] = resource_list[4]
                ns_resource_detail["age"] = resource_list[5].strip('\n')
                data.append(ns_resource_detail)
        response['data'] = data
    except:
        print("There is a exception")

    return response


app = Flask(__name__)

@app.route('/items')
def items():
    k8s_name_ip = {}
    k8s_name_ip['prod'] = '10.10.0.2'
    k8s_name_ip['demo'] = '10.11.0.2'
    k8s_name_ip['test'] = '10.12.0.2'

    cluster_name = request.args.get("tag")

    if cluster_name in k8s_name_ip:
        ip = k8s_name_ip[cluster_name]
        return get_abnormal_pod(ip)

    # 保护,防止返回错误数据
    return {'data': [{'namespace': '仅支持指定平台', 'name': '仅支持指定平台', 'status': '仅支持指定平台',
                      'restarts': '仅支持指定平台', 'age': '仅支持指定平台'}]}


if __name__ == "__main__":
    app.run(host="0.0.0.0", port=3111)

因为脚本运行的服务器不能直接访问K8S,这里使用了Ansible来远程执行。Inventory文件内容如下,

bash 复制代码
10.10.0.2
10.11.0.2
10.12.0.2

配置Grafana

新开一个Panel,类型选择"Table",数据源选择"Infinity"。

这里有个技巧,参照上面的Python脚本,

python 复制代码
cluster_name = request.args.get("tag")

集群的控制服务器IP通过查询参数"tag"传递,在配置"Infinity"插件时,要给"URL"配置一个查询参数,

这样我们就可以在Grafana上自由切换来显示不同环境的Pod运行状态。

显示效果

这样便可以通过Grafana上的一个单一Panel监控多个K8S集群的运行异常Pod。

相关推荐
Alsn8619 小时前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
java_cj21 小时前
深入kube-apiserver认证机制:从Bearer Token到mTLS的完整认证链解析
linux·运维·服务器·云原生·容器·kubernetes
程序员老赵1 天前
服务器没有桌面?Docker 跑个 Chrome,浏览器就能远程用
docker·容器·devops
杨浦老苏1 天前
轻量级Docker仪表板Servedash
运维·docker·监控·群晖·仪表板
正经教主1 天前
【docker基础】 第八周:容器监控与应用更新策略
运维·docker·容器
kiros_wang1 天前
Docker 使用完整指南
运维·docker·容器
正经教主1 天前
【docker基础】第九周:Docker安全与镜像优化
运维·docker·容器
qq_452396231 天前
第十三篇:《K8s 安全基础:RBAC、ServiceAccount、Pod Security》
java·安全·kubernetes
CodeStats1 天前
【虚拟机】 从 CPU 指令到虚拟机隔离:虚拟机就是一个“模拟了完整硬件的普通进程”
java·docker
ai产品老杨1 天前
突破安防碎片化:基于 Docker 与边缘计算的 AI 视频智能化中台,如何通过 GB28181/RTSP 统一接入与全套源码交付实现二次开发自由?
人工智能·docker·边缘计算