prometheus&grafana实现监控告警

Prometheus负责集群数据的监控和采集,然后传递给grafana进行可视化,集成睿象云可实现监控报警,为了方便操作,可以通过iframe嵌套grafana到指定的页面。

文章目录

1.Grafana集成Prometheus

修改prometheus/config/prometheus.yml ,配置需要监控的集群节点(doirs,zookeeper,hadoop,flink)。

修改完配置,重启docker。

访问http://ip地址:9090/targets,可以看到集群各个节点的健康状态。
访问http://ip地址:3000/dashboards
Connections->Data sources添加prometheus数据源,然后新建仪表盘



根据id加载对应的仪表盘
flink集群
doris集群

hadoop集群
zookeeper集群

2.iframe内嵌grafana

修改grafana/conf/grafana.ini ,设置匿名登录。
设置允许嵌套图表。

复制面板的链接
内嵌到指定的网页

3.监控告警

grafana集成睿象云可以实现邮箱,钉钉,短信和电话等方式告警,以监控flink集群告警邮箱为例,进入睿象云,绑定邮箱。

监控grafana
得到url链接

到grafana添加联系点
设置分配策略及通知策略

添加仪表盘,表达式((flink_jobmanager_job_uptime)-(flink_jobmanager_job_uptime offset 30s))/100用于监控flink集群作业是否正常运行(flink_jobmanager_job_uptime表示job从启动到当前时间的持续运行时间,若当前时间戳减去前30s的时间戳等于0说明运行的job已经挂掉了)

告警条件设置为当前时刻表达式的取值为0
设置联系点
正常情况下的监控
验证监控告警是否有效

java 复制代码
public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        SingleOutputStreamOperator<WordCount> sensorDS = env
                .socketTextStream("192.168.235.130", 9988).
        map(new MapFunction<String, WordCount>() {
            @Override
            public WordCount map(String s) throws Exception {
                String[] data = s.split(",");
                return new WordCount(data[0], Integer.parseInt(data[1]));
            }
        });


        KeyedStream<WordCount, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getWord());

        WindowedStream<WordCount, String, TimeWindow> sensorWS = sensorKS.window(TumblingProcessingTimeWindows.of(Time.seconds(10)));

        SingleOutputStreamOperator<String> process = sensorWS
                .process(
                        new ProcessWindowFunction<WordCount, String, String, TimeWindow>() {
                            @Override
                            public void process(String s, Context context, Iterable<WordCount> elements, Collector<String> out) throws Exception {
                                long startTs = context.window().getStart();
                                long endTs = context.window().getEnd();
                                String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS");
                                String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS");

                                long count = elements.spliterator().estimateSize();

                                out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包含" + count + "条数据===>" + elements.toString());

                            }
                        }
                );
        process.print();

        env.execute();
    }

当断开端口的监听之后,job挂掉了,此时邮箱收到告警信息。

相关推荐
TDengine (老段)5 分钟前
TDengine 连接算子 — Inner/Outer/ASOF/Window Join 的实现与使用
大数据·数据库·物联网·哈希算法·时序数据库·tdengine·涛思数据
春日见10 分钟前
vscode的AI编程插件推荐:
大数据·ide·vscode·算法·机器学习·编辑器·ai编程
轻刀快马12 分钟前
跨越软硬件的共鸣(二):从 Cache 写策略看 Redis 与 DB 的一致性博弈
java·开发语言·redis·计算机组成原理
折哥的程序人生 · 物流技术专研12 分钟前
Java 23 种设计模式:从踩坑到精通 | 装饰器模式 —— 比继承更灵活的扩展方式,你用过吗?
java·装饰器模式·java面试·结构型模式·java设计模式·javaio·从踩坑到精通
2601_9594819219 分钟前
CPT Markets:把信息披露习惯做到位——路径梳理与提示整理
大数据
lili001219 分钟前
2026 企业 AI 选型新范式:OpenRouter Fusion 证明多模型融合性价比远超单模型,企业该如何重构技术栈? - 微元算力(weytoken)
java·人工智能·python·重构·ai编程
shushangyun_22 分钟前
汽车服务行业B2B平台+AI解决方案哪家专业:2026年最新测评
java·运维·网络·数据库·人工智能·汽车
A.说学逗唱的Coke25 分钟前
【大模型专题】Spring AI Alibaba × Skill 整合实战:让 AI 真正“会干活
java·人工智能·spring
大黄说说37 分钟前
深入理解 Go 协程 Goroutine:并发编程的核心精髓
java·数据库·python
小懿互联集成平台42 分钟前
金蝶云星空与赛狐跨境电商ERP系统数据互通对接
大数据·金蝶云星空·数据对接·小懿互联·赛狐erp