K8S环境中通过prometheus实现flink服务监控并给flink设置服务监测自动重启

prometheus实现flink服务监控

通过flink自带的**PrometheusReporter去监控flink服务**

修改flink-configmap.yaml,添加红框内的三行内容

执行kubectl apply -f flink-configmap.yaml 更新配置文件

flink镜像中可能没有相关的jar包,没有的话**PrometheusReporter就不存在,可以手动添加相关jar包,具体操作如下,比如我是flink1.16.3**

wget https://repo1.maven.org/maven2/org/apache/flink/flink-metrics-prometheus/1.16.3/flink-metrics-prometheus-1.16.3.jar

vim Dockerfile

FROM 你的flink镜像名称

COPY flink-metrics-prometheus-1.16.3.jar /opt/flink/lib/

执行命令打包镜像

docker build -t 你的flink镜像名称-prometheus .

最后在jobManager和taskManager deplotment的yaml文件里修改相关镜像即可

需要在jobManager和taskManager deplotment的yaml文件配置configmap挂载,因为容器内/opt/flink/conf/是只读目录,某些 Flink 启动脚本(如 /docker-entrypoint.sh)会 修改或写入 flink-conf.yaml(例如动态注入环境变量),所以ConfigMap 不能直接挂载到/opt/flink/conf,可以把ConfigMap 到 /tmp/flink-conf,再用启动命令复制。

启动jobManager即可

修改Prometheus的配置,ip是service的地址,也可以写域名

重载配置即可生效。

service的yaml附图:

注意事项:

从 Flink 1.14 开始,官方 弃用了 metrics.reporter.X.class 的配置方式,转而推荐使用 Reporter Factory。如果用​metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter ​

那么 Flink 会尝试通过 反射调用无参构造函数 来实例化 PrometheusReporter。但在 Flink 1.16+ 中,PrometheusReporter 不再提供 public 无参构造函数

正确方式(Flink 1.14+ 推荐) metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory

flink设置服务监测自动重启

在现有 Standalone 架构下实现"自动提交 + 自愈"

sidecar 容器 + 循环提交脚本 实现高可用。

为 JobManager Pod 添加一个 submitter sidecar 容器,原理是监控启动的作业名称

启动flink

相关推荐
a123560mh2 小时前
国产信创操作系统银河麒麟常见软件适配(MongoDB、 Redis、Nginx、Tomcat)
linux·redis·nginx·mongodb·tomcat·kylin
赖small强2 小时前
【Linux驱动开发】Linux MMC子系统技术分析报告 - 第二部分:协议实现与性能优化
linux·驱动开发·mmc
SongYuLong的博客2 小时前
Ubuntu24.04搭建GitLab服务器
运维·服务器·gitlab
guygg882 小时前
Linux服务器上安装配置GitLab
linux·运维·gitlab
RokFile2 小时前
SysInfoKeeper是一款面向 Linux/Unix 的硬件变动检测 CLI 工具
运维
地球没有花2 小时前
gitlab cicd 模块解释
运维·ci/cd·gitlab
百***35513 小时前
Linux(CentOS)安装 Nginx
linux·nginx·centos
小坏讲微服务3 小时前
Docker-compose搭建Docker Hub镜像仓库整合SpringBootCloud
运维·分布式·spring cloud·docker·云原生·容器·eureka
Serverless社区3 小时前
【本不该故障系列】从 runC 到 runD:SAE 如何化解安全泄露风险
阿里云·云原生·serverless
AI大模型学徒3 小时前
Docker(五)_数据根目录空间不足的原因与解决方法
运维·docker·容器