K8S环境中通过prometheus实现flink服务监控并给flink设置服务监测自动重启

prometheus实现flink服务监控

通过flink自带的**PrometheusReporter去监控flink服务**

修改flink-configmap.yaml,添加红框内的三行内容

执行kubectl apply -f flink-configmap.yaml 更新配置文件

flink镜像中可能没有相关的jar包,没有的话**PrometheusReporter就不存在,可以手动添加相关jar包,具体操作如下,比如我是flink1.16.3**

wget https://repo1.maven.org/maven2/org/apache/flink/flink-metrics-prometheus/1.16.3/flink-metrics-prometheus-1.16.3.jar

vim Dockerfile

FROM 你的flink镜像名称

COPY flink-metrics-prometheus-1.16.3.jar /opt/flink/lib/

执行命令打包镜像

docker build -t 你的flink镜像名称-prometheus .

最后在jobManager和taskManager deplotment的yaml文件里修改相关镜像即可

需要在jobManager和taskManager deplotment的yaml文件配置configmap挂载,因为容器内/opt/flink/conf/是只读目录,某些 Flink 启动脚本(如 /docker-entrypoint.sh)会 修改或写入 flink-conf.yaml(例如动态注入环境变量),所以ConfigMap 不能直接挂载到/opt/flink/conf,可以把ConfigMap 到 /tmp/flink-conf,再用启动命令复制。

启动jobManager即可

修改Prometheus的配置,ip是service的地址,也可以写域名

重载配置即可生效。

service的yaml附图:

注意事项:

从 Flink 1.14 开始,官方 弃用了 metrics.reporter.X.class 的配置方式,转而推荐使用 Reporter Factory。如果用​metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter ​

那么 Flink 会尝试通过 反射调用无参构造函数 来实例化 PrometheusReporter。但在 Flink 1.16+ 中,PrometheusReporter 不再提供 public 无参构造函数

正确方式(Flink 1.14+ 推荐) metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory

flink设置服务监测自动重启

在现有 Standalone 架构下实现"自动提交 + 自愈"

sidecar 容器 + 循环提交脚本 实现高可用。

为 JobManager Pod 添加一个 submitter sidecar 容器,原理是监控启动的作业名称

启动flink

相关推荐
一叶之秋14122 小时前
Linux基础IO
linux·运维·服务器
longerxin20206 小时前
在 Linux 上使用 SCP 将文件传输到 Windows(已开启 SSH)
linux·运维·ssh
zhaotiannuo_19988 小时前
渗透测试之docker
运维·docker·容器
Light608 小时前
破局而立:制造业软件企业的模式重构与AI赋能新路径
人工智能·云原生·工业软件·商业模式创新·ai赋能·人机协同·制造业软件
王正南9 小时前
kali-linux 虚拟机连接安卓模拟器
android·linux·运维·虚拟机连接模拟器·安卓模拟器,linux虚拟机
三不原则9 小时前
故障案例:容器启动失败排查(AI运维场景)——从日志分析到根因定位
运维·人工智能·kubernetes
吳所畏惧9 小时前
Linux环境/麒麟V10SP3下离线安装Redis、修改默认密码并设置Redis开机自启动
linux·运维·服务器·redis·中间件·架构·ssh
孤岛悬城9 小时前
54 安装k8s-1.20.11
云原生·容器·kubernetes
yueguangni9 小时前
sysstat 版本 10.1.5 是 CentOS 7 的默认版本,默认情况下确实不显示 %wait 字段。需要升级到新版sysstat
linux·运维·centos
funfan051710 小时前
【运维】MySQL数据库全量备份与恢复实战指南:从入门到精通
运维·数据库·mysql