dolphinscheduler部署排错记录

dolphinscheduler部署至K8S集群上的遇到的坑

问题

问题出现场景:

​ 在部署完ui, worker, master, api四个模块之后,随手建了一个工作流,点击运行的时候,在master节点上出现这个报错。

猜测原因

发送方发送的消息和接收方接收的消息格式不一致,导致报的这个错,但是程序在本地环境上打包成镜像是可以正常跑流程的,部署到K8S之后就出现了这个问题,代码中间也没有改动过,master和worker之间的RPC消息格式一定是一致的。

因此猜测是有其它请求访问了master或者worker节点,导致出现了这个问题。

排错过程

首先是寻找K8S集群和本地打包镜像的区别,网络通信会有区别,查看dolphinscheduler注册的k8s上的node信息。

在worker和master的pod上分别ping对应的ip,发现都可以通。随后陷入了很长一段时间的懵逼过程。

最后在dolphinscheduler的issue中找到同款报错。

内心狂喜,因为K8S上存在健康检查,而本地搭建镜像并不存在每隔一段时间的健康检查。随后查看健康检查的脚本,发现了在worker节点中,K8S系统会每隔一段时间去访问worker的1234端口,正好是worker用来和master进行RPC通信的端口,随后重写了一个http的健康检查端口,打包发版,问题解决。

相关推荐
空中海2 小时前
Kubernetes 入门基础与核心架构
贪心算法·架构·kubernetes
小猿姐4 小时前
Redis Kubernetes Operator 实测:三个方案的真实差距
redis·容器·kubernetes
米高梅狮子4 小时前
08.CronJob和Service
云原生·容器·架构·kubernetes·自动化
AOwhisky5 小时前
Kubernetes 学习笔记:集群管理、命名空间与 Pod 基础
linux·运维·笔记·学习·云原生·kubernetes
郑寿昌7 小时前
GPU显存HPA:K8s智能扩缩实战
云原生·容器·kubernetes
不才小强7 小时前
gRPC实战指南:高性能微服务通信框架
微服务·云原生·架构
AI攻城狮8 小时前
AI 导致失业是一个伪命题
云原生
ezreal_pan8 小时前
Kafka Docker 部署持久化避坑指南:解决重启后 Cluster ID 不匹配问题
分布式·docker·zookeeper·容器·kafka·devops
益企联工程项目管理软件8 小时前
2026工程管理软件推荐:7款工具助力工程项目数字化升级!
大数据·人工智能·云原生·项目管理·制造
AI攻城狮8 小时前
Hermes + Holographic:AI Agent 的"长期记忆"是如何工作的
云原生