DolphinScheduler日志乱码、worker日志太多磁盘报警、版本更新导致不兼容怎么办?

作者 | 刘宇星

本文作者总结了在使用Apache DolphinScheduler过程中遇见过的常见问题及其解决方案,包括日志出现乱码、worker日志太多磁盘报警、版本更新导致不兼容问题等,快来看看有没有困扰你想要的答案吧!

  1. DolphinScheduler集群环境有多台worker(worker1, worker2, worker3),多个任务节点串行执行时,因为worker在不同服务器上,执行调度任务需要的文件需要每个worker上传非常麻烦/后面执行的任务读取不到前面任务执行后生成的文件/数据,怎么办?

可以在worker之间配置共享目录,如NFS,具体配置方式参考 https://blog.csdn.net/Dark_Tk/article/details/114100517。

或者配置worker组,只包含一个worker1,指定运行该工作流的worker组。

  1. 用shell节点执行shell脚本时,中间某个命令执行报错但没有中断退出,而是继续执行,最后一行命令执行成功后整个节点的执行状态也是成功,导致节点任务状态与预期不符怎么办?

在当前脚本第一行加上

shell 复制代码
set -xeuo pipefail

后,脚本中的命令执行报错后会立即退出(注意,该命令只对当前bash环境生效且无法继承,对执行脚本的子环境不生效)。

  1. 日志出现乱码怎么办?

DolphinScheduler添加启动参数 -Dfile.encoding=utf-8 执行echo $LANG检查系统编码是否为 zh_CN.UTF-8 ,如不是则修改LANG环境变量为该值。

  1. DolphinSchedulr worker的日志太多太大了,磁盘经常警告空间不足,怎样配置实现自动清理日志?

在每个服务的 conf 目录下都有logback-spring.xml 可以配置日志清理策略,根据需要自行配置。

xml 复制代码
<configuration>
 <appender name="FILE" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <file>${LOG_FILE}</file>
        <rollingPolicy class="ch.qos.logback.core.rolling.SizeAndTimeBasedRollingPolicy">
            <!--日志文件输出的文件名-->
            <fileNamePattern>${LOG_FILE}-%d{yyyy-MM-dd}.%i.gz</fileNamePattern>
            <!--单个日志文件的最大体积-->
            <maxFileSize>100MB</maxFileSize>
            <!--日志保留时长 30天-->
            <maxHistory>30</maxHistory>
            <!-- 所有归档日志文件的总大小 -->
            <totalSizeCap>20GB</totalSizeCap>
            <!-- 是否在应用启动的时候删除历史日志 -->
            <cleanHistoryOnStart>true</cleanHistoryOnStart>
        </rollingPolicy>
        <encoder>
            <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} %-4relative [%thread] %-5level %logger{35} - %msg%n</pattern>
            <charset>utf8</charset>
        </encoder>
    </appender>
  <root level="DEBUG">
    <appender-ref ref="FILE" />
  </root>
  <configuration>
  1. DolphinScheduler任务插件太复杂/不会用/版本更新导致潜在的不兼容问题,怎么处理?

任务插件的使用可以查看官方文档 https://dolphinscheduler.apache.org/zh-cn/docs/3.2.1/功能介绍_menu/任务类型_menu

推荐使用shell替代其他任务节点类型,其他类型的任务插件本质上也是在执行shell或有等效的命令行,当然这要求开发人员对相关任务命令行的使用也提出了更高的要求,好处是用shell更灵活,更解耦和,自行权衡利弊使用。

  1. 插件里的内容不方便做版本对比,怎么处理?

建议针对业务内容维护单独的git仓库,更方便做版本对比和留痕。

本文由 白鲸开源科技 提供发布支持!

相关推荐
武子康5 小时前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP19 小时前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库19 小时前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟20 小时前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人20 小时前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长20 小时前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人20 小时前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城20 小时前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
中烟创新21 小时前
灯塔AI智能体获评“2025-2026中国数智科技年度十大创新力产品”
大数据·人工智能·科技
璞华Purvar1 天前
2026智造升级|从配方到生产,从协同到合规——璞华易研PLM赋能制造企业全链路升级
大数据·人工智能