一、目的

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？

为了测试实际项目中的海豚定时调度从Kafka到HDFS的kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况。

二、海豚调度任务配置

（一）SHELL脚本配置

#!/bin/bash

source /etc/profile

/opt/install/kettle9.2/data-integration/pan.sh -rep=hurys_linux_kettle_repository -user=admin -pass=admin -dir=/kafka_to_hdfs/ -trans=04_Kafka_to_HDFS_turnratio level=Basic >>/home/log/kettle/04_Kafka_to_HDFS_turnratio_`date +%Y%m%d`.log

（二）定时任务设置

定时任务设置为每天的零点，零点一到开始执行任务

（三）最后工作流情况

三、启动后追踪每天HDFS文件的情况

（一）启动工作流

工作流启动，成功！工作流一直在跑

相应的任务实例也在跑！

（二）每天HDFS情况

1、第一天为2023/8/30日

由于第一天开始执行任务，因此自动生成2023/08/30的HDFS文件

2、第二天为2023/8/31日

第二天的海豚任务自动调度，自动生成2023/08/31的HDFS文件

但问题是，除了再跑31日的任务外，30日的任务还在跑，可能是定时配置有问题，需要优化

而且这样搞容易把kettle搞出问题！