二百二十五、海豚调度器——用DolphinScheduler调度执行Flume数据采集任务

天地风雷水火山泽2024-03-02 19:07

一、目的

数仓的数据源是Kafka，因此离线数仓需要用Flume采集Kafka中的数据到HDFS中

在实际项目中，不可能一直在Xshell中启动Flume任务，一是项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。

所以经过测试后，发现海豚调度器也可以启动Flume任务

#!/bin/bash

source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意：/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装，根据自己安装路径进行调整

Flume采集Kafka数据成功写入到HDFS中，成功实现用海豚执行Flume任务的目的！