二百二十五、海豚调度器——用DolphinScheduler调度执行Flume数据采集任务

一、目的

数仓的数据源是Kafka,因此离线数仓需要用Flume采集Kafka中的数据到HDFS中

在实际项目中,不可能一直在Xshell中启动Flume任务,一是项目的Flume任务很多,二是一旦Xshell页面关闭Flume任务就会停止,这样非常不方便,因此必须在后台启动Flume任务。

所以经过测试后,发现海豚调度器也可以启动Flume任务

二、海豚调度Flume任务配置

(一)Flume在Linux中的路径

(二)Flume任务文件在Linux中的位置以及任务文件名

(三)在海豚中配置运行脚本

#!/bin/bash

source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意:/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装,根据自己安装路径进行调整

(四)海豚任务配置好后就可以启动海豚任务

(五)在HDFS对应文件夹中验证是否采集到数据

Flume采集Kafka数据成功写入到HDFS中,成功实现用海豚执行Flume任务的目的!

相关推荐
Elastic 中国社区官方博客1 小时前
JavaScript 中的 ES|QL:利用 Apache Arrow 工具
大数据·开发语言·javascript·elasticsearch·搜索引擎·全文检索·apache
lifallen3 小时前
Flink task、Operator 和 UDF 之间的关系
java·大数据·flink
源码宝5 小时前
智慧工地云平台源码,基于微服务架构+Java+Spring Cloud +UniApp +MySql
java·大数据·源码·智慧工地·智能监测·智能施工
XiaoQiong.Zhang5 小时前
简历模板3——数据挖掘工程师5年经验
大数据·人工智能·机器学习·数据挖掘
Faith_xzc7 小时前
Apache Doris FE 问题排查与故障分析全景指南
大数据·数据仓库·apache·doris
潘小磊7 小时前
高频面试之6Hive
大数据·hive·面试·职场和发展
数据与人工智能律师9 小时前
当机床开始“思考”,传统“制造”到“智造”升级路上的法律暗礁
大数据·网络·算法·云计算·区块链
摘星编程10 小时前
华为云Flexus+DeepSeek征文 | 模型即服务(MaaS)安全攻防:企业级数据隔离方案
大数据·人工智能·安全·华为云·deepseek
木鱼时刻10 小时前
从大数据到大模型:我们是否在重蹈覆覆辙
大数据
liuze40811 小时前
VMware虚拟机集群上部署HDFS集群
大数据·hadoop·hdfs