二百二十五、海豚调度器——用DolphinScheduler调度执行Flume数据采集任务

一、目的

数仓的数据源是Kafka,因此离线数仓需要用Flume采集Kafka中的数据到HDFS中

在实际项目中,不可能一直在Xshell中启动Flume任务,一是项目的Flume任务很多,二是一旦Xshell页面关闭Flume任务就会停止,这样非常不方便,因此必须在后台启动Flume任务。

所以经过测试后,发现海豚调度器也可以启动Flume任务

二、海豚调度Flume任务配置

(一)Flume在Linux中的路径

(二)Flume任务文件在Linux中的位置以及任务文件名

(三)在海豚中配置运行脚本

#!/bin/bash

source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意:/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装,根据自己安装路径进行调整

(四)海豚任务配置好后就可以启动海豚任务

(五)在HDFS对应文件夹中验证是否采集到数据

Flume采集Kafka数据成功写入到HDFS中,成功实现用海豚执行Flume任务的目的!

相关推荐
字节数据平台2 小时前
评测也很酷,Data Agent 自动化评测的三层框架与实战
大数据
Elastic 中国社区官方博客3 小时前
Elasticsearch:圣诞晚餐 BBQ - 图像识别
大数据·数据库·elasticsearch·搜索引擎·ai·全文检索
Macbethad3 小时前
数据挖掘实战项目:用户行为分析模型技术报告
大数据
LINGYI0003 小时前
品牌电商全域代运营公司——简述
大数据·全域电商
努力成为一个程序猿.3 小时前
1.ElasticSearch单节点部署
大数据·elasticsearch·搜索引擎
渲吧-云渲染5 小时前
概念解码:PDM、PLM与ERP——厘清边界,深化协作,驱动制造数字化升级
大数据·制造
建群新人小猿8 小时前
陀螺匠企业助手-我的日程
android·大数据·运维·开发语言·容器
云和数据.ChenGuang8 小时前
git commit复合指令
大数据·git·elasticsearch
尋有緣8 小时前
力扣614-二级关注者
大数据·数据库·sql·oracle
serve the people8 小时前
Agent 基于大模型接口实现用户意图识别:完整流程与实操
大数据·人工智能·agent