二百二十五、海豚调度器——用DolphinScheduler调度执行Flume数据采集任务

一、目的

数仓的数据源是Kafka,因此离线数仓需要用Flume采集Kafka中的数据到HDFS中

在实际项目中,不可能一直在Xshell中启动Flume任务,一是项目的Flume任务很多,二是一旦Xshell页面关闭Flume任务就会停止,这样非常不方便,因此必须在后台启动Flume任务。

所以经过测试后,发现海豚调度器也可以启动Flume任务

二、海豚调度Flume任务配置

(一)Flume在Linux中的路径

(二)Flume任务文件在Linux中的位置以及任务文件名

(三)在海豚中配置运行脚本

#!/bin/bash

source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意:/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装,根据自己安装路径进行调整

(四)海豚任务配置好后就可以启动海豚任务

(五)在HDFS对应文件夹中验证是否采集到数据

Flume采集Kafka数据成功写入到HDFS中,成功实现用海豚执行Flume任务的目的!

相关推荐
weixin_5051544628 分钟前
打通工业安全治理“最后一公分”:Bowell 发布 Runtime 治理平台
大数据·人工智能·安全·3d·数字孪生·数据可视化
光锥智能1 小时前
把OpenAI按在地上摩擦,Anthropic怎么做到的?
大数据·人工智能
RD_daoyi1 小时前
Google SEO第四周:深度站内优化——让网站快速收录、稳定排名的硬核技术
大数据·服务器·人工智能·搜索引擎
芝士爱知识a1 小时前
申论概括归纳题如何拿高分?智蛙公考单一题作答模板
大数据·智蛙公考·申论备考·概括归纳·单一题模板·申论高分
2601_957786771 小时前
分布式媒体中台的流式计算架构:微批处理、拓扑裂变追踪与跨域网关混沌容错实践
大数据·人工智能·矩阵系统·矩阵运营
大大大大晴天1 小时前
Hudi技术内幕:深入理解Hudi文件布局
大数据
谁似人间西林客1 小时前
工厂大脑如何让制造从“人驱”迈向“智驱”
大数据·人工智能·制造
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月3日
大数据·人工智能·python·信息可视化·自然语言处理·灵砚智能
狒狒热知识2 小时前
178软文网软文营销平台完善多层风控体系护航企业稳健安全传播
大数据·人工智能·安全
liana87442 小时前
构建私有化安全协作平台:以金融级协作平台与全链路安全防护体系重塑政企数字化底座
大数据·安全·金融