二百二十五、海豚调度器——用DolphinScheduler调度执行Flume数据采集任务

一、目的

数仓的数据源是Kafka,因此离线数仓需要用Flume采集Kafka中的数据到HDFS中

在实际项目中,不可能一直在Xshell中启动Flume任务,一是项目的Flume任务很多,二是一旦Xshell页面关闭Flume任务就会停止,这样非常不方便,因此必须在后台启动Flume任务。

所以经过测试后,发现海豚调度器也可以启动Flume任务

二、海豚调度Flume任务配置

(一)Flume在Linux中的路径

(二)Flume任务文件在Linux中的位置以及任务文件名

(三)在海豚中配置运行脚本

#!/bin/bash

source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意:/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装,根据自己安装路径进行调整

(四)海豚任务配置好后就可以启动海豚任务

(五)在HDFS对应文件夹中验证是否采集到数据

Flume采集Kafka数据成功写入到HDFS中,成功实现用海豚执行Flume任务的目的!

相关推荐
TDengine (老段)20 分钟前
通过云服务 快速体验 TDengine
大数据·数据库·物联网·时序数据库·tdengine·涛思数据·iotdb
硅基流动1 小时前
从云原生到 AI 的跃迁探索之路|开发者说
大数据·人工智能·云原生
星辰_mya1 小时前
Elasticsearch——待补充
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客2 小时前
Elasticsearch:使用 Elastic Workflows 构建自动化
大数据·数据库·人工智能·elasticsearch·搜索引擎·自动化·全文检索
跨境卫士-小汪2 小时前
选品更稳的新打法:用“用户决策阻力”挑品——阻力越大,越有机会做出溢价
大数据·人工智能·产品运营·跨境电商·内容营销·跨境
迎仔2 小时前
11-NoSQL数据库HBase介绍:大数据世界的“快速检索图书馆”
大数据·nosql·hbase
迎仔2 小时前
01-Hadoop 核心三剑客通俗指南:从“单机搬砖”到“包工队”
大数据·hadoop·分布式
Elastic 中国社区官方博客2 小时前
Elastic 9.3:与数据对话、构建自定义 AI agents、实现全自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
双层吉士憨包2 小时前
乐天Rakuten开店:乐天Rakuten跨境店VS本土店?2026实战攻略
大数据
档案宝档案管理2 小时前
企业档案管理系统:从“资料存放”到“数据资产”的升级
大数据·人工智能·档案·档案管理