主流大数据调度工具DolphinScheduler之数据采集

今天继续给大家分享主流大数据调度工具DolphinScheduler,以及数据的ETL流程。

一:调度工具DS

主流大数据调度工具DolphinScheduler,

其定位:解决数据处理流程中错综复杂的依赖关系

任务支持类型:支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二,数据ETL流程(调度流程)

今天分享一个把数据从人大金仓数据库采集到大数据hive的案例。

0,业务概念

数据采集:指的是从其他的数据库,Oracle,MySQL,kingbase里的数据同步到hive大数据。

采集原理:本次分享的数据采集,其底层实现逻辑是sqoop。

数据同步都是有严格的规范性。

1,先在数据库查询该表的数据信息

2,在hive里创建表以备数据同步用

红色方框里是从数据库同步过来的数据,

蓝色方框里是系统自动生成的数据。

3,确认hive该表暂无数据

4,首先创建工作流

5,配置工作流信息

6,参数设置

7,核心是脚本开发

注明源数据库系统名,数据库名,表名等。

sync_type = 1 是全量同步,传参到shell脚本里。

从其他数据库同步到hive大数据,名称都是有规范的。

可以看到target_tab_name,名字是由源系统名,源库名,源表名,给拼接起来的。

至于原理为什么说是sqoop,是因为sync_data_to_hive_ods.sh 里面调用的sqoop的数据同步方法。当然也可以在里面开发采用datax的数据同步方式。

8,执行之后,看日志

发现日志是成功的。

9,检查数据是否同步到hive数仓

10,仔细看看系统自动生成的数据长什么样


好啦,今天这篇主要介绍主流调度工具DS的数据采集的全流程,工作实战。

希望你看得尽兴,学得开心。不难,但很重要。

下次再见!

相关推荐
Jamie2019010632 分钟前
高档宠物食品对宠物的健康益处有哪些?
大数据·人工智能
陈敬雷-充电了么-CEO兼CTO33 分钟前
推荐算法系统系列>推荐数据仓库集市的ETL数据处理
大数据·数据库·数据仓库·数据挖掘·数据分析·etl·推荐算法
小高不会迪斯科2 小时前
MIT 6.824学习心得(1) 浅谈分布式系统概论与MapReduce
大数据·mapreduce
TDengine (老段)2 小时前
使用 StatsD 向 TDengine 写入
java·大数据·数据库·时序数据库·iot·tdengine·涛思数据
Gauss松鼠会2 小时前
GaussDB权限管理:从RBAC到精细化控制的企业级安全实践
大数据·数据库·安全·database·gaussdb
时序数据说2 小时前
时序数据库IoTDB用户自定义函数(UDF)使用指南
大数据·数据库·物联网·开源·时序数据库·iotdb
马特说3 小时前
React金融数据分析应用性能优化实战:借助AI辅助解决18万数据量栈溢出Bug
react.js·金融·数据分析
大师兄带你刨AI3 小时前
「AI产业」| 《中国信通院&华为:智能体技术和应用研究报告》
大数据·人工智能
武子康3 小时前
大数据-31 ZooKeeper 内部原理 Leader选举 ZAB协议
大数据·后端·zookeeper
zkmall3 小时前
ZKmall模块商城批发电商平台搭建方案,多商户支持 + 订单管理功能全覆盖
大数据·人工智能