主流大数据调度工具DolphinScheduler之数据采集

wuwolita1232024-07-20 8:13

今天继续给大家分享主流大数据调度工具DolphinScheduler，以及数据的ETL流程。

一：调度工具DS

主流大数据调度工具DolphinScheduler，

其定位：解决数据处理流程中错综复杂的依赖关系

任务支持类型：支持传统的shell任务，同时支持大数据平台任务调度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

今天分享一个把数据从人大金仓数据库采集到大数据hive的案例。

数据采集：指的是从其他的数据库，Oracle，MySQL，kingbase里的数据同步到hive大数据。

采集原理：本次分享的数据采集，其底层实现逻辑是sqoop。

数据同步都是有严格的规范性。

红色方框里是从数据库同步过来的数据，

蓝色方框里是系统自动生成的数据。

注明源数据库系统名，数据库名，表名等。

sync_type = 1 是全量同步，传参到shell脚本里。

从其他数据库同步到hive大数据，名称都是有规范的。

可以看到target_tab_name，名字是由源系统名，源库名，源表名，给拼接起来的。

至于原理为什么说是sqoop，是因为sync_data_to_hive_ods.sh 里面调用的sqoop的数据同步方法。当然也可以在里面开发采用datax的数据同步方式。

发现日志是成功的。

好啦，今天这篇主要介绍主流调度工具DS的数据采集的全流程，工作实战。

希望你看得尽兴，学得开心。不难，但很重要。

下次再见！