阿里DataX极简教程

简介
工作流程
核心架构
- 核心模块介绍
- DataX调度流程
支持的数据
实践
引用

简介

DataX是一个数据同步工具，可以将数据从一个地方读取出来并以极快的速度写入另外一个地方。常见的如将mysql中的数据同步到另外一个mysql中，或者另外一个mongodb中。

工作流程

read：设置一个源，DataX从源读取数据
write：设置一个目的地，DataX将读取到的数据写入目的地
setting：同步设置，如设置并发通道、控制作业速度等
Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题
多线程：充分利用多线程来处理同步任务

核心架构

核心模块介绍

1：DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。

2：DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。

3：切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5

4：每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader--->Channel--->Writer的线程来完成任务同步工作

5：DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0

DataX调度流程

举例来说，用户提交了一个DataX作业，并且配置了20个并发，目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是：

DaXJob根据分库分表切分成了100个Task。
根据20个并发，DataX计算共需要分配4个TaskGroup。
4个TaskGroup平分切分好的100个Task，每一个TaskGroup负责以5个并发共计运行25个Task。

支持的数据

类型	数据源	Reader(读)	Writer(写)	文档
RDBMS 关系型数据库	MySQL	√	√	读、写
	Oracle	√	√	读、写
	OceanBase	√	√	读、写
	SQLServer	√	√	读、写
	PostgreSQL	√	√	读、写
	DRDS	√	√	读、写
	达梦	√	√	读、写
	通用RDBMS(支持所有关系型数据库)	√	√	读、写
阿里云数仓数据存储	ODPS	√	√	读、写
	ADS		√	写
	OSS	√	√	读、写
	OCS	√	√	读、写
NoSQL数据存储	OTS	√	√	读、写
	Hbase0.94	√	√	读、写
	Hbase1.1	√	√	读、写
	MongoDB	√	√	读、写
	Hive	√	√	读、写
无结构化数据存储	TxtFile	√	√	读、写
	FTP	√	√	读、写
	HDFS	√	√	读、写
	Elasticsearch		√	写

实践

作为极简教程，本文将从mysql中读取一张表的数据，然后同步到clickhouse中。

下载

打开该项目的Github 首页进行下载：https://github.com/alibaba/DataX

下载链接：https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202308/datax.tar.gz

下载下来是一个tar.gz的包，windows下解压命令：

复制代码

tar  -zxvf  xxx.tar.gz

程序目录：

bin：使用里面的 datax.py 来启动程序
job：里面放了一个job.json，用来检查运行环境，一般的建议下载完毕之后执行一次。
log：存放执行日志
plugin：插件集，插件分为read和write，分别对应datax可支持的数据库
其他目录：......

环境

DataX是基于python和java的，需要机器拥有python和java 的运行环境。

在下载完毕后，通过执行自检脚本，可确认环境是否正确

python 复制代码

 python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

执行流程

编写同步任务配置文件，在job目录中创建 mysql-to-clickhouse.json 文件，并填入如下内容

json 复制代码

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "xxx",
                        "password": "xxx",
                        "column": [
                            "id",
                            "name"
                        ],
                        "splitPk": "id",
                        "connection": [
                            {
                                "table": [
                                    "table_name"
                                ],
                                "jdbcUrl": [
                                    "jdbc:mysql://192.168.1.xxx:xxx/db_name"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "clickhousewriter",
                    "parameter": {
                        "username": "xxx",
                        "password": "xxx",
                        "column": [
                            "id",
                            "ame"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:clickhouse://192.168.1.xxx:xxx/table_name",
                                "table": [
                                    "table_name"
                                ]
                            }
                        ],
                        "preSql": [],
                        "postSql": [],
                        "batchSize": 65536,
                        "batchByteSize": 134217728,
                        "dryRun": false,
                        "writeMode": "insert"
                    }
                }
            }
        ]
    }
}

job：一个job包含两个部分，setting中设置任务的执行速度，错误限制等，content中是任务具体的描述。
reader：任务的数据输入源
writer：任务的数据输出源

根据任务配置文件启动datax，先cd到datax的根目录

shell 复制代码

python bin/datax.py    job/mysql-to-clickhouse.json

运行上述命令后，任务就开启了。本例从mysql数据库中的一张表中读取了两个字段（id，name），然后同步到clickhouse中，clickhouse中需要先创建同样的库，表和列。

任务执行非常快，140W数据仅用了 18s 就完成了同步。

shell 复制代码

2024-05-16 16:24:57.312 [job-0] INFO  JobContainer -
任务启动时刻                    : 2024-05-16 16:24:38
任务结束时刻                    : 2024-05-16 16:24:57
任务总计耗时                    :                 18s
任务平均流量                    :            2.21MB/s
记录写入速度                    :         142425rec/s
读出记录总数                    :             1424252
读写失败总数                    :                   0

引用

readme：https://github.com/alibaba/DataX
introduction：https://github.com/alibaba/DataX/blob/master/introduction.md