【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax快速入门

【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax概述

【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax快速入门

【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线同步工具Datax类图

【大数据进阶第三阶段之Datax学习笔记】使用阿里云开源离线同步工具Datax实现数据同步

2、快速入门

2.1 官方地址

下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

源码地址:GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

2.2 前置要求

  • Linux
  • JDK(1.8以上,推荐1.8)
  • Python(推荐Python2.6.X)

2.3 安装

(1) 将下载好的datax.tar.gz上传到服务器的/home/soft文件夹下

复制代码
[root@xxx soft]$ ls
datax.tar.gz

(2) 解压datax.tar.gz到/opt/module

复制代码
[root@xxx soft]$ tar -zxvf datax.tar.gz -C /opt/module/

(3) 运行脚本检测

复制代码
[root@xxx bin]$ cd /opt/module/datax/bin/
[root@xxxbin]$ python datax.py /opt/module/datax/job/job.json

(4) json配置文件注释

复制代码
/*一个json就是一个job,一个job主要包含:
content,setting 两个属性*/
{
  "job": {
    /*content是job的核心,主要放reader和writer插件*/
    "content": {
      /*raader插件*/
      "reader": {},
      /*writer插件*/
      "writer": {}
    },
    /*setting主要用来设置job的基本设置*/
    "setting": {
      /*speed流量控制*/
      "speed": {
        "channel": 1, /*同步时候的并发数*/
        "byte": 1024 /*同步时候的字节大小,影响速度,可选*/
      },
      /*脏数据控制,配置的意思是当脏数据大于10条,或者脏数据比例达到0.05%,任务就会报错*/
      "errorLimit": {
        "record": 10,/*脏数据最大记录数阈值*/
        "percentage": 0.05 /*脏数据占比阈值*/
      }
    }
  }
}

json的reader和writer内容根据插件不同而变化,具体查询官网

相关推荐
暴躁小师兄数据学院1 分钟前
【AI大数据工程师特训笔记】第14讲:Linux操作系统与shell脚本
大数据·人工智能·笔记
tedcloud12310 分钟前
cc-switch评测:多AI Coding Agent管理工具详解
数据库·人工智能·sql·学习·自动化
土狗TuGou28 分钟前
SQL内功笔记 · 第8篇:事务的四大特性与隔离级别
数据库·笔记·后端·sql·mysql·oracle
胡图图不糊涂^_^1 小时前
测试BUG篇
学习·bug·测试
智者知已应修善业1 小时前
【51单片机用T0定时器方式1,实现0.5S的时间间隔实现第一次一个灯亮、第二次二个灯亮,直到全部灯亮,然后重复整个过程】2023-12-29
c++·经验分享·笔记·算法·51单片机
2601_959986241 小时前
M4Markets:把工具可用性做到位——逻辑梳理与提示整理
大数据·人工智能
智者知已应修善业2 小时前
【51单片机4位静态数码管显示1234】2023-11-14
c++·经验分享·笔记·算法·51单片机
whyTeaFo2 小时前
MIT6.1810: xv6 book Chapter4: Traps and system calls 笔记
笔记
薛定猫AI2 小时前
Codex 与 Claude Code 安装配置完全指南
大数据·人工智能·架构
SelectDB2 小时前
从 Machine-Readable 到 Agent-Ready:面向智能体的数据库接口演进
大数据·数据库·agent