DataX从入门到精通 第1课 ETL之DataX 安装DataX

1、下载DataX源码

地址为https://github.com/alibaba/DataX.git

2、通过maven打包:

在DataX根目录执行打包命令

复制代码
mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功,日志显示如下:

INFO BUILD SUCCESS

INFO ------------------------------------------------------------------------

INFO Total time: 01:39 h

INFO Finished at: 2026-06-03T12:34:15+08:00

INFO ------------------------------------------------------------------------

3、DataX目录

打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

4、配置示例:从stream读取数据并打印到控制台

1)第一步、创建作业的配置文件(json格式)

可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER},这里执行命令

复制代码
python datax.py -r streamreader -w streamwriter

2)根据模板配置json如下:

将stream2stream.json文件放到job目录下,内容如下:

复制代码
{
  "job": {
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "sliceRecordCount": 10,
            "column": [
              {
                "type": "long",
                "value": "10"
              },
              {
                "type": "string",
                "value": "hello,你好,世界-DataX"
              }
            ]
          }
        },
        "writer": {
          "name": "streamwriter",
          "parameter": {
            "encoding": "UTF-8",
            "print": true
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 5
       }
    }
  }
}

3)运行job

执行命令

复制代码
chcp 65001
python bin/datax.py ./job/stream2stream.json

出现乱码。

4)解决乱码

执行命令 chcp 65001后显示正常,如果不想每次都输 chcp 65001,可以写个批处理。

复制代码
chcp 65001
python bin/datax.py ./job/stream2stream.json

done!!!

下一篇文章将讲解DataX-Web安装部署。

相关推荐
Database_Cool_12 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
Database_Cool_12 天前
什么是湖仓一体?和数据仓库的本质区别(附 AnalyticDB MySQL 湖仓一体方案)
数据库·数据仓库·mysql
递归尽头是星辰12 天前
AI 访问数据仓库:从直连到微服务化
数据仓库·人工智能·微服务·dataagent·ai数据治理
TPBoreas14 天前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
Nefu_lyh15 天前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
KANGBboy15 天前
hive UDF函数
数据仓库·hive·hadoop
云器科技16 天前
螳螂科技:从组装到统一,如何用云器 Lakehouse 完美替代“MC+DW+ADB”三件套?
数据库·数据仓库·人工智能
白日与明月18 天前
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?
数据仓库·hive·hadoop
isNotNullX19 天前
企业数据中台建设,ETL工具选错了会踩哪些坑?
数据仓库·etl·原型模式
SelectDB技术团队19 天前
预约发布会|核心产品力首发,如何构建面向 Agent 时代的企业级数据引擎
数据库·数据仓库·人工智能·数据分析·可观测·apache doris·selectdb