DataX(DataX简介、部署、同步数据)

DataX(DataX简介、部署、同步数据)

☀快乐无限 法力无边

目录

DataX(DataX简介、部署、同步数据)

1.DataX简介

1)数据采集模块:

2)数据写入模块:

2.DataX部署

1)DataX下载解压

[2)自检 执行以下命令](#2)自检 执行以下命令)

3)自检报错

4)解决方法

3.hbase2mysql

4.MySQL2Hbase

5.Mysql2Phoenix

6.HDFS2Hbase

1.DataX简介

DataX 是一种用于大数据场景下的数据同步工具,主要用于数据迁移、数据同步等场景。它是阿里巴巴开发的一款开源数据同步工具,支持各种数据源之间的数据同步任务,包括但不限于关系型数据库、NoSQL 数据库、HDFS、Hive 等。DataX 主要包含两部分:

1)数据采集模块:

负责从不同的数据源中读取数据,并将数据传输给下游处理模块。支持的数据源包括 MySQL、Oracle、SQL Server、PostgreSQL、HDFS、Hive 等。

2)数据写入模块:

负责将采集到的数据写入到目标数据源中。同样支持多种目标数据源,包括 MySQL、Oracle、HDFS、Hive 等。

DataX 的设计理念是高效、易用、可扩展。它采用了插件化的设计思路,可以通过配置文件的方式实现各种数据源之间的数据同步任务,并且可以根据实际需求扩展新的数据源和数据处理功能。DataX 提供了丰富的插件库,用户可以根据自己的需求选择合适的插件来完成数据同步任务。

总的来说,DataX 是一个功能强大、灵活性高的数据同步工具,适用于各种大数据场景下的数据同步需求。

2.DataX部署

1)DataX下载解压

下载地址:

http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

解压datax.tar.gz到/usr/local/soft/

2)自检 执行以下命令
java 复制代码
python /usr/local/soft/datax/bin/datax.py /usr/local/soft/datax/job/job.json
3)自检报错

当我们执行上面的自检命令时 可能会出现以下报错信息

java 复制代码
DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


2024-06-06 08:53:29.406 [main] WARN  ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/usr/local/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
2024-06-06 08:53:30.410 [main] ERROR Engine -

经DataX智能分析,该任务最可能的错误原因是:
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/usr/local/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
        at com.alibaba.datax.common.exception.DataXException.asDataXException(DataXException.java:26)
        at com.alibaba.datax.common.util.Configuration.from(Configuration.java:95)
        at com.alibaba.datax.core.util.ConfigParser.parseOnePluginConfig(ConfigParser.java:153)
        at com.alibaba.datax.core.util.ConfigParser.parsePluginConfig(ConfigParser.java:125)
        at com.alibaba.datax.core.util.ConfigParser.parse(ConfigParser.java:63)
        at com.alibaba.datax.core.Engine.entry(Engine.java:137)
        at com.alibaba.datax.core.Engine.main(Engine.java:204)
4)解决方法

删除plugin目录下的reader文件夹和writer文件夹下的 ._xxx 文件

再次执行自检命令

python /usr/local/soft/datax/bin/datax.py /usr/local/soft/datax/job/job.json

自检成功

3.hbase2mysql

4.MySQL2Hbase

5.Mysql2Phoenix

6.HDFS2Hbase

相关推荐
轻微的风格艾丝凡7 分钟前
嵌入式定时器计时技巧:用有符号数省略溢出判断的底层逻辑与实践
数据库·算法·dsp开发·嵌入式软件
培培说证11 分钟前
2026 中专大数据技术专业考证书门槛低的有哪些?
大数据
小北方城市网38 分钟前
第1课:架构设计核心认知|从0建立架构思维(架构系列入门课)
大数据·网络·数据结构·python·架构·数据库架构
Lonely丶墨轩40 分钟前
从登录入口窥见架构:一个企业级双Token认证系统的深度拆解
java·数据库·sql
收获不止数据库1 小时前
黄仁勋2026CES演讲复盘:旧世界,裂开了!
大数据·数据库·人工智能·职场和发展
老胡全房源系统1 小时前
房产中介管理系统哪一款性价比高
大数据·人工智能·房产经纪人培训
黄焖鸡能干四碗1 小时前
信息安全网络安全评估报告(WORD)
大数据·网络·人工智能·安全·web安全·制造·需求分析
汤姆yu1 小时前
基于python大数据的协同过滤音乐推荐系统
大数据·开发语言·python
汽车仪器仪表相关领域1 小时前
工况模拟精准检测,合规减排赋能行业 ——NHASM-1 型稳态工况法汽车排气检测系统项目实战经验分享
数据库·算法·单元测试·汽车·压力测试·可用性测试
Data_agent1 小时前
Cssbuy 模式淘宝 / 1688 代购系统南美市场搭建指南
大数据·python