DataX将数据在MySQL和HDFS之间互相迁移

1. 解压( [root@master install]#tar -zxvf datax.tar.gz****)****

2.

  1. 清理插件操作,有助于维护datax配置整洁

cd datax

find plugin/reader/ -type f -name "._*er" | xargs rm -rf

find plugin/writer/ -type f -name "._*er" | xargs rm -rf

3.测试运行datax自带的job.json

root@master datax\]# python bin/datax.py /bigdata/datax/job/job.json ![](https://i-blog.csdnimg.cn/direct/5921c346308d40a2b53edf80f777b800.png) ## 4.将数据从MySQL中导入到HDFS上 MySQL duoduo_db里面的t_roles ![](https://i-blog.csdnimg.cn/direct/cf9dde83c12f4bc5b5e207d5d5db3426.png) /bigdata/datax 目录下面的 新建文件vim mysql_to_hdfs.json 内容写下面 ------------------------------------------------------------------ { "job": { "content": \[ { "reader": { "name": "mysqlreader", "parameter": { "column": \[ "rid", "rname" \], "connection": \[ { "jdbcUrl": \[ "jdbc:mysql://tonymin:3306/duoduo_db" \], "table": \[ "t_roles"

}

],

"password": "Mzp_2022!",

"username": "root"

}

},

"writer": {

"name": "hdfswriter",

"parameter": {

"column": [

{

"name": "rid",

"type": "int"

},

{

"name": "rname",

"type": "string"

}

],

"defaultFS": "hdfs://tonymin:9820",

"fieldDelimiter": "\t",

"fileName": "roles.txt",

"fileType": "text",

"path": "/datax_transfer/",

"writeMode": "append"

}

}

}

],

"setting": {

"speed": {

"channel": "1"

}

}

}

}


里面的"defaultFS": "hdfs://tonymin:9820", 这个端口号可以通过以下命令(关于defaultFS的配置)获得

hdfs getconf -confKey fs.defaultFS

python bin/datax.py mysql_to_hdfs.json

上面这个代码是改了模板获得的。模板是下面这句话获得的

复制代码
python bin/datax.py -r mysqlreader -w hdfswriter

5. 将数据从HDFS上迁移回MySQL

先重新命名文件:

hdfs dfs -mv /roles.txt__4d0639d8_4341_4dc1_95e4_b770be4a946f /roles.txt

再查看roles.txt文件:

hdfs dfs -cat /roles.txt

查看模板

python bin/datax.py -r hdfsreader -w mysqlwriter


{

"job": {

"content": [

{

"reader": {

"name": "hdfsreader",

"parameter": {

"column": ["*"],

"defaultFS": "hdfs://tonymin:9820",

"encoding": "UTF-8",

"fieldDelimiter": "\t",

"fileType": "text",

"path": "/roles.txt"

}

},

"writer": {

"name": "mysqlwriter",

"parameter": {

"column": ["rid","rname"],

"connection": [

{

"jdbcUrl": "jdbc:mysql://tonymin:3306/duoduo_db",

"table": ["t_roles"]

}

],

"password": "Mzp_2022!",

"username": "root",

"writeMode": "insert"

}

}

}

],

"setting": {

"speed": {

"channel": "1"

}

}

}

}


python bin/datax.py hdfs_to_mysql.json

相关推荐
霖霖总总2 小时前
[小技巧40]MySQL中的MVCC:多版本并发控制的深度解析
数据库·mysql
IT教程资源2 小时前
N-159基于springboot,vue,AI协同过滤算法旅游推荐系统
mysql·vue·前后端分离·springboot旅游推荐·协同过滤算法旅游推荐·ai旅游推荐
结衣结衣.2 小时前
Redis中的Hash哈希
数据库·redis·哈希算法
Coder_Boy_2 小时前
基于SpringAI的在线考试系统-考试管理功能布局+交互优化方案
java·数据库·人工智能·spring boot·交互·ddd·tdd
IT大白2 小时前
4、数据库的事务
数据库
扑火的小飞蛾2 小时前
【Oracle Database 分区表】之间隔分区_11g(一)
数据库·oracle
Frank_refuel2 小时前
C++STL之set和map的接口使用介绍
数据库·c++·算法
l1t2 小时前
利用DeepSeek辅助翻译clickhouse SQL为DuckDB 格式求解Advent of Code 2025第10题 电子工厂 第二部分
数据库·人工智能·sql·clickhouse·duckdb
DarkAthena2 小时前
【GaussDB】分析函数性能优化案例-row_number改写
数据库·sql·oracle·性能优化·gaussdb