sqoop事务如何实现

场景1:如Sqoop在导出hdfs数据到Mysql时,某个字段过长导致任务失败,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?

场景2:如Sqoop在导出hdfs数据到Mysql时,某个字段重复导致主键冲突,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?

  • 采用staging-table,临时表策略,创建一个临时表要和主表结构一致,数据为空即可,这样会先往临时表写,如果写入过程异常了就会删除临时表数据,否则合并到主表

  • sqoop export \

    --connect jdbc:mysql://172.16.10.155:8306/dmp \

    --username shurong --password Shurong@202205 --table staging \

    --export-dir /warehouse/tablespace/managed/hive/staging/delta_0000001_0000001_0000 \

    --columns name,age \

    --input-fields-terminated-by '\001' \
    --staging-table staging_tmp \
    --clear-staging-table

相关推荐
kakwooi33 分钟前
Hadoop---MapReduce(3)
大数据·hadoop·mapreduce
windy1a39 分钟前
【c知道】Hadoop工作原理。
hadoop
油头少年_w6 小时前
大数据导论及分布式存储HadoopHDFS入门
大数据·hadoop·hdfs
工业互联网专业8 小时前
Python毕业设计选题:基于Hadoop的租房数据分析系统的设计与实现
vue.js·hadoop·python·flask·毕业设计·源码·课程设计
bigdata-余建新17 小时前
HDFS和HBase跨集群数据迁移 源码
hadoop·hdfs·hbase
Mephisto.java17 小时前
【大数据学习 | kafka高级部分】文件清除原理
大数据·hadoop·zookeeper·spark·kafka·hbase·flume
m0_3755997317 小时前
Hadoop:单节点配置YARN
hadoop·yarn
大数据魔法师20 小时前
Hadoop生态圈框架部署(五)- Zookeeper完全分布式部署
hadoop·分布式·zookeeper
houzhizhen1 天前
HiveMetastore 的架构简析
hive
数据要素X1 天前
【数据仓库】Hive 拉链表实践
大数据·数据库·数据仓库·人工智能·hive·hadoop·安全