Apache Sqoop使用

1. Sqoop介绍

Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具。

Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。

Hadoop 生态系统包括:HDFS、Hive、Hbase 等

RDBMS 体系包括:MySQL、Oracle、DB2 等

Sqoop 可以理解为:"SQL 到 Hadoop 和 Hadoop 到 SQL"。

站在 Apache 立场看待数据流转问题,可以分为数据的导入导出:

Import:数据导入。RDBMS----->Hadoop

Export:数据导出。Hadoop---->RDBMS

2. Sqoop导入------import

2.1 全量导入MySQL表数据到HDFS

从 MySQL 数据库服务器中的 userdb.emp 表导入到 HDFS。

sqoop 复制代码
bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--delete-target-dir \
--target-dir /sqoopresult \
--table emp \	
--m 1

--target-dir 用来指定导出数据存放至 HDFS 的目录;

--m 用来指定导入时使用几个map任务进行并行;

。。。。。。

。。。。。

。。。。

。。。

。。

更多用法请参考: Sqoop详细使用

相关推荐
acaad32 分钟前
Apache Poi 实现导出excel表格 合并区域边框未完全显示的问题
spring·apache·excel
Hello.Reader38 分钟前
Apache Flink 从流处理基础到恰好一次语义
flink·apache·linq
渣渣盟12 小时前
Spark核心:单跳转换率计算全解析
大数据·spark·scala·apache
IT毕设梦工厂13 小时前
大数据毕业设计选题推荐-基于大数据的国家医用消耗选品采集数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
core51213 小时前
Hive实战(一)
数据仓库·hive·hadoop·架构·实战·配置·场景
isfox19 小时前
Hadoop简介:分布式系统的基石与核心架构详解
hadoop
从零开始学习人工智能20 小时前
SpringBoot + Apache Tika:一站式解决文件数据提取难题
spring boot·后端·apache
Lx35221 小时前
大规模Hadoop集群管理:运维经验与监控策略
大数据·hadoop
TTBIGDATA21 小时前
【Ambari监控】Ambari-Metrics 的分支研究
大数据·数据库·hadoop·ambari·bigtop·edp·hidataplus
lifallen1 天前
揭秘KafkaStreams 线程缓存:NamedCache深度解析
数据结构·算法·缓存·kafka·apache