Apache Sqoop使用

1. Sqoop介绍

Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具。

Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。

Hadoop 生态系统包括:HDFS、Hive、Hbase 等

RDBMS 体系包括:MySQL、Oracle、DB2 等

Sqoop 可以理解为:"SQL 到 Hadoop 和 Hadoop 到 SQL"。

站在 Apache 立场看待数据流转问题,可以分为数据的导入导出:

Import:数据导入。RDBMS----->Hadoop

Export:数据导出。Hadoop---->RDBMS

2. Sqoop导入------import

2.1 全量导入MySQL表数据到HDFS

从 MySQL 数据库服务器中的 userdb.emp 表导入到 HDFS。

sqoop 复制代码
bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--delete-target-dir \
--target-dir /sqoopresult \
--table emp \	
--m 1

--target-dir 用来指定导出数据存放至 HDFS 的目录;

--m 用来指定导入时使用几个map任务进行并行;

。。。。。。

。。。。。

。。。。

。。。

。。

更多用法请参考: Sqoop详细使用

相关推荐
HashData酷克数据1 小时前
# Apache Cloudberry 2.1.0 版本前瞻:内核、PXF 与备份生态持续演进
apache
迈巴赫车主2 小时前
大数据:Hadoop(MapReduce)
大数据·hadoop·mapreduce
jasnet_u2 小时前
CentOS上搭建hadoop-3.3.6集群(3节点)
hadoop·centos
D愿你归来仍是少年2 小时前
Apache Spark 第 8 章:Structured Streaming 流处理
大数据·spark·apache
hashiqimiya11 小时前
windows的hadoop集群环境直接配
大数据·hadoop·分布式
迈巴赫车主1 天前
大数据:Hadoop(HDFS)
大数据·hadoop·hdfs
努力的lpp1 天前
小迪安全第8天:基础入门-算法分析 & 传输加密 & 数据格式 & 密文存储 & 代码混淆 & 逆向保护
服务器·网络·apache
爱人间1 天前
apache-tomcat-8.5.72启动控制台乱码解决方案
java·tomcat·apache
XDHCOM1 天前
Apache Mesos科普,提升资源利用率与系统扩展性的开源平台
开源·apache
❀͜͡傀儡师1 天前
使用 Docker Run 部署 Apache WebDAV 服务
docker·apache·webdav