Apache Sqoop使用

1. Sqoop介绍

Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具。

Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。

Hadoop 生态系统包括:HDFS、Hive、Hbase 等

RDBMS 体系包括:MySQL、Oracle、DB2 等

Sqoop 可以理解为:"SQL 到 Hadoop 和 Hadoop 到 SQL"。

站在 Apache 立场看待数据流转问题,可以分为数据的导入导出:

Import:数据导入。RDBMS----->Hadoop

Export:数据导出。Hadoop---->RDBMS

2. Sqoop导入------import

2.1 全量导入MySQL表数据到HDFS

从 MySQL 数据库服务器中的 userdb.emp 表导入到 HDFS。

sqoop 复制代码
bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password 123456 \
--delete-target-dir \
--target-dir /sqoopresult \
--table emp \	
--m 1

--target-dir 用来指定导出数据存放至 HDFS 的目录;

--m 用来指定导入时使用几个map任务进行并行;

。。。。。。

。。。。。

。。。。

。。。

。。

更多用法请参考: Sqoop详细使用

相关推荐
Francek Chen15 小时前
【大数据存储与管理】分布式数据库HBase:06 HBase编程实践
大数据·数据库·hadoop·分布式·hbase
武子康17 小时前
大数据-259 离线数仓 - Apache Griffin 0.5.0 大数据质量平台:从配置到部署完整指南
大数据·后端·apache
D愿你归来仍是少年19 小时前
Apache Flink 学习笔记 · Phase 1
大数据·flink·apache
D愿你归来仍是少年19 小时前
Apache Spark 第 13 章:Real-Time Mode 实时计算
大数据·spark·apache
源码之家19 小时前
计算机毕业设计:基于Python的二手车数据分析可视化系统 Flask框架 可视化 时间序列预测算法 逻辑回归 requests 爬虫 大数据(建议收藏)✅
大数据·hadoop·python·算法·数据分析·flask·课程设计
sthnyph20 小时前
防火墙安全策略(基本配置)
服务器·php·apache
D愿你归来仍是少年21 小时前
Apache Spark 第 13 章 附加篇 · Apache Spark Real-Time Mode 实时计算
大数据·spark·apache
MX_93591 天前
SpringMVC请求参数
java·后端·spring·servlet·apache
被摘下的星星1 天前
Hadoop伪分布式集群搭建实验原理概要
大数据·hadoop·分布式
武子康2 天前
大数据-258 离线数仓 - Livy与Griffin编译安装指南:大数据环境配置实战
大数据·hadoop·后端