hadoop学习---基于Sqoop的文件导入导出操作

在本地数据库创建数据库表:

sql 复制代码
create database sqoop_test default character set utf8;
use sqoop_test;
CREATE TABLE `emp` (
`EMPNO` int(4) NOT NULL,
`ENAME` varchar(10),
`JOB` varchar(9),
`MGR` int(4),
`HIREDATE` date,
`SAL` int(7),
`COMM` int(7),
`DEPTNO` int(2),
PRIMARY KEY (`EMPNO`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
sql 复制代码
INSERT INTO `emp` VALUES ('7369', 'SMITH', 'CLERK', '7902', '1980-12-17', '800', null, '20');
INSERT INTO `emp` VALUES ('7499', 'ALLEN', 'SALESMAN', '7698', '1981-02-20', '1600', '300', '30');
INSERT INTO `emp` VALUES ('7521', 'WARD', 'SALESMAN', '7698', '1981-02-22', '1250', '500', '30');
INSERT INTO `emp` VALUES ('7566', 'JONES', 'MANAGER', '7839', '1981-04-02', '2975', null, '20');
INSERT INTO `emp` VALUES ('7654', 'MARTIN', 'SALESMAN', '7698', '1981-09-28', '1250', '1400', '30');
INSERT INTO `emp` VALUES ('7698', 'BLAKE', 'MANAGER', '7839', '1981-05-01', '2850', null, '30');
INSERT INTO `emp` VALUES ('7782', 'CLARK', 'MANAGER', '7839', '1981-06-09', '2450', null, '10');
INSERT INTO `emp` VALUES ('7788', 'SCOTT', 'ANALYST', '7566', '1987-04-19', '3000', null, '20');
INSERT INTO `emp` VALUES ('7839', 'KING', 'PRESIDENT', null, '1981-11-17', '5000', null, '10');
INSERT INTO `emp` VALUES ('7844', 'TURNER', 'SALESMAN','7698', '1981-09-08', '1500', '0', '30');
INSERT INTO `emp` VALUES ('7876', 'ADAMS', 'CLERK', '7788', '1987-05-23', '1100', null, '20');
INSERT INTO `emp` VALUES ('7900', 'JAMES', 'CLERK', '7698', '1981-12-03', '950', null, '30');
INSERT INTO `emp` VALUES ('7902', 'FORD', 'ANALYST', '7566', '1981-12-03', '3000', null, '20');
INSERT INTO `emp` VALUES ('7934', 'MILLER', 'CLERK', '7782', '1982-01-23', '1300', null, '10');

命令:

MySQL--》HDFS

bash 复制代码
sqoop import --connect jdbc:mysql://192.168.88.101:3306/sqoop_test\
 --username root \
--password root \
--query 'select empno,mgr,job from emp where empno>7800 and $CONDITIONS' \
--target-dir /sqoopdata/emp --delete-target-dir -split-by empno -m 2
  1. 导出时,mysql中的表必须提前创建。

  2. 导出时,字段之间的切分符号默认是逗号。如果hdfs上的文件不是逗号分隔符,需要使用--fields-terminated-by或--input-fields-terminated-by参数指定分隔符

  3. 导出时,是按照hdfs上文件从左到右的顺序给mysql表的字段赋值

  4. 导出时,mysql的表的字段数与hdfs上的列数可以不相同

  5. 导出时,字段类型要一致

  6. 带有主键约束的mysql表,要注意导出的数据的主键约束的情况,不能重复

  7. 使用--columns给mysql中的某些字段赋值时,没有包含在参数中的字段要么有默认值,要么不能设置not null

  8. 在sqoop1.4.7中,hdfs上的字符串'null'是可以转成mysql中字符串类型字段的null值,

也可以转成mysql中非字符串类型字段的null值。

Sqoop导入原理:

Sqoop默认是并行的从数据库源导入数据。您可以使用-m或--num-mappers参数指定用于执行导入的map任务(并行进程)的数量。每个参数都取一个整数值,该整数值对应于要使用的并行度。默认情况下,使用四个任务。一些数据库可以通过将这个值增加到8或16来改善性能。

默认情况下,Sqoop将标识表中的主键id列用作拆分列。从数据库中检索分割列的高值和低值,map任务操作整个范围的大小均匀的组件。譬如ID的范围是0-800,那么Sqoop默认运行4个进程,通过执行ISELECTMIN(id),MAX(id) FROM emp找出id的范围,然后把4个任务的id设置范围是(0-200),(200-400)(400-600).(600-800)

但是当一个表没有主键时,上面的切分就无法进行,Sqoop导入时就会出错,这时候可以通过-m把mapper的数量设为1,只有一个Mapper在运行,这时候就不需要切分,也可以避免主键不存在时候报错的问题.或者还有个办法就是手工指定要拆分的列,通过--split-by来指定

MySQL--》Hive

bash 复制代码
sqoop import --connect jdbc:mysql://node1:3306/sqoop_test \
--username root --password root \
--table emp \
--hive-import \
--hive-overwrite \
-- hive-table 'emp3' \
-- hive-database db2

HDFS--》MySQL

bash 复制代码
sqoop export --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
--username root \
--password root \
--table emp_1 \
--export-dir /sqoop/hdfs-emp/part-m-00000 \
--input-fields-terminated-by '\t'  \
--input-null-string '\\N' \
--input-null-non-string '0' -m 1
bash 复制代码
sqoop export \
--connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
--username root \
--password root \
--table emp_4 \
--export-dir /test11.txt \
--input-fields-terminated-by ','  \
--input-null-string '\\N' \
--input-null-non-string '0' \
-m 1

在Sqoop中,直接使用通配符(如*)在--export-dir后面来指定多个文件进行导出是不被支持的。Sqoop期望一个确切的目录路径,它会自动处理该目录下的所有part文件(由MapReduce任务生成)。因此,如果你想从一个目录下导出所有文件到MySQL表,你应该只指定到目录层级,而不是尝试包含通配符。

不过,如果你确实需要从一个目录下包含多个文件的场景下导出数据,通常的做法是先用Hadoop的文件系统操作命令(如hadoop fs -cathadoop fs -getmerge)来合并这些文件成一个,然后再用Sqoop进行导出。但请注意,这样做的前提是这些文件的结构和内容必须是一致的,即它们应该都是同一份数据的切片或者是完全相同结构的数据。

一个简化的流程可以是:

  1. 合并HDFS目录下的文件 : 可以使用Hadoop的getmerge工具将多个part文件合并成一个临时文件。例如:

    复制代码
    1hadoop fs -getmerge /sqoop/hdfs-emp/part-m-* /tmp/merged_emp_data.txt

    这里假设你的part文件名为part-m-00000, part-m-00001, 等等。

  2. 使用Sqoop导出合并后的文件 : 然后你可以使用这个合并后的文件作为--export-dir的输入。

    复制代码
    1sqoop export \
    2  --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
    3  --username root \
    4  --password root \
    5  --table emp_1 \
    6  --export-dir file:///tmp/merged_emp_data.txt \
    7  --input-fields-terminated-by '\t' \
    8  --input-null-string '\\N' \
    9  --input-null-non-string '0' \
    10  -m 1

    注意这里--export-dir现在指向的是本地文件系统上的合并文件路径。

相关推荐
Camellia03113 分钟前
嵌入式学习--江协stm32day5
stm32·嵌入式硬件·学习
a_157153249868 分钟前
SpringCloud学习笔记-4
笔记·学习·spring cloud
未来之窗软件服务17 分钟前
JAVASCRIPT 前端数据库-V1--仙盟数据库架构-—-—仙盟创梦IDE
数据库·数据库架构·仙盟创梦ide·东方仙盟数据库
YSGZJJ17 分钟前
股指期货技术分析与短线操作方法介绍
大数据·人工智能
Doker 多克23 分钟前
Flink CDC —部署模式
大数据·flink
LjQ204025 分钟前
网络爬虫一课一得
开发语言·数据库·python·网络爬虫
异常君25 分钟前
高并发数据写入场景下 MySQL 的性能瓶颈与替代方案
java·mysql·性能优化
Guheyunyi27 分钟前
监测预警系统重塑隧道安全新范式
大数据·运维·人工智能·科技·安全
烙印60129 分钟前
MyBatis原理剖析(二)
java·数据库·mybatis
RestCloud30 分钟前
如何通过ETLCloud实现跨系统数据同步?
数据库·数据仓库·mysql·etl·数据处理·数据同步·集成平台