Sqoop导入数据(mysql---->>hive)

目录

  • 数据传输流程
  • 脚本
  • 报错和异常说明
    • [1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf](#1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf)
    • [2. 数据导入hive后显示NULL](#2. 数据导入hive后显示NULL)

数据传输流程

mysql---->>hdfs---->>hive

数据从mysql表中取出,放到hdfs上(由target-dir指定目录),所有数据转移完成后,将hdfs上传数据到hive表的对于目录下,并将该目录删除

脚本

bash 复制代码
import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student4
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,
--hive-import
--hive-table
student

报错和异常说明

1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

原因 :缺少hive的配置文件
解决方案:将hive目录下的hive-common-3.1.2.jar移动到sqoop的lib目录下

2. 数据导入hive后显示NULL

原因 :建hive表是设定的分割符不恰当,跟从mysql导入过来的数据的分隔符不一样,所以导致hive切分不了数据,于是查询为空,但是这个过程,不属于导入失败,所以导入脚本正常运行。

导入流程:mysql---->>hdfs---->>hive
解决方案

首先检查mysql内部的数据是否正确导入到hdfs中

一般而言,mysql中的数据切分是','

检查hdfs中的数据情况(执行以下代码)
sqoop脚本student

bash 复制代码
import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student3
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,

脚本执行代码

bash 复制代码
sqoop --options-file sqoop_student.txt

检查生成的hdfs文件

bash 复制代码
 hdfs dfs -cat /sqoop/student3/part-m-00000

分析

hdfs中,数据以','进行分割,因此hdfs---->>hive中也需要设定','作为分隔符

hive数据库创建
数据库创建脚本

设定','作为分割符

bash 复制代码
create table student
(
    id   string,
    name string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

检查数据库情况

bash 复制代码
show create table student;


完整的导入脚本mysql---->>hdfs---->>hive

bash 复制代码
import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student4
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,
--hive-import
--hive-table
student

总结

可以修改分隔符为其他的形式'\t' '\001'都可以,但是需要保证hdfs和hive中的分隔符统一

相关推荐
这个DBA有点耶8 小时前
NULL不是空——数据库里最反直觉的设计,90%新人踩过的坑
数据库·mysql·代码规范
这个DBA有点耶1 天前
SQL改写进阶:标量子查询的“隐形代价”与消除实战
数据库·mysql·架构
smallyoung1 天前
数据库乐观锁深度解析:MySQL、PostgreSQL 实战 + Spring Boot 集成指南
数据库·mysql·postgresql
数据技术说2 天前
MySQL 迁移实战——如何实现真正的"零改造"平滑切换
mysql
唐青枫6 天前
MySQL JSON 实战详解:从存储、查询、更新到 JSON_TABLE 与索引
sql·mysql
小满8786 天前
5.Mysql事务隔离级别与锁机制
mysql
元Y亨H6 天前
技术笔记:MySQL 字符集排序规则与大小写敏感性问题解决方案
mysql
这个DBA有点耶7 天前
GROUP BY优化全解:如何写出既不丢数据又飞快的分组查询
数据库·mysql·架构
掉头发的王富贵8 天前
【StarRocks】极限十分钟入门StarRocks
数据库·sql·mysql
SamDeepThinking8 天前
一条UPDATE语句在MySQL 8.0中到底加了几把锁?
后端·mysql·程序员