Sqoop导入数据(mysql---->>hive)

目录

  • 数据传输流程
  • 脚本
  • 报错和异常说明
    • [1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf](#1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf)
    • [2. 数据导入hive后显示NULL](#2. 数据导入hive后显示NULL)

数据传输流程

mysql---->>hdfs---->>hive

数据从mysql表中取出,放到hdfs上(由target-dir指定目录),所有数据转移完成后,将hdfs上传数据到hive表的对于目录下,并将该目录删除

脚本

bash 复制代码
import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student4
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,
--hive-import
--hive-table
student

报错和异常说明

1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

原因 :缺少hive的配置文件
解决方案:将hive目录下的hive-common-3.1.2.jar移动到sqoop的lib目录下

2. 数据导入hive后显示NULL

原因 :建hive表是设定的分割符不恰当,跟从mysql导入过来的数据的分隔符不一样,所以导致hive切分不了数据,于是查询为空,但是这个过程,不属于导入失败,所以导入脚本正常运行。

导入流程:mysql---->>hdfs---->>hive
解决方案

首先检查mysql内部的数据是否正确导入到hdfs中

一般而言,mysql中的数据切分是','

检查hdfs中的数据情况(执行以下代码)
sqoop脚本student

bash 复制代码
import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student3
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,

脚本执行代码

bash 复制代码
sqoop --options-file sqoop_student.txt

检查生成的hdfs文件

bash 复制代码
 hdfs dfs -cat /sqoop/student3/part-m-00000

分析

hdfs中,数据以','进行分割,因此hdfs---->>hive中也需要设定','作为分隔符

hive数据库创建
数据库创建脚本

设定','作为分割符

bash 复制代码
create table student
(
    id   string,
    name string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

检查数据库情况

bash 复制代码
show create table student;


完整的导入脚本mysql---->>hdfs---->>hive

bash 复制代码
import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student4
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,
--hive-import
--hive-table
student

总结

可以修改分隔符为其他的形式'\t' '\001'都可以,但是需要保证hdfs和hive中的分隔符统一

相关推荐
kyriewen13 小时前
面试官让我查各部门工资最高的员工,我用AI三秒写出窗口函数,他愣了
后端·mysql·面试
小码工作室13 小时前
使用 HAVING 进行 MySQL 集合筛选
mysql
罗超驿13 小时前
18.事务的隔离性和隔离级别:MySQL面试高频考点全解析
数据库·mysql·面试
小江的记录本14 小时前
【Java基础】Java 8-21新特性:JDK21 LTS:虚拟线程、模式匹配switch、结构化并发、序列集合(附《思维导图》+《面试高频考点清单》)
java·数据库·python·mysql·spring·面试·maven
木心术114 小时前
Windows系统下MySQL与AI工具集成方案:数据存储与调用实践
人工智能·windows·mysql
这个DBA有点耶15 小时前
SQL改写实战:子查询、CTE、窗口函数性能对比
数据库·mysql·性能优化
小江的记录本15 小时前
【Java基础】反射与注解:核心原理、自定义注解、注解解析方式(附《思维导图》+《面试高频考点清单》)
java·数据结构·python·mysql·spring·面试·maven
Java成神之路-15 小时前
深入拆解 MySQL InnoDB 隔离级别:从 MVCC 到临键锁
mysql
罗超驿16 小时前
19.告别复杂SQL!用MySQL视图把逻辑拆成“变量”式操作
数据库·mysql·面试
码上有光16 小时前
MySQL基本查询
数据库·mysql·oracle·期末快速复习