hive表中导入数据 多种方法详细说明

文章中对hive表中导入数据 方法目录

方式一:通过load方式加载数据

方式二:直接向分区表中插入数据

[方式三:查询语句中创建表并加载数据(as select)](#方式三:查询语句中创建表并加载数据(as select))

方式四:创建表时通过location指定加载数据路径

[1. 创建表,并指定在hdfs上的位置](#1. 创建表,并指定在hdfs上的位置)

[2. 上传数据到hdfs上](#2. 上传数据到hdfs上)

[3. 查询数据](#3. 查询数据)

[方式五:export导出 与 import导入 hive表数据(内部非分区表操作)](#方式五:export导出 与 import导入 hive表数据(内部非分区表操作))


准备数据

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| -- 创建 db_myhive_5 create database db_myhive_5; use db_myhive_5; -- 创建表 create table tb_score( s_id string, c_id string, score int ) partitioned by (month string) row format delimited fields terminated by '\t'; |

方式一:通过load方式加载数据

|------------------------------------------------------------------------------------------------------------------------------------------------------------|
| load data local inpath '/export/data/hive_data/score.txt' overwrite into table tb_score partition ( month = '202006'); |

方式二:直接向分区表中插入数据

通过insert into方式加载数据

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| create table score3 like tb_score**;** insert into table score3 partition ( month = '202007') values ( '001', '002', '100'); |

通过查询方式加载数据

|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| create table score4 like score**;** insert overwrite table score4 partition ( month = '202006') select s_id**,** c_id**,** s_score from tb_score**;** |

例子

|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 需求1: 创建新库 myhive6, 切换库 myhive6 需求2: 创建t_score_1(s_id, c_id, score) 按月指定分区 month, 指定字段分隔符为 '\t' 需求3: 通过 load data 方式加载文件中数据 需求4: 创建表 t_score_2 依据 表 t_score_1的结构 需求5: 通过insert into 添加一行数据 需求6: 创建表 t_score_3 依据 表 t_score_1的结构 需求7: 通过 select 添加n条记录 |

实现

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| -- 需求1: 创建新库 myhive6, 切换库 myhive6 create database myhive6; use myhive6; -- 需求2: 创建t_score_1(s_id, c_id, score) 按月指定分区 month, 指定字段分隔符为 '\t' create table t_score_1( s_id string, c_id string, score int ) partitioned by (month string) row format delimited fields terminated by '\t'; -- 需求3: 通过 load data 方式加载文件中数据 load data local inpath '/export/data/hive_data/f_score.csv' overwrite into table t_score_1 partition (month='202101'); -- 需求4: 创建表 t_score_2 依据 表 t_score_1的结构 create table t_score_2 like t_score_1; -- 需求5: 通过insert into 添加一行数据 insert into t_score_2 partition(month='202002') values('01', '02', 66); select * from t_score_2; -- 需求6: 创建表 t_score_3 依据 表 t_score_1的结构 create table t_score_3 like t_score_1; -- 需求7: 通过 select 添加n条记录 insert overwrite table t_score_3 partition(month='202003') select s_id, c_id, score from t_score_1; select * from t_score_3; |

方式三:查询语句中创建表并加载数据(as select)

将查询的结果保存到一张表当中去

|--------------------------------------------------------------------------|
| create table score5 as select * from score**;** |

方式四:创建表时通过location指定加载数据路径
1. 创建表,并指定在hdfs上的位置

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| create external table score6 ( s_id string**,** c_id string**,** s_score int ) row format delimited fields terminated by '\t' location '/myscore6'; |

2. 上传数据到hdfs上

|---------------------------------------------------------------------------------------------------|
| hdfs dfs - mkdir - p / myscore6 hdfs dfs - put score**.** txt / myscore6**;** |

3. 查询数据

|----------------------------------------|
| select * from score6**;** |

例子

|------------------------------------------------------------------------------------------------------------------------------------------|
| 1 创建表 t_score_6(s_id, c_id, score), 指定分隔符为'\t', 指定保存位置为 '/hivedatas/t_score_6'; 2 将分数信息文件 上传到 hdfs的目录下 '/hivedatas/t_score_6' 3 查看表中的数据 |

​​​​​​​实现

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| -- 1 创建表 t_score_6(s_id, c_id, score), 指定分隔符为'\t', 指定保存位置为 '/hivedatas/t_score_6'; create table t_score_6( s_id string, c_id string, score int ) row format delimited fields terminated by '\t' location '/hivedatas/t_score_6'; -- 2 将分数信息文件 上传到 hdfs的目录下 '/hivedatas/t_score_6' -- hdfs dfs -put 文件 /hivedatas/t_score_6 -- 3 查看表中的数据 select * from t_score_6; |

方式五:expo rt导出 import 导入 hive表数据 内部 非分区 操作

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------|
| create table teacher2 like teacher**;** export table teacher to '/export/teacher'; import table teacher2 from '/export/teacher' |

注意: import 导入时结尾不要增加 分号;

相关推荐
Viking_bird4 小时前
centos 7.5 + Hadoop 3.2.4 集群搭建
linux·运维·服务器·hadoop·centos
喂完待续5 小时前
【Tech Arch】Spark为何成为大数据引擎之王
大数据·hadoop·python·数据分析·spark·apache·mapreduce
BYSJMG11 小时前
计算机大数据毕业设计推荐:基于Hadoop+Spark的食物口味差异分析可视化系统【源码+文档+调试】
大数据·hadoop·分布式·python·spark·django·课程设计
计算机毕设-小月哥18 小时前
完整源码+技术文档!基于Hadoop+Spark的鲍鱼生理特征大数据分析系统免费分享
大数据·hadoop·spark·numpy·pandas·计算机毕业设计
苛子1 天前
iPaaS、ETL、数据集成平台是什么?三者是什么关系?
数据仓库·etl
步行cgn1 天前
在 HTML 表单中,name 和 value 属性在 GET 和 POST 请求中的对应关系如下:
前端·hive·html
zhang98800002 天前
储能领域大数据平台的设计中如何使用 Hadoop、Spark、Flink 等组件实现数据采集、清洗、存储及实时 / 离线计算,支持储能系统分析与预测
大数据·hadoop·spark
Lx3522 天前
Hadoop日志分析实战:快速定位问题的技巧
大数据·hadoop
喂完待续2 天前
【Tech Arch】Hive技术解析:大数据仓库的SQL桥梁
大数据·数据仓库·hive·hadoop·sql·apache
最初的↘那颗心2 天前
Flink Stream API 源码走读 - window 和 sum
大数据·hadoop·flink·源码·实时计算·窗口函数