Hive3:数据的加载与导出

一、加载数据

在创建表之后,表中没有数据,我们不可能insert存入数据。

而是,通过数据加载,将HDFS中的数据关联到Hive表中。

建表

sql 复制代码
CREATE TABLE myhive.test_load(
  dt string comment '时间(时分秒)', 
  user_id string comment '用户ID', 
  word string comment '搜索词',
  url string comment '用户访问网址'
) comment '搜索引擎日志表' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

SQL语法

sql 复制代码
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename;

OVERWRITE:覆盖原表数据。

方式1、加载本地数据

这种方式,是先将本地数据上传HDFS文件系统中,然后,关联到Hive表中。

这里的本地,是指安装Hive的服务器。

SQL

sql 复制代码
LOAD DATA LOCAL INPATH '/home/atguigu/search_log.txt' INTO TABLE myhive.test_load;

方式2、加载HDFS数据

这种方式,是将HDFS文件系统重其他目录的数据,MoveHive表对应的目录中,从而,关联到Hive表中。

SQL

此时inpath对应的是HDFS中文件的路径。

sql 复制代码
LOAD DATA INPATH '/tmp/search_log.txt' INTO TABLE myhive.test_load;


加载后,源文件就不在了。

方式3、INSERT SELECT加载数据

这个方式,和MySQL语法差不多

sql 复制代码
INSERT [OVERWRITE | INTO] TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) 
[IF NOT EXISTS]] select_statement1 FROM from_statement;

SELECT查询语句的结果插入到其它表中,被SELECT查询的表可以是内部表或外部表。
注意:列字段要对齐,否则数据错乱。

示例:

sql 复制代码
INSERT INTO TABLE tbl1 SELECT * FROM tbl2;
INSERT OVERWRITE TABLE tbl1 SELECT * FROM tbl2;

二、导出数据

基本语法:

sql 复制代码
insert overwrite [local] directory 'path' select_statement1 FROM from_statement;

方式1、INSERT OVERWRITE

将查询的结果导出到本地 - 使用默认列分隔符

sql 复制代码
insert overwrite local directory '/home/hadoop/export1' 
select * from test_load ;

将查询的结果导出到本地 - 指定列分隔符

sql 复制代码
insert overwrite local directory '/home/hadoop/export2' 
row format delimited fields terminated by '\t' 
select * from test_load;

将查询的结果导出到HDFS文件系统中(不带local关键字)

sql 复制代码
insert overwrite directory '/tmp/export' 
row format delimited fields terminated by '\t' 
select * from test_load;

方式2、HIVE SHELL

基本语法:(hive -f/-e 执行语句或者脚本 > file

bash 复制代码
bin/hive -e "select * from myhive.test_load;" > /home/hadoop/export3/export4.txt
bin/hive -f export.sql > /home/hadoop/export4/export4.txt

注意:shell中的重定向符号>只能捕获程序的标准输出

相关推荐
小欣加油2 天前
Hive综合应用案例——用户学历查询
数据仓库·hive·hadoop
至此流年莫相忘2 天前
CentOS 部署 Hadoop 环境指导文档
linux·hadoop·centos
yumgpkpm2 天前
Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)
大数据·hive·hadoop·分布式·zookeeper·spark·kafka
Irene19912 天前
正确停止 Sqoop 任务:yarn application -kill(直接 kill 进程会触发重启,且可能导致状态不一致)
hadoop·sqoop
南屹川3 天前
【大数据】大数据处理技术栈:从采集到分析的完整链路
大数据·人工智能·hadoop·flink·spark·数据处理
juniperhan4 天前
Flink 系列第25篇:Flink SQL 集成 Hive 实践:流批一体下的实时数仓利器
大数据·数据仓库·hive·分布式·sql·flink
Irene19914 天前
Sqoop 安装完整教程(基于 WSL2 + Ubuntu 24.04)
hadoop·ubuntu·sqoop
r-t-H5 天前
从零开始搭建CDH-第十二章
linux·hive·spark·centos·hbase
m0_639310795 天前
大数据技术原理-HDFS的安装与应用
java·大数据·jvm·hadoop·spring·hdfs·eclipse
188105069635 天前
摸鱼事务所——团队作业——大模型评测作业
大数据·hadoop·分布式