hive学习分区&&函数

hive分区

在hdfs上创建文件夹

为什么分区

复制代码
	1、提高查询效率,分区不用全表扫描;常见用天区分

语法

复制代码
partitioned by

效率很慢

复制代码
切换引擎,spark

语法

string数据,需要添加单''

sql 复制代码
#加载数据到hdfs
load data local  inpath  '/home/hivedata/user11.txt' into table  part1 partition (dt='2026-03-19')


load data local  inpath  '/home/hivedata/user11.txt' into table  part1 partition (year='2026',month='12',day='31')
sql 复制代码
#创建分区表
create table part1(
    id int,
    name string,
    gae int
)
partitioned by (dt string)

row format delimited
fields terminated by ',';


create table part3(
    id int,
    name string,
    gae int
)
partitioned by (year string,month string,day string)

row format delimited
fields terminated by ',';

字段名称是否区分大小写

不区分

分区的增删改查

sql 复制代码
select * from part1 where dt='' union select * from part1 where dt = '20260824'   #会转化成mapreduce

select * from part1 where dt = '20260823' or dt = '20260824'

select * from part1 where dt in ( '20260823'  '20260824')

show partitions  part1;


alter table  part1 add partition (dt = '20260423')


#查看表的设计
desc part1;
desc formatted part1;

分区关联数据的三种方式

sql 复制代码
#上传数据后修复
create table part5(
    id int,
    name string,
    gae int
)
partitioned by (year string,month string,day string)

row format delimited
fields terminated by ',';

dfs -put /home/hivedata/user1.txt /user/hive/warehouse/yhdb.db/part5/year=2023/month=08/day=26


load data local inpath '/home/hivedata/user.txt' into table
part5 partition(year='2026',month='03',day='21')

分区的种类

静态分区:先创建,再加载数据

动态分区:直接加载数据,根据数据动态创建分区

混合分区:有静态,还有动态,某个字段指定;

sql 复制代码
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

hive函数

sql 复制代码
show function;
show function abs
sql 复制代码
# abs 绝对值
select abs(-7);

#日期函数
#current_data()、current_timestamp()、unix_timestamp();


#lower()
#upper()
#length()
#concat() 拼接
#concat_ws() 过滤-
#substr(),3  截取
#replace("123124","2",",")1,31,4

#split("","")切割

#size()数组

#round()取整数

#case  when

#get_json_object()
#parse_url()
#if(1=1,1,2)
#pmod(3,2) = 1

窗口函数

sql 复制代码
select *,count(1) over() '订单量  ' from t_order;
#over是窗口,不加条件,默认所有数据统计;可以加条件限制

select *,count(1) over() '订单量' from t_order where substr(orderdata,1,7) = '2018-01'

#分组distribute by name,substr(orderdate,1,7)
select *,sum(cost) over(distribute by name,substr(orderdate,1,7)) from t_order

#每个顾客的明细,
select *, sum(cost) over (distribute by name,substr(orderdate,1,7) sort by orderdate desc) from t_order
select*,sum(cost),over(partition by name,month(orderdate) order by orderdate desc)from t_order
#
相关推荐
red_redemption1 小时前
自由学习记录(173)
学习·clock ticking·lighting rod·zeus
千寻girling2 小时前
机器学习 | 逻辑回归 | 尚硅谷学习
java·人工智能·python·学习·算法·机器学习·逻辑回归
Tutankaaa2 小时前
防震减灾知识竞赛题库:地震常识、应急避险与自救互救指南
经验分享·笔记·学习
wljt2 小时前
SpringBoot学习笔记五:Spring Boot的web开发
spring boot·笔记·学习
Shadow(⊙o⊙)2 小时前
C++常见错误解析2.0
开发语言·数据结构·c++·后端·学习·算法
Joseph Cooper2 小时前
STM32MP157 Linux驱动学习笔记(一):驱动基础与设备模型入门(同步互斥/LCD/I2C/Input)
linux·stm32·学习
Joseph Cooper2 小时前
STM32MP157 Linux驱动学习笔记(二):硬件资源地基(Pinctrl/GPIO/Interrupt)
linux·stm32·学习
xieliyu.3 小时前
Java手搓数据结构:从零模拟实现单向无头非循环链表
java·数据结构·学习·链表
y = xⁿ3 小时前
MySQL学习日记:关于MVCC及一些八股总结
数据库·学习·mysql