hive学习分区&&函数

hive分区

在hdfs上创建文件夹

为什么分区

复制代码
	1、提高查询效率,分区不用全表扫描;常见用天区分

语法

复制代码
partitioned by

效率很慢

复制代码
切换引擎,spark

语法

string数据,需要添加单''

sql 复制代码
#加载数据到hdfs
load data local  inpath  '/home/hivedata/user11.txt' into table  part1 partition (dt='2026-03-19')


load data local  inpath  '/home/hivedata/user11.txt' into table  part1 partition (year='2026',month='12',day='31')
sql 复制代码
#创建分区表
create table part1(
    id int,
    name string,
    gae int
)
partitioned by (dt string)

row format delimited
fields terminated by ',';


create table part3(
    id int,
    name string,
    gae int
)
partitioned by (year string,month string,day string)

row format delimited
fields terminated by ',';

字段名称是否区分大小写

不区分

分区的增删改查

sql 复制代码
select * from part1 where dt='' union select * from part1 where dt = '20260824'   #会转化成mapreduce

select * from part1 where dt = '20260823' or dt = '20260824'

select * from part1 where dt in ( '20260823'  '20260824')

show partitions  part1;


alter table  part1 add partition (dt = '20260423')


#查看表的设计
desc part1;
desc formatted part1;

分区关联数据的三种方式

sql 复制代码
#上传数据后修复
create table part5(
    id int,
    name string,
    gae int
)
partitioned by (year string,month string,day string)

row format delimited
fields terminated by ',';

dfs -put /home/hivedata/user1.txt /user/hive/warehouse/yhdb.db/part5/year=2023/month=08/day=26


load data local inpath '/home/hivedata/user.txt' into table
part5 partition(year='2026',month='03',day='21')

分区的种类

静态分区:先创建,再加载数据

动态分区:直接加载数据,根据数据动态创建分区

混合分区:有静态,还有动态,某个字段指定;

sql 复制代码
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

hive函数

sql 复制代码
show function;
show function abs
sql 复制代码
# abs 绝对值
select abs(-7);

#日期函数
#current_data()、current_timestamp()、unix_timestamp();


#lower()
#upper()
#length()
#concat() 拼接
#concat_ws() 过滤-
#substr(),3  截取
#replace("123124","2",",")1,31,4

#split("","")切割

#size()数组

#round()取整数

#case  when

#get_json_object()
#parse_url()
#if(1=1,1,2)
#pmod(3,2) = 1

窗口函数

sql 复制代码
select *,count(1) over() '订单量  ' from t_order;
#over是窗口,不加条件,默认所有数据统计;可以加条件限制

select *,count(1) over() '订单量' from t_order where substr(orderdata,1,7) = '2018-01'

#分组distribute by name,substr(orderdate,1,7)
select *,sum(cost) over(distribute by name,substr(orderdate,1,7)) from t_order

#每个顾客的明细,
select *, sum(cost) over (distribute by name,substr(orderdate,1,7) sort by orderdate desc) from t_order
select*,sum(cost),over(partition by name,month(orderdate) order by orderdate desc)from t_order
#
相关推荐
我叫唧唧波12 小时前
Python+AI 全栈学习笔记
人工智能·python·学习
城北徐宫13 小时前
Linux信号深度解剖:5种产生、3张表、4次切换
linux·c++·学习
三品吉他手会点灯14 小时前
C语言学习笔记 - 43.运算符与表达式 - 运算符1 - 运算符的分类和简单介绍
c语言·笔记·学习·算法
吃好睡好便好15 小时前
芒种时节如何保健
学习·生活
lizhihai_9916 小时前
股市学习心得-A股服务器/算力服务器龙头
大数据·运维·服务器·人工智能·科技·学习
烛之武16 小时前
Pytorch学习笔记(1)
pytorch·笔记·学习
飞翔中文网18 小时前
Java学习笔记之反射
java·笔记·学习
知南x19 小时前
【DPDK核心知识了解】(2) 内核旁路与硬件交互
学习
零陵上将军_xdr19 小时前
后端转全栈学习-Day4-JavaScript 基础-2
开发语言·javascript·学习
一楼的猫19 小时前
叙事指纹93.2%的技术确认与AI写作同质化——网文创作的差异化路径分析
人工智能·学习·机器学习·写作·ai写作