hive-分桶-索引(初篇)

hvie - 分桶

  • 创建分桶表之前要先设置hive允许进行强制分桶配置
复制代码
set hive.enforce.bucketing=true
  • 创建分桶表
复制代码
create table tmp_bucket(id int,
                        name String) 
                        clustered by (id) into 4 buckets    
  • 建表

  • 其中x表示分几个桶进行抽样,y表示间隔几个桶进行一次分桶

复制代码
select columns 
from  table tablesample(bucket x out of y on column);
  • 进行抽样
复制代码
select id,name from tmp_bucket tablesample(bucket 1 out of 2 on id);
  • 像分桶表加载数据
复制代码
insert overwrite table tmp_bucket 
select id,name from source_data;
# 其中的source_data 表中的数据一定是提前分好桶的
​
  • 查询分桶表 - > 高效抽样 , 通过桶号进行抽样
复制代码
select * from tmp_bucket where name in (select name from tmp_bucket distribute by rand() into 3 butkets);   

hive-索引

  • 刚创建完hive的索引表是数据的, 需要生成索引数据
复制代码
alter index 索引名称 on table_name rebuild;
  • 查看索引
复制代码
show  formatted index on table_name

这篇文件未完成待续哦 ......

相关推荐
2501_906314324 小时前
优化无头浏览器流量:使用Puppeteer进行高效数据抓取的成本降低策略
开发语言·数据结构·数据仓库
youka15013 小时前
大数据学习栈记——Hive4.0.1安装
大数据·hive·学习
IT成长日记1 天前
【Hive入门】Hive基础操作与SQL语法:DDL操作全面指南
hive·hadoop·sql·ddl操作
IT成长日记1 天前
【Hive入门】Hive分桶表深度解析:从哈希分桶到Join优化的完整指南
hive·hadoop·哈希算法·哈希分桶·join优化
和算法死磕到底1 天前
ubantu18.04(Hadoop3.1.3)之Spark安装和编程实践
大数据·hadoop·pycharm·spark
菜鸟、上路1 天前
Hadoop 集群扩容新增节点操作文档
大数据·hadoop·分布式
IT成长日记1 天前
【Hive入门】Hive动态分区与静态分区:使用场景与性能对比完全指南
数据仓库·hive·hadoop·动态分区·静态分区
嘟嘟嘟嘟嘟嘟嘟.1 天前
spark和hadoop之间的对比和联系
hadoop·spark
一个数据大开发1 天前
数据资产价值及其实现路径-简答题回顾
大数据·数据仓库·数据
viperrrrrrrrrr72 天前
大数据学习(112)-HIVE中的窗口函数
hive·sql·学习