hive-分桶-索引(初篇)

澄绪猿2024-04-10 12:29

hvie - 分桶

创建分桶表之前要先设置hive允许进行强制分桶配置

复制代码

set hive.enforce.bucketing=true

创建分桶表

复制代码

create table tmp_bucket(id int,
                        name String) 
                        clustered by (id) into 4 buckets

建表
其中x表示分几个桶进行抽样，y表示间隔几个桶进行一次分桶

复制代码

select columns 
from  table tablesample(bucket x out of y on column);

进行抽样

复制代码

select id,name from tmp_bucket tablesample(bucket 1 out of 2 on id);

像分桶表加载数据

复制代码

insert overwrite table tmp_bucket 
select id,name from source_data;
# 其中的source_data 表中的数据一定是提前分好桶的

查询分桶表 - > 高效抽样，通过桶号进行抽样

复制代码

select * from tmp_bucket where name in (select name from tmp_bucket distribute by rand() into 3 butkets);

hive-索引

刚创建完hive的索引表是数据的，需要生成索引数据

复制代码

alter index 索引名称 on table_name rebuild;

查看索引

复制代码

show  formatted index on table_name

这篇文件未完成待续哦 ......

上一篇：100行代码，我给摸鱼群加了一个前端出题机器人

下一篇：生产端消息可靠性保证: 确认（Confirm）机制

热门推荐

01全球最强模型Grok4，国内已可免费使用！（附教程）02Cursor Claude 模型无法使用的解决方法 03KGG转MP3工具|非KGM文件|解密音频 04【2025.7.18】更新vscode后所有.vue文件template标签后报红的临时解决办法，Vue - Official 插件3.0.2导致 05【无标题】06集群聊天服务器---MySQL数据库的建立 07突破限制：使用 Claude Code Proxy 让 Claude Code 自由连接任意模型 08绿色建筑新态势：楼宇自控助力能效提升，推动成本优化新路径 09使用Ruby接入实时行情API教程 10Claude Code 最新版已经支持 Windows 安装使用！