hive 刷新数据适用场景

1、MSCK REPAIR TABLE

msck repair table 作用是检查HDFS目录下存在(不存在)但表的metastore中不存在(存在)的元数据信息,更新到metastore中。

MSCK适合一次导入很多分区,需要将这些分区都更新到元数据信息中!

每次执行msck repair这个命令,都会检查所有分区的目录是否在元数据中存在,如果是每次新增一个分区的任务,那么使用这个语句将会越来越耗费时间,

建议使用ALTER TABLE ADD PARTITION 命令。

2、REFRESH TABLE

REFRESH是用于重新整理某个分区的文件,重用之前的表元数据信息,能够检测到表的字段的增加或者减少。

主要用于表中元数据未修改,表的数据修改,例如INSERT INTO、LOAD DATA、ALTER TABLE ADD PARTITION、LLTER TABLE DROP PARTITION等

相关推荐
yumgpkpm15 分钟前
接入Impala、Hive 的AI平台、开源大模型的国内厂商(星环、Doris、智谱AI、Qwen、DeepSeek、 腾讯混元、百川智能)
人工智能·hive·hadoop·zookeeper·spark·开源·hbase
沧海寄馀生28 分钟前
Apache Hadoop生态组件部署分享-Sqoop
大数据·hadoop·分布式·apache·sqoop
沧海寄馀生32 分钟前
Apache Hadoop生态组件部署分享-Ranger
大数据·hadoop·分布式·apache
juma90026 小时前
反激式开关电源设计全解析:从理论到实操
hadoop
还是大剑师兰特1 天前
Hadoop入门基础教程(110 问题+ 答案)
hadoop·大剑师·hadoop教程·hadoop入门
笨蛋少年派1 天前
Sqoop数据迁移简介
hive·hadoop·sqoop
zhangkaixuan4561 天前
Flink Checkpoint 全生命周期深度解析
大数据·hadoop·flink·apache·paimon
我的offer在哪里1 天前
Hadoop 全维度技术深度解析
hadoop
沧海寄馀生1 天前
Apache Hadoop生态组件部署分享-Impala
大数据·hadoop·分布式·apache
云闲不收1 天前
clickhouse hbase Hive 区别
hive·clickhouse·hbase