hive 刷新数据适用场景

1、MSCK REPAIR TABLE

msck repair table 作用是检查HDFS目录下存在(不存在)但表的metastore中不存在(存在)的元数据信息,更新到metastore中。

MSCK适合一次导入很多分区,需要将这些分区都更新到元数据信息中!

每次执行msck repair这个命令,都会检查所有分区的目录是否在元数据中存在,如果是每次新增一个分区的任务,那么使用这个语句将会越来越耗费时间,

建议使用ALTER TABLE ADD PARTITION 命令。

2、REFRESH TABLE

REFRESH是用于重新整理某个分区的文件,重用之前的表元数据信息,能够检测到表的字段的增加或者减少。

主要用于表中元数据未修改,表的数据修改,例如INSERT INTO、LOAD DATA、ALTER TABLE ADD PARTITION、LLTER TABLE DROP PARTITION等

相关推荐
宅小海12 小时前
14 配置Hadoop集群-配置历史和日志服务
linux·服务器·hadoop
珹洺14 小时前
Java-servlet(十)使用过滤器,请求调度程序和Servlet线程(附带图谱表格更好对比理解)
java·开发语言·前端·hive·hadoop·servlet·html
2401_8712905818 小时前
Hadoop 集群的常用命令
大数据·hadoop·分布式
chat2tomorrow19 小时前
数据仓库是什么?数据仓库的前世今生 (数据仓库系列一)
大数据·数据库·数据仓库·低代码·华为·spark·sql2api
只因只因爆21 小时前
mapreduce的工作原理
大数据·linux·hadoop·mapreduce
lix的小鱼1 天前
hadoop集群的常用命令
大数据·linux·hadoop
shouwangV61 天前
hive执行CTAS报错“Hive Runtime Error while processing row”
数据仓库·hive·hadoop
洋芋爱吃芋头1 天前
1. hadoop 集群的常用命令
hadoop
一个天蝎座 白勺 程序猿1 天前
大数据(4.1)Hive架构设计与企业级实战:从内核原理到性能巅峰优化,打造高效数据仓库
数据仓库·hive·hadoop
今天我又学废了1 天前
Spark,配置hadoop集群1
大数据·hadoop·spark