hive 刷新数据适用场景

1、MSCK REPAIR TABLE

msck repair table 作用是检查HDFS目录下存在(不存在)但表的metastore中不存在(存在)的元数据信息,更新到metastore中。

MSCK适合一次导入很多分区,需要将这些分区都更新到元数据信息中!

每次执行msck repair这个命令,都会检查所有分区的目录是否在元数据中存在,如果是每次新增一个分区的任务,那么使用这个语句将会越来越耗费时间,

建议使用ALTER TABLE ADD PARTITION 命令。

2、REFRESH TABLE

REFRESH是用于重新整理某个分区的文件,重用之前的表元数据信息,能够检测到表的字段的增加或者减少。

主要用于表中元数据未修改,表的数据修改,例如INSERT INTO、LOAD DATA、ALTER TABLE ADD PARTITION、LLTER TABLE DROP PARTITION等

相关推荐
weixin_307779131 小时前
分层设计数据仓库的架构和设计高效数据库系统的方法
数据仓库·架构
IT成长日记5 小时前
【Hive入门】Hive查询语言(DQL)完全指南:从基础查询到高级分析
数据仓库·hive·hadoop·dql操作
橘猫云计算机设计6 小时前
springboot基于hadoop的酷狗音乐爬虫大数据分析可视化系统(源码+lw+部署文档+讲解),源码可白嫖!
数据库·hadoop·spring boot·爬虫·python·数据分析·毕业设计
冰^7 小时前
MySQL VS SQL Server:优缺点全解析
数据库·数据仓库·redis·sql·mysql·json·数据库开发
宅小海8 小时前
spark和Hadoop的区别和联系
大数据·hadoop·spark
root666/8 小时前
【大数据技术-联邦集群RBF】DFSRouter日志一直打印修改Membership为EXPIRED状态的日志分析
java·大数据·hadoop
IT成长日记9 小时前
【Hive入门】Hive数据模型与存储格式深度解析:从理论到实践的最佳选择
数据仓库·hive·hadoop·数据模型·存储格式
啊喜拔牙9 小时前
spark和hadoop的区别与联系
大数据·hadoop·spark
RestCloud13 小时前
ETL 数据集成都包含哪些?
数据仓库·etl·数据集成·数据集成平台
IT成长日记14 小时前
【Hive入门】Hive分区与分桶深度解析:优化查询性能的关键技术
数据仓库·hive·hadoop·分区·分桶