hive 刷新数据适用场景

1、MSCK REPAIR TABLE

msck repair table 作用是检查HDFS目录下存在(不存在)但表的metastore中不存在(存在)的元数据信息,更新到metastore中。

MSCK适合一次导入很多分区,需要将这些分区都更新到元数据信息中!

每次执行msck repair这个命令,都会检查所有分区的目录是否在元数据中存在,如果是每次新增一个分区的任务,那么使用这个语句将会越来越耗费时间,

建议使用ALTER TABLE ADD PARTITION 命令。

2、REFRESH TABLE

REFRESH是用于重新整理某个分区的文件,重用之前的表元数据信息,能够检测到表的字段的增加或者减少。

主要用于表中元数据未修改,表的数据修改,例如INSERT INTO、LOAD DATA、ALTER TABLE ADD PARTITION、LLTER TABLE DROP PARTITION等

相关推荐
high20119 小时前
【Hadoop】-- hadoop3.x default port
大数据·hadoop·分布式
工业互联网专业13 小时前
Python毕业设计选题:基于协同过滤的动漫推荐系统设计与实现_django+hive+spider
hive·python·django·源码·课程设计·spider
Acrelhuang1 天前
安科瑞电能质量治理产品在分布式光伏电站的应用-安科瑞黄安南
大数据·数据库·数据仓库·人工智能·物联网
SelectDB技术团队1 天前
Apache Doris 3.0.3 版本正式发布
大数据·数据库·数据仓库·数据分析·doris
weixin_1122331 天前
基于Hadoop大数据音乐推荐系统的设计与实现
大数据·hadoop·分布式
QEasycloud1 天前
多系统对接的实现方案技术分析
数据仓库
大数据魔法师1 天前
Hadoop生态圈框架部署 伪集群版(十)- DolphinScheduler伪分布式部署
大数据·hadoop·分布式
vx153027823621 天前
CDGA|数据治理:数据仓库”建设投入大、周期长怎么办?
大数据·数据仓库·分布式·spark·cdga·数据治理
B站计算机毕业设计超人1 天前
计算机毕业设计PyFlink+Hadoop广告推荐系统 广告预测 广告数据分析可视化 广告爬虫 大数据毕业设计 Spark Hive 深度学习 机器学
大数据·hadoop·深度学习·机器学习·课程设计·数据可视化·推荐算法