Hive迁移,小表(10G以下的),分区快速修复批量脚本

hive迁移要迁移元数据(mysql),要迁移实际数据hdfs,迁移完后如果有分区,通常是不能访问的。

这里就要修复分区了,如果是大表,几十T这种,迁移可能花了24小时,那么你修复分区也可能花这么久,这种表就得手动分区比较快。参考这个几分钟。hive迁移后修复分区慢,怎么办?-CSDN博客

大表就只有那么多张,其他大部分都是小表,比如我这个小表有2000张。

主要用的是MSCK REPAIR TABLE table_name

脚本如下

repair_table.sh

bash 复制代码
#!/bin/bash

# 设置beeline的连接信息
BEELINE_CMD="beeline -u jdbc:hive2://your_hive_server:10000 -n your_username -p your_password"
#kerbers方式
#BEELINE_CMD="beeline -u jdbc:hive2://xxx:7001/xxx;principal=hadoop/xxx@xxxx"

# 读取包含表名的txt文件
while IFS= read -r table_name
do
    # 执行MSCK REPAIR TABLE命令
    echo "Repairing partitions for table: $table_name"
    $BEELINE_CMD -e "MSCK REPAIR TABLE $table_name;"
    if [ $? -eq 0 ]; then
        echo "Successfully repaired partitions for table: $table_name"
    else
        echo "Failed to repair partitions for table: $table_name"
    fi
done < "$1"

建议第一次,先在下面的table.txt,提供几张小表,测试下,然后没问题,在一次性丢几千张表进去。

用法,准备一个含所有表名的txt

table.txt

里面的内容是

table_name123

ods_a

ods_a12

dwd_b

用法

sh repair_table.sh table.txt

成功,之后自己beeline去hive里面查下就行了

相关推荐
心止水j20 小时前
数据库问题
数据仓库·hive·hadoop
yumgpkpm21 小时前
网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的AI功能操作步骤
大数据·hive·hadoop·深度学习·kafka·transformer·cloudera
TTBIGDATA21 小时前
【Ambari开启Kerberos】-Trino启动-配置模板
大数据·运维·hadoop·ambari·hdp·trino·knox
yumgpkpm21 小时前
网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的ChatBI方案
大数据·hive·hadoop·华为·zookeeper·kafka·cloudera
qq_12498707531 天前
基于Hadoop的健康饮食推荐系统的设计与实现(源码+论文+部署+安装)
大数据·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计
sunxunyong1 天前
hive小文件合并textfile&parquet
数据仓库·hive·hadoop
SamtecChina20231 天前
Samtec小课堂| 电气设计中电缆组件的注意事项
大数据·数据仓库·人工智能·汽车·计算机外设
chimchim661 天前
Error: Could not open client transport with JDBC Uri: jdbc:hive2://
hadoop
oMcLin1 天前
如何在 Red Hat Linux 8 上搭建高性能 Hadoop YARN 集群,并进行资源隔离与任务调度优化
linux·运维·hadoop
TingLans1 天前
南京大学软件学院-2025-数据仓库与知识发现期末复习参考
数据仓库