Hive集群之间迁移的Linux Shell脚本

新旧 Hive 集群之前数据迁移单表脚本

migrate_hive_single_table.sh

bash 复制代码
#!/bin/bash

#配置参数
OLD_NAMENODE="hdfs://<old-namenode>:<old-port>" 
EXPORT_PATH="/tmp/hive-export/dm"
NEW_DB="dm_events"
TABLE_NAME="dm_usereventfinal"
SIZE_THRESHOLD=$((32 * 1024*1024)) # 32MB大小阈值

# 检查命令执行结果的函数
check_command(){
  if [ $? -ne 0 ]; then
    echo "Error: $1 失败,退出脚本。"
    exit 1
  fi
}

# 1.导出旧集群的数据 
echo "正在导出数据..."
hive -e "EXPORT TABLE ${NEW_DB}.${TABLE_NAME} TO '${EXPORT_PATH}';"
check_command "数据导出"

# 2.检查导出文件的大小 
echo "检查文件大小..."
HDFS_SIZE=$(hadoop fs -du -s ${EXPORT_PATH} | awk '{print $1}') 
check_command "获取文件大小"
echo "导出文件大小为:$HDFS_SIZE 字节"

# 3.根据文件大小选择迁移方法
if ["$HDFS_SIZE" -le "$SIZE_THRESHOLD" ]; then
  echo "文件小于 32MB,使用简单复制方法..."
  hadoop fs -cp ${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH}   
  check_command "简单复制"
else
  echo "文件大于 32MB,使用 DistCp 工具迁移..."
  hadoop distcp -update -skipcrccheck
${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH}
  check_command "数据迁移"
fi

# 4.在新集群中创建数据库(如果不存在)
echo "正在创建数据库(如果不存在)..."
hive -e "CREATE DATABASE IF NOT EXISTS ${NEW_DB};" 
check_command "创建数据库"

# 5.在新集群中导入数据

echo "正在导入数据到新集群..."
hive -e "IMPORT TABLE ${NEW_DB}.${TABLE_NAME} FROM'${EXPORT_PATH}';"
check_command "数据导入"

echo "数据迁移完成!"

新旧 Hive 集群之前数据迁移所有表、视图、UDF函数的脚本

migrate_hive_all.sh

bash 复制代码
#!/bin/bash

# 配置参数
OLD_NAMENODE="hdfs://<old-namenode>:<old-port>"
EXPORT_BASE_PATH="/tmp/hive-export"
NEW_DB="your_database_name"
SIZE_THRESHOLD=$((32*1024*1024)) # 32MB大小阈值

# 检查命令执行结果的函数
check_command() {
  if [ $? -ne 0 ]; then
    echo "Error: $1 失败,退出脚本。"
    exit 1
  fi
}

# 导出元数据信息
echo "导出表和视图信息..."
hive -e "SHOW TABLES IN ${NEW_DB};" > tables.txt 
hive -e "SHOW VIEWS IN ${NEW_DB};"> views.txt

# 迁移每个表
echo"迁移表数据..."
while read TABLE; do
  EXPORT_PATH="${EXPORT_BASE_PATH}/${TABLE}"

  echo"处理表:$TABLE"
  hive -e "EXPORT TABLE ${NEW_DB}.${TABLE} TO '${EXPORT_PATH}'"   
  check_command "导出数据表"

  echo "检查文件大小..."
  HDFS_SIZE=$(hadoop fs -du -s ${EXPORT_PATH} | awk '{print $1}')
  check_command "获取文件大小"

  if["$HDFS_SIZE" -le "$SIZE_THRESHOLD" ]; then
    echo "文件小于 32MB,使用简单复制方法..."
    hadoop fs -cp ${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH} 
  else
    echo "文件大于 32MB,使用DistCp工具迁移..."
    hadoop distcp -update -skipcrccheck
${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH}
  fi
  check_command"数据迁移"

  hive -e "IMPORT TABLE ${NEW_DB}.${TABLE} FROM '${EXPORT_PATH}'"
  check_command "导入数据表"
done < tables.txt

# 重建视图
echo "重建视图..."
while read VIEW; do
  echo"处理视图:$VIEW"
  DEFINITION=$(hive -e "SHOW CREATE TABLE ${NEW_DB}.${VIEW}")  
  check_command "获取视图定义"
  echo "${DEFINITION}" | hive-e
  check_command "重建视图"
done <views.txt

# 迁移 UDF
echo "列出并注册 UDF..."
# 假设您已经收集了所有的UDF及其JAR路径
UDF_LIST=("function_name_1" "function_name_2") 
JAR_PATH_LIST=("/path/to/jar1" "/path/to/jar2")

for i in "${!UDF_LIST[@]}"; do
  FUNCTION="${UDF_LIST[$i]}"
  JAR_PATH="${JAR_PATH_LIST[$i]}"

  echo"注册 UDF: $FUNCTION from $JAR_PATH"

  hive -e "ADD JAR ${JAR_PATH}; CREATE TEMPORARY FUNCTION${FUNCTION} AS'fully.qualified.class.name.of.Function';" 
  check_command "注册UDF ${FUNCTION}" done

echo "所有 Hive 表、视图和 UDF 函数迁移完成!"
相关推荐
字节跳动数据平台1 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术1 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康1 天前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
chlk1232 天前
Linux文件权限完全图解:读懂 ls -l 和 chmod 755 背后的秘密
linux·操作系统
武子康2 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
舒一笑2 天前
Ubuntu系统安装CodeX出现问题
linux·后端
改一下配置文件2 天前
Ubuntu24.04安装NVIDIA驱动完整指南(含Secure Boot解决方案)
linux
大大大大晴天2 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
深紫色的三北六号2 天前
Linux 服务器磁盘扩容与目录迁移:rsync + bind mount 实现服务无感迁移(无需修改配置)
linux·扩容·服务迁移
SudosuBash3 天前
[CS:APP 3e] 关于对 第 12 章 读/写者的一点思考和题解 (作业 12.19,12.20,12.21)
linux·并发·操作系统(os)