Hive 数据同步

一、需求

同步集团的数据到断直连环境。

二、思路

三、同步数据(方案)

1、环境:断直连模拟环境

2、操作机器:ETL 机器 XX.14.36.216

3、工作路径:cd /usr/local/fqlhadoop/hadoop/bin

4、执行命令:

shell 复制代码
命令格式:./hadoop distcp hdfs://${NameNode_IP}:${NameNode_RPC_IP}/${源文件} hdfs://${NameNode_IP}:${NameNode_RPC_IP}/${目标路径}
举例:./hadoop distcp hdfs://XX.10.28.36:8020/spark_udfs hdfs://XX.14.36.216:8020/

会运行一个MapReduce任务,来执行拷贝数据的操作。

四、同步数据(实际操作)

shell 复制代码
# 1、表
## 1.1、分区表
dp_fklh_mart.order_red_blue_flag_hawkeye
f_p_date2023-01-05~2023-01-12

## 1.2、非分区表
dp_dict.fund_manage_db_t_merchant_channel

# 2、实际操作
2.1、登录到对应环境
先登录到 XX.14.36.220
sudo su - biadmin
然后执行 ssh -p 39000 XX.14.36.217

2.2、分区表
## 1. 元数据
提前建表
## 2. 迁移数据
/usr/local/fqlhadoop/hadoop/bin/hadoop distcp \    
hdfs://XX.10.28.36:8020/user/hive/warehouse/dp_fklh_mart.db/order_red_blue_flag_hawkeye/f_p_date=2023-01-05 \
hdfs://XX.14.36.216:8020/user/hive/warehouse/dp_fklh_mart.db/order_red_blue_flag_hawkeye
	
## 3. 关联
/usr/local/fqlhadoop/hive/bin/hive 进入交互环境
MSCK REPAIR TABLE order_red_blue_flag_hawkeye;

## 4. 验证
/usr/local/fqlhadoop/hive/bin/hive 进入交互环境
SHOW TABLES;
SELECT * FROM ${TABLE_NAME} LIMIT 10;

2.3、非分区表
(比分区表操作少了第三步,关联)

迁移数据
/usr/local/fqlhadoop/hadoop/bin/hadoop distcp \    
hdfs://XX.10.28.36:8020/user/hive/warehouse/dp_dict.db/fund_manage_db_t_merchant_channel \    
hdfs://XX.14.36.216:8020/user/hive/warehouse/dp_dict.db/
相关推荐
IT研究室3 小时前
大数据毕业设计选题推荐-基于大数据的贵州茅台股票数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
Lx3524 小时前
Hadoop异常处理机制:优雅处理失败任务
大数据·hadoop
IT毕设梦工厂5 小时前
大数据毕业设计选题推荐-基于大数据的国家基站整点数据分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·spark·毕业设计·源码·数据可视化
项目題供诗6 小时前
Hadoop(八)
大数据·hadoop·分布式
计算机毕业设计木哥9 小时前
Python毕业设计推荐:基于Django的饮食计划推荐与交流分享平台 饮食健康系统 健康食谱计划系统
开发语言·hadoop·spring boot·后端·python·django·课程设计
元媛媛15 小时前
数据仓库概要
数据仓库
cg.family15 小时前
Doris 数据仓库例子
数据仓库·doris
TDengine (老段)15 小时前
从 ETL 到 Agentic AI:工业数据管理变革与 TDengine IDMP 的治理之道
数据库·数据仓库·人工智能·物联网·时序数据库·etl·tdengine
BYSJMG20 小时前
计算机毕设大数据方向:基于Spark+Hadoop的餐饮外卖平台数据分析系统【源码+文档+调试】
大数据·hadoop·分布式·python·spark·django·课程设计
IT研究室1 天前
大数据毕业设计选题推荐-基于大数据的宫颈癌风险因素分析与可视化系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata