Hive 数据同步

一、需求

同步集团的数据到断直连环境。

二、思路

三、同步数据(方案)

1、环境:断直连模拟环境

2、操作机器:ETL 机器 XX.14.36.216

3、工作路径:cd /usr/local/fqlhadoop/hadoop/bin

4、执行命令:

shell 复制代码
命令格式:./hadoop distcp hdfs://${NameNode_IP}:${NameNode_RPC_IP}/${源文件} hdfs://${NameNode_IP}:${NameNode_RPC_IP}/${目标路径}
举例:./hadoop distcp hdfs://XX.10.28.36:8020/spark_udfs hdfs://XX.14.36.216:8020/

会运行一个MapReduce任务,来执行拷贝数据的操作。

四、同步数据(实际操作)

shell 复制代码
# 1、表
## 1.1、分区表
dp_fklh_mart.order_red_blue_flag_hawkeye
f_p_date2023-01-05~2023-01-12

## 1.2、非分区表
dp_dict.fund_manage_db_t_merchant_channel

# 2、实际操作
2.1、登录到对应环境
先登录到 XX.14.36.220
sudo su - biadmin
然后执行 ssh -p 39000 XX.14.36.217

2.2、分区表
## 1. 元数据
提前建表
## 2. 迁移数据
/usr/local/fqlhadoop/hadoop/bin/hadoop distcp \    
hdfs://XX.10.28.36:8020/user/hive/warehouse/dp_fklh_mart.db/order_red_blue_flag_hawkeye/f_p_date=2023-01-05 \
hdfs://XX.14.36.216:8020/user/hive/warehouse/dp_fklh_mart.db/order_red_blue_flag_hawkeye
	
## 3. 关联
/usr/local/fqlhadoop/hive/bin/hive 进入交互环境
MSCK REPAIR TABLE order_red_blue_flag_hawkeye;

## 4. 验证
/usr/local/fqlhadoop/hive/bin/hive 进入交互环境
SHOW TABLES;
SELECT * FROM ${TABLE_NAME} LIMIT 10;

2.3、非分区表
(比分区表操作少了第三步,关联)

迁移数据
/usr/local/fqlhadoop/hadoop/bin/hadoop distcp \    
hdfs://XX.10.28.36:8020/user/hive/warehouse/dp_dict.db/fund_manage_db_t_merchant_channel \    
hdfs://XX.14.36.216:8020/user/hive/warehouse/dp_dict.db/
相关推荐
知识分享小能手4 小时前
Hadoop学习教程,从入门到精通,Flume日志采集系统 — 完整知识点与案例代码(9)
hadoop·学习·flume
递归尽头是星辰4 小时前
AI 访问数据仓库:从直连到微服务化
数据仓库·人工智能·微服务·dataagent·ai数据治理
Francek Chen1 天前
【大数据处理与分析】MapReduce:06 MapReduce编程实践
大数据·hadoop·分布式·mapreduce
王小王-1231 天前
基于 Hadoop 的二手房数据分析与可视化平台项目展示
大数据·hadoop·数据分析·大数据房价分析·二手房价格预测·hive房价数据分析
知识分享小能手1 天前
Hadoop学习教程,从入门到精通, HBase 分布式数据库 — 完整知识点与案例代码(8)
数据库·hadoop·分布式
王小王-1231 天前
基于 Hadoop 的心脏病分析可视化与风险预测系统
大数据·hadoop·分布式·心脏病预测系统·疾病预测·冠心病风险预测
TPBoreas1 天前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
Nefu_lyh3 天前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
阿 才3 天前
跟文件系统(busybox)的构建
大数据·hadoop·分布式
KANGBboy3 天前
hive UDF函数
数据仓库·hive·hadoop