在hive中实现拉链表的更新和merge into

拉链表是一种用于存储历史数据的技术,通常用于记录某个维度表的状态变化。每条记录包含以下字段:

主键:唯一标识一条记录。

开始时间( start_date ):记录生效的时间。

结束时间( end_date ):记录失效的时间,通常用一个特殊值(如 9999-12-31 )表示当前有效。

其他字段:记录的具体属性。

例如,一个用户表的拉链表可能如下所示:

|-------------|-----------|----------------|----------------|
| user_id | name | start_date | end_date |
| 1 | Alice | 2023-01-01 | 2023-06-30 |
| 1 | Alice | 2023-07-01 | 9999-12-31 |
| 2 | Bob | 2023-01-01 | 9999-12-31 |

一、 Hive 中如何实现拉链表的更新?

Hive 中,可以通过以下步骤实现拉链表的更新:

1. 准备数据

假设我们有一个增量数据表 incremental_data 和一个现有的拉链表 dim_user

增量数据表 incremental_data

|-------------|-----------|-----------------|
| user_id | name | update_time |
| 1 | Alice | 2023-08-01 |
| 2 | Bob | 2023-08-01 |
| 3 | Carol | 2023-08-01 |

现有拉链表 dim_user

|-------------|-----------|----------------|----------------|
| user_id | name | start_date | end_date |
| 1 | Alice | 2023-01-01 | 2023-06-30 |
| 1 | Alice | 2023-07-01 | 9999-12-31 |
| 2 | Bob | 2023-01-01 | 9999-12-31 |

2. 更新逻辑

我们需要实现以下操作:

关闭旧记录:对于增量数据中更新的记录,将现有拉链表中对应的记录的 end_date 设置为增量数据的 update_time - 1

插入新记录:将增量数据中的记录插入到拉链表中,并设置其 start_date update_time end_date 9999-12-31

3. 实现步骤

(1) 关闭旧记录

使用 LEFT JOIN 将增量数据与现有拉链表进行匹配,并更新 end_date

复制代码
INSERT OVERWRITE TABLE dim_user
  SELECT t1.user_id,
         t1.name,
         t1.start_date,
         CASE
           WHEN t2.user_id IS NOT NULL THEN
            DATE_SUB(t2.update_time, 1)
           ELSE
            t1.end_date
         END AS end_date
    FROM dim_user t1
    LEFT JOIN incremental_data t2
      ON t1.user_id = t2.user_id
     AND t1.end_date = '9999-12-31';

原始:

闭链后:

(2) 插入新记录

将增量数据中的记录插入到拉链表中。

复制代码
INSERT INTO TABLE dim_user
SELECT
    user_id,
    name,
    update_time AS start_date,
    '9999-12-31' AS end_date
FROM incremental_data;

插入的内容:

插入后:

拉链表就更新好了.

二、 Hive 中的 MERGE INTO 替代方案

虽然 Hive 不支持标准 SQL 的 MERGE INTO 语法,但可以通过 UNION ALL 和 INSERT OVERWRITE 来模拟 MERGE INTO 的功能。

如果数据存在,就进行update,如果不存在就进行insert.

可以按照以下步骤操作

原始表 也就是需要更新的目标表(mgr_yuanshi_data):

新的表 也就是数据的对比来源表 (mgr_duibi_data):

(1) 创建临时表

创建一个临时表,用于存储更新后的数据。

复制代码
CREATE TABLE temp_table AS
SELECT * FROM mgr_yuanshi_data WHERE 1=0;
  1. 插入对比表中的所有数据(更新和新增) :

    INSERT INTO temp_table
    SELECT s.*
    FROM mgr_duibi_data s;

(3) 保留原始表中多余的对比表中没有的数据(看具体需求如果不保留就是全量,保留就是对比了):

复制代码
INSERT INTO temp_table
SELECT t.*
FROM mgr_yuanshi_data t
LEFT JOIN mgr_duibi_data s ON t.user_id = s.user_id
WHERE s.user_id IS NULL;

(4) 替换原表

将临时表的数据覆盖到原始表:

复制代码
INSERT OVERWRITE TABLE mgr_yuanshi_data
SELECT * FROM temp_table;
相关推荐
王小王-1234 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
极光代码工作室4 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
Database_Cool_4 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
Database_Cool_4 天前
什么是湖仓一体?和数据仓库的本质区别(附 AnalyticDB MySQL 湖仓一体方案)
数据库·数据仓库·mysql
Chris _data4 天前
WPF 学习第三天 — Modbus RTU 串口通信
hadoop·学习·wpf
知识分享小能手4 天前
Hadoop学习教程,从入门到精通,Flume日志采集系统 — 完整知识点与案例代码(9)
hadoop·学习·flume
递归尽头是星辰4 天前
AI 访问数据仓库:从直连到微服务化
数据仓库·人工智能·微服务·dataagent·ai数据治理
Francek Chen5 天前
【大数据处理与分析】MapReduce:06 MapReduce编程实践
大数据·hadoop·分布式·mapreduce
王小王-1235 天前
基于 Hadoop 的二手房数据分析与可视化平台项目展示
大数据·hadoop·数据分析·大数据房价分析·二手房价格预测·hive房价数据分析
知识分享小能手5 天前
Hadoop学习教程,从入门到精通, HBase 分布式数据库 — 完整知识点与案例代码(8)
数据库·hadoop·分布式