在hive中实现拉链表的更新和merge into

拉链表是一种用于存储历史数据的技术,通常用于记录某个维度表的状态变化。每条记录包含以下字段:

主键:唯一标识一条记录。

开始时间( start_date ):记录生效的时间。

结束时间( end_date ):记录失效的时间,通常用一个特殊值(如 9999-12-31 )表示当前有效。

其他字段:记录的具体属性。

例如,一个用户表的拉链表可能如下所示:

|-------------|-----------|----------------|----------------|
| user_id | name | start_date | end_date |
| 1 | Alice | 2023-01-01 | 2023-06-30 |
| 1 | Alice | 2023-07-01 | 9999-12-31 |
| 2 | Bob | 2023-01-01 | 9999-12-31 |

一、 Hive 中如何实现拉链表的更新?

Hive 中,可以通过以下步骤实现拉链表的更新:

1. 准备数据

假设我们有一个增量数据表 incremental_data 和一个现有的拉链表 dim_user

增量数据表 incremental_data

|-------------|-----------|-----------------|
| user_id | name | update_time |
| 1 | Alice | 2023-08-01 |
| 2 | Bob | 2023-08-01 |
| 3 | Carol | 2023-08-01 |

现有拉链表 dim_user

|-------------|-----------|----------------|----------------|
| user_id | name | start_date | end_date |
| 1 | Alice | 2023-01-01 | 2023-06-30 |
| 1 | Alice | 2023-07-01 | 9999-12-31 |
| 2 | Bob | 2023-01-01 | 9999-12-31 |

2. 更新逻辑

我们需要实现以下操作:

关闭旧记录:对于增量数据中更新的记录,将现有拉链表中对应的记录的 end_date 设置为增量数据的 update_time - 1

插入新记录:将增量数据中的记录插入到拉链表中,并设置其 start_date update_time end_date 9999-12-31

3. 实现步骤

(1) 关闭旧记录

使用 LEFT JOIN 将增量数据与现有拉链表进行匹配,并更新 end_date

复制代码
INSERT OVERWRITE TABLE dim_user
  SELECT t1.user_id,
         t1.name,
         t1.start_date,
         CASE
           WHEN t2.user_id IS NOT NULL THEN
            DATE_SUB(t2.update_time, 1)
           ELSE
            t1.end_date
         END AS end_date
    FROM dim_user t1
    LEFT JOIN incremental_data t2
      ON t1.user_id = t2.user_id
     AND t1.end_date = '9999-12-31';

原始:

闭链后:

(2) 插入新记录

将增量数据中的记录插入到拉链表中。

复制代码
INSERT INTO TABLE dim_user
SELECT
    user_id,
    name,
    update_time AS start_date,
    '9999-12-31' AS end_date
FROM incremental_data;

插入的内容:

插入后:

拉链表就更新好了.

二、 Hive 中的 MERGE INTO 替代方案

虽然 Hive 不支持标准 SQL 的 MERGE INTO 语法,但可以通过 UNION ALL 和 INSERT OVERWRITE 来模拟 MERGE INTO 的功能。

如果数据存在,就进行update,如果不存在就进行insert.

可以按照以下步骤操作

原始表 也就是需要更新的目标表(mgr_yuanshi_data):

新的表 也就是数据的对比来源表 (mgr_duibi_data):

(1) 创建临时表

创建一个临时表,用于存储更新后的数据。

复制代码
CREATE TABLE temp_table AS
SELECT * FROM mgr_yuanshi_data WHERE 1=0;
  1. 插入对比表中的所有数据(更新和新增) :

    INSERT INTO temp_table
    SELECT s.*
    FROM mgr_duibi_data s;

(3) 保留原始表中多余的对比表中没有的数据(看具体需求如果不保留就是全量,保留就是对比了):

复制代码
INSERT INTO temp_table
SELECT t.*
FROM mgr_yuanshi_data t
LEFT JOIN mgr_duibi_data s ON t.user_id = s.user_id
WHERE s.user_id IS NULL;

(4) 替换原表

将临时表的数据覆盖到原始表:

复制代码
INSERT OVERWRITE TABLE mgr_yuanshi_data
SELECT * FROM temp_table;
相关推荐
Gain_chance40 分钟前
33-学习笔记尚硅谷数仓搭建-DWS层交易域用户粒度订单表分析及设计代码
数据库·数据仓库·hive·笔记·学习·datagrip
十月南城3 小时前
Hadoop基础认知——HDFS、YARN、MapReduce在现代体系中的位置与价值
hadoop·hdfs·mapreduce
蓝眸少年CY4 小时前
Hadoop2-HDFS文件系统
大数据·hadoop·hdfs
心疼你的一切15 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
WHD30619 小时前
苏州数据库(SQL Oracle)文件损坏修复
hadoop·sql·sqlite·flume·memcached
ClouderaHadoop19 小时前
CDH集群机房搬迁方案
大数据·hadoop·cloudera·cdh
心疼你的一切20 小时前
基于CANN仓库打造轻量级AIGC:一键生成图片语义描述
数据仓库·aigc·cann
AC赳赳老秦1 天前
代码生成超越 GPT-4:DeepSeek-V4 编程任务实战与 2026 开发者效率提升指南
数据库·数据仓库·人工智能·科技·rabbitmq·memcache·deepseek
心疼你的一切1 天前
拆解 CANN 仓库:实现 AIGC 文本生成昇腾端部署
数据仓库·深度学习·aigc·cann