hadoop学习---基于Hive的数仓搭建增量信息拉链表的实现

拉链表就是SCD2,它的优点是即满足了反应数据的历史状态,又能在最大程度上节省存储。

拉链表的实现需要在原始字段基础上增加两个新字段:

  1. start_time(表示该条记录的生命周期开始时间------周期快照时的状态)
  2. end_time(该条记录的生命周期结束时间)

采集实现步骤

  1. 建立增量数据临时表update;
  2. 抽取昨日增量数据(新增和更新)到update表;
  3. 建立合并数据临时表tmp;
  4. 合并昨日增量数据(update表)与历史数据(拉链表):
    1. 新数据end_time设为'9999-12-31',也就是当前有效;
    2. 如果增量数据有重复id的旧数据,将旧数据end_time更新为前天(昨日-1),也就是从昨天开始不再生效;
    3. 合并后的数据写入tmp表;
  5. 将临时表的数据,覆盖到拉链表中;
  6. 下次抽取需要重建update表和tmp表。
  7. 查询拉链表数据时,可以通过start_time和end_time查询出快照数据。

小结:

当每日采集增量信息时,采用拉链表的方式,通常在原始信息表中增加有效信息开始时间start_time和结束时间end_time两个字段,先将改变或新增的信息提取出来组成一张新表,再将新表与原始表做右外联接,重新抽取字段更新end_time字段信息,目的是改变原始表的旧信息的end_time时间,最后将更新后的原始表和新增的更新信息表进行union all 操作,并将结果覆盖到hive数据库中。

也就是原有hive数据库中的表不变,想办法更新旧信息的end_time时间,同时将新增信息后改写后的信息重新新增一行到原始数据表中即可。

案例流程:

相关推荐
Studying 开龙wu几秒前
机器学习有监督学习sklearn实战二:六种算法对鸢尾花(Iris)数据集进行分类和特征可视化
学习·算法·机器学习
Lester_11011 小时前
嵌入式学习笔记 - STM32 HAL库以及标准库内核以及外设头文件区别问题
笔记·stm32·单片机·学习
Moonnnn.2 小时前
2023年电赛C题——电感电容测量装置
笔记·学习·硬件工程
拾忆-eleven2 小时前
NLP学习路线图(十六):N-gram模型
人工智能·学习·自然语言处理
aa32422432433 小时前
Scratch节日 | 六一儿童节抓糖果
学习·游戏·青少年编程·节日
moxiaoran57534 小时前
uni-app学习笔记十九--pages.json全局样式globalStyle设置
笔记·学习·uni-app
霸王蟹4 小时前
从前端工程化角度解析 Vite 打包策略:为何选择 Rollup 而非 esbuild。
前端·笔记·学习·react.js·vue·rollup·vite
我的golang之路果然有问题5 小时前
快速掌握 GO 之 RabbitMQ 结合 gin+gorm 案例
笔记·后端·学习·golang·rabbitmq·gin
xiaohanbao097 小时前
day41 python图像识别任务
人工智能·python·深度学习·神经网络·学习·机器学习
Chef_Chen7 小时前
从0开始学习R语言--Day13--混合效应与生存分析
学习