hadoop学习---基于Hive的数仓搭建增量信息拉链表的实现

卓_尔_不_凡2024-05-07 8:43

拉链表就是SCD2，它的优点是即满足了反应数据的历史状态，又能在最大程度上节省存储。

拉链表的实现需要在原始字段基础上增加两个新字段：

start_time(表示该条记录的生命周期开始时间------周期快照时的状态)
end_time(该条记录的生命周期结束时间)

采集实现步骤

建立增量数据临时表update；

抽取昨日增量数据(新增和更新)到update表；

建立合并数据临时表tmp；

合并昨日增量数据（update表）与历史数据（拉链表）：

新数据end_time设为'9999-12-31'，也就是当前有效；

如果增量数据有重复id的旧数据，将旧数据end_time更新为前天（昨日-1），也就是从昨天开始不再生效；

合并后的数据写入tmp表；

将临时表的数据，覆盖到拉链表中；

下次抽取需要重建update表和tmp表。

查询拉链表数据时，可以通过start_time和end_time查询出快照数据。

小结：

当每日采集增量信息时，采用拉链表的方式，通常在原始信息表中增加有效信息开始时间start_time和结束时间end_time两个字段，先将改变或新增的信息提取出来组成一张新表，再将新表与原始表做右外联接，重新抽取字段更新end_time字段信息，目的是改变原始表的旧信息的end_time时间，最后将更新后的原始表和新增的更新信息表进行union all 操作，并将结果覆盖到hive数据库中。

也就是原有hive数据库中的表不变，想办法更新旧信息的end_time时间，同时将新增信息后改写后的信息重新新增一行到原始数据表中即可。

案例流程：

上一篇：PyTorch机器学习实现液态神经网络

下一篇：软件杯深度学习的水果识别 opencv python

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……