大数据项目中的拉链表(hadoop,hive)

缓慢渐变维

拉链表

拉链表,可实现数据快照,可以将历史和最新数据保存在一起

如何实现:

在原始数据增加两个新字段 起始时间(有效时间:什么时候导入的数据的时间),结束时间(默认的结束时间为9999-99-99)

处理时间是处理昨天的数据 因为是今天处理昨天的时间 有效结束时间应该是昨天

如果有效时间为9999-99-99 说明当前数据为最新数据

数据导入数据仓中拉链表的流程:

首先需要使用where 条件过滤 查询哪些是新数据

接下来需要把新数据的拉链表与之前数仓中的拉链表进行结合

1- 先进行左关联(left join)

数据有变化会显示新数据,没有则显示null 数据没有变化

操作指令: select if(表名.字段 is null,结束时间,现在时间-1) as end_time

from 旧表名 left join 新表名 ;

2- left join 进行 union 操作

union all 进行数据合并

3- insert overweight 新数据覆盖导入旧数据

相关推荐
NOCSAH3 分钟前
统好AI数智一体化平台:原生一体架构筑牢数智基底
大数据·人工智能·统好ai·数智一体化平台
diygwcom24 分钟前
AI正在吞噬所有SAAS软件:一场颠覆性的技术革命
大数据·人工智能
威联通安全存储43 分钟前
某大型食品饮料企业:基于威联通 TS-h1290FX 的中央数据管控与合规实践
大数据·人工智能·云计算
LY智网强哥1 小时前
企业怎么出现在AI回答里?GEO优化的原理、路径与边界
大数据·人工智能
guoji77882 小时前
Gemini 3.1 Pro 安全与对齐机制深度解析:可控性、合规性与企业级应用评估
大数据·人工智能·算法
q_35488851532 小时前
计算机毕业设计:Python当当网图书大数据分析平台 Django框架 爬虫 Pandas 可视化 大数据 大模型 书籍(建议收藏)✅
大数据·爬虫·python·机器学习·数据分析·django·课程设计
没有羊的王K2 小时前
大数据技术栈全解析
大数据
m0_528174452 小时前
Git误操作急救手册大纲
大数据·elasticsearch·搜索引擎
happyboy19862112 小时前
2026大专大数据科学专业就业市场竞争激烈吗?
大数据
璞华Purvar3 小时前
大数据招商系统是什么?解决痛点、核心功能、应用场景、核心价值、常见问题有哪些(2026年)
大数据