数据仓库【4】：最佳实践

QQ7198725782023-12-30 18:07

数据仓库【4】：最佳实践

1、表的分类
2、ETL策略
- 2.1、全量同步
- 2.2、增量同步
3、任务调度

1、表的分类

维度建模中的表类型

事实表
维度表
事务事实表
周期快照事实表
累积快照事实表
拉链表

1.1、事实表

一般是指一个现实存在的业务对象，比如用户，商品，商家，销售员等等

1.2、维度表

一般是指对应一些业务状态，代码的解释表。也可以称之为码表
通常使用维度对事实表中的数据进行统计、聚合运算

1.3、事务事实表

随着业务不断产生的数据，一旦产生不会再变化，如交易流水、操作日志、出库入库记录

1.4、周期快照事实表

随着业务周期型的推进而变化，完成间隔周期内的度量统计，如年、季度累计
使用周期+状态度量的组合，如年累计订单数，年是周期，订单总数是量度

1.5、累积快照事实表

记录不确定周期的度量统计，完全覆盖一个事实的生命周期，如订单状态表
通常有多个时间字段，用于记录生命周期中的关键时间点
只有一条记录，针对此记录不断更新

1.6、拉链表

拉链表记录每条信息的生命周期，用于保留数据的所有历史（变更）状态
拉链表将表数据的随机修改方式，变为顺序追加

实现方式一

使用日期分区表，全量数据记录，每天的分区存储昨天全量数据与当天增量数据合并的结果
数据量大会导致全量表膨胀，存储大量永远不更新的冷数据，对性能影响较大
适用于数据量少的情况
实现方式二
使用日期分区表，推测数据最长生命周期，存储周期内数据；周期外的冷数据存储到归档表
需要保留多天的分区数据，存储消耗依然很大
实现方式三
使用日期分区表，以业务实体的结束时间分区，每天的分区存放当天结束的数据；设计一个
时间非常大的分区，如9999-12-31，存放截止当前未结束的数据
已结束的数据存放到相应分区，存放未结束数据的分区，数据量也不会很大，ETL性能好
无存储浪费，数据全局唯一
业务系统可能无法标识业务实体的结束时间，可以使用其它相关业务系统的结束标志作为此
业务系统的结束，也可以使用最长生命周期时间或前端系统的数据归档时间

2、ETL策略

2.1、全量同步

数据初始化装载一定使用全量同步的方式
因为业务、技术原因，使用全量同步的方式做周期数据更新，直接覆盖原有数据即可

2.2、增量同步

传统数据整合方案中，大多采用merge方式（update+insert）
主流大数据平台不支持update操作，可采用全外连接+数据全量覆盖方式
- 如果担心数据更新出错，可以采用分区方式，每天保存最新的全量版本，保留较短周期

3、任务调度

3.1、为什么需要任务调度？

解决任务单元间的依赖关系
自动化完成任务的定时执行

3.2、常见任务类型

Shell
Java程序
Mapreduce程序
SQL脚本

3.3、常见调度工具

Azkaban
Oozie

上一篇：AQS（抽象队列同步器）

下一篇：【滑动窗口】C++算法：K 个不同整数的子数组

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09CC-Switch & Claude 基于 Linux 服务器安装使用指南 10幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南