数据仓库-维度设计

维度

在维度建模中,将度量称为"事实",将环境描述为"维度",维度是分析事实所需要的多样环境。

例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。

维度的基本设计方法

第一步:选择维度或新建维度。

作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。

第二步:确定主维表

主维表一般是ODS表,直接与业务系统同步。

第三步:确定相关维表

根据对业务的梳理,确定哪些表和主维表存在关联关系,并选择其中的某些应用于生成维度属性。

第四步:确定维度属性

本步骤主要包括两个阶段,其中一个阶段是从主维表中选择维度属性或生成新的维度属性;第二个阶段是从相关维表中选择维度属性或生成新的维度属性。

缓慢变化维

数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的。它会随着时间的流逝发生缓慢的变化。与数据增长较为快速的事实表相比,维度变化相对缓慢。在Kimball的理论中,有三种处理缓慢变化维的方式。

方式一

重写维度值。采用此方式,不保留历史数据,始终取最新数据。

方式二

插入新的维度行。采用此方式,保留历史数据,维度值变化前的事实和过去的维度值关联,维度值变化后的事实和当前的维度值关联。

方式三

添加维度列,通过新列保存变化后的维度值。采用第二种处理方式不能将变化前后记录的事实归一为变化前的维度或归一为变化后的维度。

历史拉链存储就是利用缓慢变化维的第二种处理方式。这种处理方式是通过新增两个时间戳字段(start_dt和end_dt),将所有以天为粒度的变更数据都记录下来。通常分区字段也是时间戳字段。

相关推荐
得物技术10 小时前
从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践
大数据·数据仓库
沃达德软件13 小时前
重点人员动态管控系统解析
数据仓库·人工智能·hive·hadoop·redis·hbase
xianyinsuifeng14 小时前
RAG + Code Analysis 的标准路线
数据仓库·自动化·云计算·原型模式·aws
2501_9272835817 小时前
仓库升级进行时:当传统仓储遇到“四向穿梭车”
数据仓库·人工智能·自动化·wms·制造
Gain_chance18 小时前
26-学习笔记尚硅谷数仓搭建-DIM层特殊的维度表——用户维度表的建表、分析及DIM层数据装载脚本
数据仓库·hive·笔记·学习
Gain_chance2 天前
25-学习笔记尚硅谷数仓搭建-DIM层其余(优惠卷、活动、地区、营销坑位、营销渠道、日期)维度表建表语句、简单分析
数据仓库·笔记·学习
SelectDB技术团队3 天前
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
数据库·数据仓库·人工智能·ai·apache
zgl_200537793 天前
源代码:ZGLanguage 解析SQL数据血缘 之 显示 MERGE SQL 结构图
数据库·数据仓库·hive·数据治理·etl·sql解析·数据血缘
Gain_chance3 天前
24-学习笔记尚硅谷数仓搭建-DIM层的维度表建表思路及商品表维度表的具体建表解析
数据仓库·hive·笔记·学习·datagrip
编程小风筝3 天前
MySQL数据库如何实现实现数据仓库存储?
数据库·数据仓库·mysql