数据仓库实践:了解和定义指标

指标分类

指标分类主要分为原子指标、派生指标、衍生指标

原子指标

某一业务事件下的度量,是不可再拆分的值,这些值一般有明确业务含义的名称,如库存数量、人员数量;

度量:在维度建模中,将度量称为事实,将环境描述为维度,维度是用于分析事实所需要的多样环境。度量通常为数值型数据,作为事实逻辑表的事实。

派生指标

是1个原子指标+多个修饰词(可选)+时间周期,是原子指标业务统计范围的圈定。

派生指标又分以下二种类型:

事务型指标:是指对业务过程事务结果进行衡量的指标。例如订单金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标。

存量型指标:是指对实体对象(如司机、员工)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为"历史截止当前某个时间"。

衍生指标

是在事务性指标和存量型指标的基础上复合成的,主要有比率型、比例型、统计型均值,例如离职率等等。

规范化定义指标

指标命名公式

指标 = 限定词+业务主题+指标名称+量化词根(统计粒度)

限定词

限定词就是用来对指标进行限定约束。比如:当天、本周、当月、平均、累计

业务主题

业务主题是用来描述业务在哪个过程阶段。比如:打开页面、下单、点击支付、支付成功、支付失败。

指标名称

指标名称就是指标要统计的对象实体名称。比如:订单、用户、材料、设备。

量化词根

量化词根通常以数字单位出现,明确表达这个指标的统计粒度。比如:数量、金额、次数、比率、占比。

示例

四个组成要素

限定词:本月

业务主题:下单并支付成功

指标名称:销售金额

量化词根:金额

组合

本月(限定词)+支付成功(业务主题)+销售额(指标名称)+金额(量化词)

命名简化:本月+支付成功的+销售额+金额

指标命名结果:本月支付成功的销售金额

相关推荐
专注API从业者15 小时前
分布式电商系统中的API网关架构设计
大数据·数据仓库·分布式·架构
我要用代码向我喜欢的女孩表白17 小时前
hive迁移补数脚本细粒度 表名-分区唯一键
数据仓库·hive·hadoop
人类群星闪耀时2 天前
数据湖与数据仓库:初学者的指南
大数据·数据仓库·spark
python资深爱好者2 天前
Hive中的分区和桶的概念及其作用
数据仓库·hive·hadoop
我要用代码向我喜欢的女孩表白3 天前
hive(hdfs)补数脚本
数据仓库·hive·hadoop
风子~3 天前
hive—常用的函数整理
数据仓库·hive·hadoop
moton20173 天前
一.数据治理理论架构
大数据·数据仓库·数据治理·etl·数据湖·元数据管理·主数据管理
我要用代码向我喜欢的女孩表白3 天前
Hive增量迁移方案与实操PB级
数据仓库·hive·hadoop
莫叫石榴姐3 天前
DeepSeek驱动下的数据仓库范式转移:技术解耦、认知重构与治理演进
大数据·数据仓库·人工智能·重构·数据分析·deep learning
weixin_307779133 天前
Azure上基于OpenAI GPT-4模型验证行政区域数据的设计方案
数据仓库·python·云计算·aws