数据仓库实践:了解和定义指标

指标分类

指标分类主要分为原子指标、派生指标、衍生指标

原子指标

某一业务事件下的度量,是不可再拆分的值,这些值一般有明确业务含义的名称,如库存数量、人员数量;

度量:在维度建模中,将度量称为事实,将环境描述为维度,维度是用于分析事实所需要的多样环境。度量通常为数值型数据,作为事实逻辑表的事实。

派生指标

是1个原子指标+多个修饰词(可选)+时间周期,是原子指标业务统计范围的圈定。

派生指标又分以下二种类型:

事务型指标:是指对业务过程事务结果进行衡量的指标。例如订单金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标。

存量型指标:是指对实体对象(如司机、员工)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为"历史截止当前某个时间"。

衍生指标

是在事务性指标和存量型指标的基础上复合成的,主要有比率型、比例型、统计型均值,例如离职率等等。

规范化定义指标

指标命名公式

指标 = 限定词+业务主题+指标名称+量化词根(统计粒度)

限定词

限定词就是用来对指标进行限定约束。比如:当天、本周、当月、平均、累计

业务主题

业务主题是用来描述业务在哪个过程阶段。比如:打开页面、下单、点击支付、支付成功、支付失败。

指标名称

指标名称就是指标要统计的对象实体名称。比如:订单、用户、材料、设备。

量化词根

量化词根通常以数字单位出现,明确表达这个指标的统计粒度。比如:数量、金额、次数、比率、占比。

示例

四个组成要素

限定词:本月

业务主题:下单并支付成功

指标名称:销售金额

量化词根:金额

组合

本月(限定词)+支付成功(业务主题)+销售额(指标名称)+金额(量化词)

命名简化:本月+支付成功的+销售额+金额

指标命名结果:本月支付成功的销售金额

相关推荐
soso196832 分钟前
DataWorks快速入门
大数据·数据仓库·信息可视化
B站计算机毕业设计超人1 小时前
计算机毕业设计SparkStreaming+Kafka旅游推荐系统 旅游景点客流量预测 旅游可视化 旅游大数据 Hive数据仓库 机器学习 深度学习
大数据·数据仓库·hadoop·python·kafka·课程设计·数据可视化
Yz98765 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
武子康5 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康5 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
锵锵锵锵~蒋5 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
武子康13 小时前
Java-06 深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试
java·开发语言·数据仓库·sql·mybatis·springboot·springcloud
JessieZeng aaa17 小时前
CSV文件数据导入hive
数据仓库·hive·hadoop
Yz98761 天前
hive复杂数据类型Array & Map & Struct & 炸裂函数explode
大数据·数据库·数据仓库·hive·hadoop·数据库开发·big data