数据仓库实践:了解和定义指标

指标分类

指标分类主要分为原子指标、派生指标、衍生指标

原子指标

某一业务事件下的度量,是不可再拆分的值,这些值一般有明确业务含义的名称,如库存数量、人员数量;

度量:在维度建模中,将度量称为事实,将环境描述为维度,维度是用于分析事实所需要的多样环境。度量通常为数值型数据,作为事实逻辑表的事实。

派生指标

是1个原子指标+多个修饰词(可选)+时间周期,是原子指标业务统计范围的圈定。

派生指标又分以下二种类型:

事务型指标:是指对业务过程事务结果进行衡量的指标。例如订单金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标。

存量型指标:是指对实体对象(如司机、员工)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为"历史截止当前某个时间"。

衍生指标

是在事务性指标和存量型指标的基础上复合成的,主要有比率型、比例型、统计型均值,例如离职率等等。

规范化定义指标

指标命名公式

指标 = 限定词+业务主题+指标名称+量化词根(统计粒度)

限定词

限定词就是用来对指标进行限定约束。比如:当天、本周、当月、平均、累计

业务主题

业务主题是用来描述业务在哪个过程阶段。比如:打开页面、下单、点击支付、支付成功、支付失败。

指标名称

指标名称就是指标要统计的对象实体名称。比如:订单、用户、材料、设备。

量化词根

量化词根通常以数字单位出现,明确表达这个指标的统计粒度。比如:数量、金额、次数、比率、占比。

示例

四个组成要素

限定词:本月

业务主题:下单并支付成功

指标名称:销售金额

量化词根:金额

组合

本月(限定词)+支付成功(业务主题)+销售额(指标名称)+金额(量化词)

命名简化:本月+支付成功的+销售额+金额

指标命名结果:本月支付成功的销售金额

相关推荐
Database_Cool_17 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
Database_Cool_17 天前
什么是湖仓一体?和数据仓库的本质区别(附 AnalyticDB MySQL 湖仓一体方案)
数据库·数据仓库·mysql
递归尽头是星辰17 天前
AI 访问数据仓库:从直连到微服务化
数据仓库·人工智能·微服务·dataagent·ai数据治理
TPBoreas18 天前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
Nefu_lyh20 天前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
KANGBboy20 天前
hive UDF函数
数据仓库·hive·hadoop
云器科技21 天前
螳螂科技:从组装到统一,如何用云器 Lakehouse 完美替代“MC+DW+ADB”三件套?
数据库·数据仓库·人工智能
白日与明月23 天前
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?
数据仓库·hive·hadoop
isNotNullX24 天前
企业数据中台建设,ETL工具选错了会踩哪些坑?
数据仓库·etl·原型模式
SelectDB技术团队24 天前
预约发布会|核心产品力首发,如何构建面向 Agent 时代的企业级数据引擎
数据库·数据仓库·人工智能·数据分析·可观测·apache doris·selectdb