数据仓库【指标体系】

指标体系是将零散单点的具有相互联系的指标，系统化的组织起来，通过单点看全局，通过全局解决单点的问题。它主要是由指标和体系两部分组成。

指标是指将业务单元细化后量化的度量值，它使得业务目标可描述、可度量、可拆解，它是业务和数据的结合，是统计的基础，也是量化效果的重要依据。

指标相关基本概念

业务板块：比数据域更高维度地业务划分方法，适用于庞大地业务系统；
维度：维度建模由Kimball提出。维度模型主张从分析决策的需求触发构建模型，为分析需求服务。维度是度量的环境，是我们观察业务的角度，用来反应业务的一类属性。属性的集合构成维度，维度也可以称为实体对象。例如，在分析交易过程时，可以通过买家、卖家、商品和时间等维度描述交易发生的环境。
属性（维度属性）：维度所包含的表示维度的列称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源，是数据易用性的关键。
度量：在维度建模中，将度量称为实时，将环境描述为维度，维度是用于分析事实所需要的多样环境。度量通常为数值型数据，作为事实逻辑表的事实。
指标：指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，是具有明确业务含义的名词，体现明确的业务统计口径和计算逻辑，例如支付金额。
业务限定：统计的业务范围，筛选出符合业务规则的记录（类似于SQL中where 条件，非时间类）。
统计周期：统计的事件范围，例如最近一天，最近30天等（类似SQL中的where后的时间条件）。
统计粒度：统计分析的对象或视角，定义数据需要汇总的程度，可以理解为聚合运算时的分组条件（类似SQL中的Group by的对象）。粒度是维度的一个组合，指明统计范围。例如，某个指标是某个卖家在某个省份的成交额，则粒度就是卖家、地区这两个维度的组合。如果需要统计全表的数据，则粒度为全表。在指定粒度时，需要充分考虑到业务和维度的关系。统计粒度常作为派生指标的修饰词而存在。
修饰词：计算指标的条件限制，如正常状态、盈利门店、亏损门店等。

为什么要搭建指标体系

衡量业务发展质量
建立指标因果关系
指导用户分析工作
指导基础数据建设
指导内容产品建设
统一指标消费口径

指标体系可以帮助我们整体理解业务 、全面了解问题 、快速定位问题 、迅速落地方案，我们说的指标体系不止是指标，还有指标管理和指标监控。

指标体系分级建设

一级指标：公司战略层面指标用于衡量公司整体目标达成情况的指标，主要是决策指标，T1指标通常服务于公司战略决策层。比如公司的销售额，或者社交产品的活跃度；
二级指标：业务策略层面指标为达成T1指标的目标，公司会对目标拆解到业务线或者事业群，并有针对性做出一系列运营策略，T2指标通常反应的是策略结果属于支持性指标同时也是业务线或事业群的核心指标。二级指标是一级指标的路径指标。一级指标发生变化的时候，我们通过查看二级指标，能够快速定位问题的原因所在。
三级指标：业务执行层面指标T3指标是对T2指标的拆解，用于定位T2指标的问题。T3指标通常也是业务过程中最多的指标。根据各职能部门目标不同，其关注的指标也各有差异。T3指标的使用通常可以指导一线运营或分析人员开展工作，内容偏过程性指标，可以快速引导一线人员做出相应的动作。

指标在数仓中的层级

原子指标：dwd层（明细粒度指标数据），原子指标= 业务过程+度量
派生指标：dws层（主题域宽表，不跨域），派生指标= 时间周期+修饰词+原子指标，派生指标可以理解为对原子指标业务统计范围的圈定。
复合指标：ads层（应用层，跨主题，面向报告表输出），多个派生指标的叠加计算。

业务指标体系建设

指标体系的设计及划分主要分为两种，一种是从数据仓库建设的角度进行指标体系设计；一种是从业务指标分解的角度进行指标体系设计。数据仓库指标体系建设 ：是技术角度如何将业务指标进行实现及分解的方法。主要从业务流程的分解入手，叠加原子指标、修饰词、时间维度等的定义，将指标分层划分，并进行管理。数仓指标体系建设由数据开发人员根据数据需求进行设计。业务指标体系建设：从业务使用的角度，从使用场景触发，识别对业务提升、运营效率提升的指标体系建设。业务指标体系由数据分析人员结合业务应用场景进行设计。

建设指标体系需要明确的几个问题

愿景：提升业务效率、减少重复建设等
有谁规划：数据分析师+业务人员负责需求
给谁使用：数据分析师出报告、运营人员做运营、管理人员做决策
由谁开发：大数据开发/数据仓库工程师
如何呈现：数据可视化看板（BI工具+系统开发）

分析模型指标体系建设三大步骤

业务目标：OSM模型
用户/产品生命周期及其行为路径：AARRR模型（产品）+UJM模型（用户）
指标分级下钻：MECE模型

数据指标体系建设的方法可以总结为三个步骤，即明确业务目标，根据用户/产品生命周期行为路径指定每个步骤的目标、策略及度量，最后对指标进行分级分类管理及细化。在这三个步骤当中又涉及到OSM+AARRR+UJM+MECE四个模型，这四个木星是指导我们构建完整而清洗的指标体系方法论。

1、总体原则：明确业务目标、制定策略、明确度量

OSM模型：Object-Strategy-Measure的缩写

O-Object：代表目标。所以，我们在建立数据指标体系之前，一定要清洗的了解业务目标。

S-Strategy：策略，达成以上的业务目标，需要制定的行动策略

M-Measure：度量，为了衡量策略是否有效，就需要我们制定较细的评估指标，反应目标的达成情况。

2、具体方法：理清产品及用户声明周期路径

梳理产品的用户生命旅程，以校对业务目标，判断它能否与用户的每个阶段的旅程吻合。

AARRR模型：是基于产品角度，简单的来说就是拉新、促活、留存、付费、推广；

"海盗法则"环节	关注指标
用户获取（Acquisition）	DNU、ROI、LTV、CPA、CPC等
用户激活（Activation）	DAU、MAU、PV、UV、浏览时长等
用户留存（Retention）	第i日留存、DAU/MAU、流失率
获取收入（Revenue）	GMV、ARPU、ARPPU、转化率
推荐传播（Referral）	邀请发送量、k-因子、病毒传播周期

UJM模型：User-Journey-Map模型。是基于用户角度触发，描述了用户进入产品的整个路径流程，即注册、登录、浏览、加购、购买、复购流程。
- 用户行为：用户在该旅途会进行什么操作
- 目标：在该旅途要完成的目标
- 接触点：产品与用户连接的地方
- 问题点：当前在该旅途会有什么困难或者不足
- 机会点：针对目标、行为和问题点总结出机会点
- 衡量指标：针对机会点选择合适的指标进行度量

3、分级细化：指标体系分级建设

只便于业务理解的逻辑划分，不再物理存储层面产生作用。前面两个步骤，首先我们明确了解业务核心目标、策略及方法，接下来我们需要向下进行逐层拆解，这个过程我们称为指标体系分级治理，用到的模型是MECE（Mutually Exclusive Collectively Exhaustive）模型，完全独立，互相穷尽。好处是可以对指标逐层细化，针对各个层级查漏补缺，二是便于后续指标的运营维护及管理。

一级指标：全公司都认可的、衡量业绩的核心指标。
二级指标：二级指标是一级指标的路径指标。一级指标发生变化的时候，我们可以通过查看二级指标，能够快速定位问题的原因所在。
三级指标：三级指标是对二级指标的路径的分析。通过三级指标，可以高效定位二级指标波动的原因。

完整的指标体系搭建流程总结为七个步骤：

需求调研：产品或者运营完成产品原型或者运营方案，数据分析师根据原型或者运营方案提炼数据需求，评估需求可行性并和需求方讨论修改不合理的需求。
需求分析：数据分析师将数据需求整理成文档并根据优先级对需求进行排期；
确定指标体系方案：数据分析师以OSM、AARRR、UJM、MECE模型作为指导思想，确定指标体系建设方案；
数据采集：数据分析师根据初步的指标体系建设方案明确要采集的数据源，设计数据采集方案，如系统中当前没有需要的数据，则需要设计埋点方案，同时给出字段命名规范一级数据采集方案，开发根据需要在对应的系统进行埋点；
数据开发：大数据开发工程师根据底层的数据需求，进行数据仓库设计，同时将数据接入到数仓；
指标发布及优化：针对开发好的指标进行校验，同时建设可视化的图标方案，通过效果使用迭代指标体系；
效果评估：指标体系落地，用于监控业务现状，指导业务决策，定位业务问题，在业务的不断反馈中逐渐完善整套指标体系。

场景化搭建指标体系

通过抽象场景"人、货、场"，实际就是我们日常所说的用户、产品、场景，通俗点讲就是谁在什么场景下用了什么产品，不同的商业模式会有不同的组合模式。

"人"的视角，我们比较关心的是什么乘客在什么时间打车，排队多长时间，等了多长时间上车，周期内第几次打车，打车花了多少钱，是否有投诉行为和取消行为，具体到数据指标主要看发单用户数、完单用户数、客单价、周期内完单订单数、取消订单数、评价订单数等。

"货"的视角，我们比较关心的就是成交了多少，成交额多少，花了多少，到具体数据指标会看GMV、成交率、取消率指标，进一步细分到城市、区域，一级品类、二级品类。数据的效果通过目标对比、横向对比、历史比较等方式进行分析确定。

"场"的视角，我们比较关心的就是哪些渠道用户点击量大曝光率大，带来了多少新用户，完成多少交易订单，客单价是多少，或者哪些活动拉新货促销效果怎么样转化率多少，结合场景数据实际情况制定对应的策略。

以上分别从人、货、场三个角度进行了数据指标的分析维度的提炼，下面我们把这三类指标分级的方法分解关联。

指标体系评价

系统性：能够发现局部与整体的关系及问题定位，当数据发生异动时，通过指标体系的逻辑拆解，能够迅速定位到大致移动模块及原因；
全面性：能满足不同数据使用方的日常需求，对产品经营及发展情况有整体的了解；
认知统一：指标体系服务于不同角色群体，简单科学可解释，符合大众认知，大家都共同认可；
真实性：指标体系要能反应产品真实情况，杜绝华而不实的虚荣指标；
可迭代：指标体系随不同生命周期阶段而改变，指标体系要在发展中保持迭代；
可操作：如果能从时间向对比、或者从其他维度比如用户群体、产品、地域等不同维度进行横向比较，可以更好的观察业务的发展趋势，定位问题、找到原因，以及改善业务中需要改善的环节。

指标管理

指标作为业务和数据的结合，它基础是数据统计，指标也是量化业务效果的依据。既然和业务挂钩那就会又说不清楚的变化，其实这也是我们做指标管理的主要原因，业务在快速发展，所以在这个过程中的口径和逻辑都在发生变化，如果不统一进行管理和维护的话会出现指标口径模糊逻辑不清。

业务视角
- 业务分析场景指标、维度不明确
- 频繁的需求变更和反复迭代，数据报表臃肿，数据参差不齐
- 用户分析具体业务问题找数据、核对确认数据成本较高
技术视角
- 指标定义，指标命名混乱，指标不唯一，指标维护口径不一致
- 指标生产，重复建设；数据会算成本较高
- 指标消费，数据出口不统一，重复输出，输出口径不一致
产品视角
- 缺少系统产品化支持从生产到消费数据流没有系统产品层面打通。

指标字典

指标字典，其实就是对指标的管理，指标多了以后，为了共享和统一修改和维护，我们会在Excel中维护所有的指标。

指标编码：为了方便查找和管理，我们会对指标定义一套编码
业务口径：指标最重要的就是明确指标的统计口径，就是这个指标是怎么算出来的，口径统一了，才不会产生歧义；
梳理口径：一开始梳理是比较麻烦的，因为要统一一个口i纪念馆，需要和不同的部门去沟通协调；出现新的指标的时候，需要判断是否需要，是否可以用其他指标来替代，指标与指标之间的关系也要理清楚。
迭代维护：第一版指标梳理好之后，需要进行推广和维护，不断地迭代，持续推动，让公司所有部门都统一站在一个视角上关注问题；
计算公式：对业务口径地翻译，需要业务方告知你从哪里地数据去计算。

指标模板

数据域 ：指面向业务分析，将业务过程或者维度进行抽象地集合。其中，业务过程可以概括为一个不可拆分地行为事件，在业务过程之下，可以定义指标；维度，是度量地环境。为了保障整个系统地生命力，数据域是需要抽象提炼，并且长期维护更新地，变动需要执行变更流程；
业务过程：指公司地业务活动事件，如，订单、支付都是业务过程。其中，业务过程不可拆分
时间周期：用来明确统计地时间范围或时间点，如最近30天、自然周、截至当日等
修饰类型：对修饰词地一种抽象划分。修饰词类型从属于某个业务域，如日志域地访问终端类型涵盖APP端、PC端等修饰词；
修饰词：指的是统计维度以外指标地业务场景限定抽象，修饰词属于一种修饰类型，如日志域方位终端类型下，有修饰词APP、Pc等
度量/原子指标：原子指标和度量含义相同，基于某一个业务事件行为下地度量，是业务定义中不可再拆分地指标，具有明确业务含义的名称，如支付金额；
维度：维度是度量的环境，用来反应业务的一类属性，这类属性的集合构成一个维度，也可以称为实体对象。维度属于一个数据域，如地理维度（其中包括国家、地区、省市等）、时间维度（其中包括年、季度、月、周、日等级别内容）
维度属性：维度属性是隶属于一个维度，如地理维度里面的国家名称、国家ID、省份名称都属于维度属性
指标分类：
1. 原子指标：基于某一业务事件行为下的度量，是业务定义中不可拆分的指标，具有明确业务含义的名称，如交易金额；
2. 派生指标：一个原子指标+多个修饰词+时间周期，是原子指标业务统计范围的圈定。派生指标又分为两个类型：
  1. 事务型指标：指对业务过程进行衡量的指标。例如，订单支付金额，这类指标需要维护原子指标及修饰词，在此基础上创建派生指标
  2. 存量型指标：是指对实体对象某些状态的统计，例如注册司机总数、注册乘客总数，这类指标需要维护原子指标以及修饰词，在此基础上创建派生指标，对应的事件周期一般为"历史截至当前某个时间"
3. 衍生指标：是指事务型指标和存量指标的基础上符合成的，主要有比率型、比例型、统计型均值