怎么衡量数据仓库模型的优与劣

引言

最近和朋友一起聊天,聊到数仓最多的话题就是数仓重构,有些企业数仓重构可能好几轮了,一直在重构中,新的模型上线,老的模型继续运营,总是解释不清楚新模型比老模型好在哪里?于是出现了集市的人说数仓模型不好用,数仓的人说集市不使用他们的模型,业务说这些我完全看不懂。那么问题出现在哪里?今天来说道说道。

归根到底,没有解决一个问题,在企业发展不同阶段没有弄清楚对数据的诉求。也就没有制定一套指标来衡量数仓模型。如果企业的发展分为起步阶段、业务快速增长阶段、运营阶段。其他这几个阶段对数据的诉求不一样。

数据初心

企业的数据能给企业能带来什么价值?这个回归到数据的本质,笔者认为数据更多是给企业做决策、做运营、风险管控,对数据提出"快"、"准"、"稳"、"低"、"全"、"细"。这些都有一个本质的特点。数据需要准时保质保量的提供给合适的人使用。如果企业每次决策都需要数据来支撑,A企业决策当天就有数据来论证或者提供数据,B企业需要5天,那么这种情况下A企业做决策的次数比B企业高多,成功的概率要比B企业高。所以每个企业需要结合业务场景来设计企业的数据仓库模型,没有最好的模型只有适合自身企业的模型。

快:数据处理快、时效快、数据查询快、数据接入快、异常恢复快等

准:数据质量要高、数据查询要准等

稳:数据平台要稳、数据时效要稳等

全:数据的广度要广、数据资产要全等

细:数据的粒度要细等

低:使用数据的成本要低(理解成本、使用成本、硬件成本)等

下面我总结衡量数仓几个定量指标,大家可以参考参考

重复度

背景:重复度是解决企业数据重复开发或者指标不一样的问题,可以降低企业成本和数据不一致的问题。

口径:同源同频字段相似或者同源同频表相似比例

优化方案:可以在企业研发过程中过检核,比如dataops中检核规则

穿透率

背景:传统企业中,很多集市会直接穿透数仓到ODS,会导致成本增加,数仓的利用率下降,也会导致数据口径不一致等问题

口径:非数仓层任务直接使用ODS表的任务占比

优化方案:关闭非数仓层对ODS的访问权限,如果必需要按表申请或者数仓做视图。事后在分析如何模型沉淀

使用率

背景:如果数仓的表使用率偏低,那么就模型设计比较分散,下游使用起来复杂度会比较高,热度、标准化、聚合粒度等方面的可以分析

口径:被数仓下游使用的主题表与数仓运作中的主题表占比

优化方案:穿透率管控了,使用率自然就会提高

复杂度

背景:这个主要是体现单个任务(SQL)的复杂度,如果一个任务几十个表关联,这个维护成本、运维成本,失败重跑成本都比较高

口径:单个任务(SQL)表关联不能超过10个,这个根据企业的实际场景来定

优化方案:可以在企业研发过程中过检核,比如dataops中管控

纵深度

背景:如果一个数据应用底层最长链路超过30层,那么这个应用的运维成本、出数时效、稳定性等都有很大的问题。

口径:从应用出发最长链路15层,这个根据企业的实际场景来定

优化方案:可以在企业研发过程中过检核,比如dataops中检核规则

复用率

背景:主要解决企业数仓主题表复用率的问题,如果一个粒度的主题表不停的增加,但是复用率比较低,这个时候会带来口径不一致、维护成本高的问题了。

口径:数仓主题表被1-N次使用比例分析及P95或者平均使用率

优化方案:数仓团队需要针对使用率低的表进行分析,字段热度不够还是粒度不够等等,需要将数仓的表运营起来

资产运营

背景:这个和数仓可能关系不大,重点是讲数据应用的运营,看应用使用时间、使用角色、使用人数、使用部门等等指标

口径:应用访问的PV+UV+角色数+部门数据+每天最早访问时间来衡量数据有应用的潜在价值

优化方案:资产运营,数据治理体系做管控指标

下面我总结衡量数仓几个定性指标,大家可以参考参考

数据质量

数据质量也是评判的重要指标之一。数据质量包括数据完整性、一致性、精确性、可靠性、时效性等方面。这些指标可以通过数据清洗、数据校验、数据补全等方式进行评估和优化。这些具体的衡量指标需要根据企业不同阶段来指定

成本效益

数仓使用的人力、硬件等成本占整个数据团队的比例,企业发展的不同阶段不一样

稳定性

数据仓库任务的稳定性、时效等,企业发展的不同阶段不一样,比如前期更多追求的数据的时效快,数据质量可以低一点,后期追求数据的质量,时效可以慢一点。所以不同企业的不同阶段不一样

资产完备率

这个其实是一个比较长远的问题,但是又是一个不得不一直投入的时效。企业早期的数据资产完备率、模型维度、指标等等更多是解决企业数据开发人员对数仓的了解,对单个业务对象的了解,但是随着数字化的转型,那么企业的数据资产面向的用户就不是IT和数据分析师了,更多是业务人员,这种时候企业的数据资产需要引入业务流程和业务对象,否则很难拉通企业全业务流程来分析,业务和IT会进入鸡同鸭讲阶段。

相关推荐
江畔独步5 小时前
Hive内置集合函数-size,map_keys,map_values,sort_array,array_contains
数据仓库·hive·hadoop
天地风雷水火山泽5 小时前
二百六十五、Hive——目前Hive数仓各层表样例
数据仓库·hive·hadoop
棉花糖灬5 小时前
Hive常用函数
数据仓库·hive·hadoop
zhangjin12221 天前
kettle从入门到精通 第八十五课 ETL之kettle kettle中javascript步骤调用外部javascript/js文件
javascript·数据仓库·etl·kettle调用外部js
暮-夜染1 天前
从数据仓库到数据中台再到数据飞轮:我了解的数据技术进化史
大数据·数据仓库·数据飞轮
是店小二呀1 天前
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
大数据·数据仓库·媒体
mizuhokaga1 天前
Hive parquet表通过csv文件导入数据
数据仓库·hive·hadoop
全栈弟弟1 天前
高级大数据开发协会
大数据·数据仓库·hadoop·flink·spark
APItesterCris1 天前
API 接入前的安全防线:注意事项全梳理
大数据·运维·服务器·开发语言·数据仓库·安全
Data 3172 天前
经典sql题(七)查找直播间最大在线人数
大数据·数据库·数据仓库·sql