数据如何主动赋能业务

背景

数据侧在新业务的地位,有点不平衡。一方面,相当部分运营,乃至数据分析师,在数据意识和数据应用上是薄弱的(笔者在三线城市的互联网公司,一线互联网一般不会有这种情况),当老板需要了解业务现状时,一般会花费较多的曲折且难以给出足够信服的结论(群里老板抛出一个指标波动问题,观察到群里各方人员的解答有感),因此数开作为相对了解数据的研发,重要性不言而喻;同时,某些数据使用方又走得太远,以至于数开乃至数据平台努力追赶都跟不上步伐:一方面数开的业务理解远不及业务产品经理,另一方面当外部成熟的商业化方案替换中台的平台工具时,相当部分报表需求都收敛到商业组件闭环,不走数开这条链路。我们得承认,这是整个生产流程发展成熟后的必然阶段(虽然在当下太快了),即简单的、重复性的数据建设,都可以借助工具支持非技术人员自己去生成,但是这也推动数开去思考自己工作的意义,自己的不可替代性在哪里。

标准数据挖掘流程(CRISP-DM)

数开/数仓的职责范围

基本只涉及其中的3个模块:⑥ 处理数据、⑨ 实施方案、⑩ 评价效用。

至于其他模块,都在逐渐完善的生产流程和自然分工中,交给更专业的人去完成了:

① 界定问题:在报表设计之初,一般已经由业务产品经理/数据分析师界定好了问题:我们要评估一下业绩的现状,我们要衡量某一业务节点的性能。

② 制定方案:数据产品经理制定了一个交付物为报表的解决方案;这个报表中包含了我们用来衡量业绩的诸多指标,如:销售额,产能等。

③ 定义数据:定义指标的计算口径,该步骤一般也会由业务产品经理/数据分析师去给出。

④ 获取数据:当指标的口径被确定后,从业务源系统的哪些库表去取数据也就相当明确了。

⑤ 理解数据、⑦ 验证方案、⑧ 评估方案这三个模块,这三步也都由需求方在数据需求的前期和验收阶段去完成。

该工作对数开工作结果的评价维度也基本只有:及时性与准确性。

冲突:数开的困境

看完上述流程梳理,大家可能能发现一个问题,即如果不考虑技术实现的问题,大部分需要思考的节点都由需求方完成了,留给数开的,其实是个数据处理的工作。这其实也是大部分研发人员的困境,即技术在上个10年已经日渐成熟(容器化、混云部署等),加上人才的涌入,技术门槛越来越低;同时,相比上代技术人员只要面对年龄(等同于性价比更高的年轻员工)这个竞争对手,现在的程序员还要面对ChatGPT这个大敌。当某个厂商为了占领市场提供大模型的私有化部署方案时,数据安全的风险就不存在了,很多工作的意义就岌岌可危。有危机感的人就总会多想,我的不可替代性是什么(甚至可能和工作能力无关),对这个问题,每个人都有自己的回答,这里我也把问题留给大家,我这里想提供的,是除了技术专家路线外,另一个可能的路。

问题:如何主动去赋能/驱动业务?

有什么成熟的方法论?有什么高度抽象的知识可以跨行业迁移,拿来就用的?

有什么学习的路径?知识体系?

相比数分,我们的优势是什么?

本文将围绕这些启发式的问题进行写作,并力求让读者看完后达到这样一个效果:在承接数据需求的时候,能更多思考数据对业务的作用,能有的放矢地去思考数据需求的价值;如果有志于往业务方向发展的,可以知道往哪个方向去学习。同时我想让大家调整下对接下来内容的预期:我在数据赋能业务方面的经验也寥寥,没有一个大的成功的showcase去更有说服力的介绍成功的方法论(这个需要天时,地利,人和),你们读到后面可能也会发现文章的结构不合理,最后的方法论内容较少,那是因为这方面我缺少建树,可能数分在这方面比较有发言权。但是我仍尽可能地把我学到的、认为通用的、可迁移的,实践过的方法论,放到这次分享里来分享。

答案

数据职能在组织中贡献的价值体现在:量化业务与驱动业务,分别对应:

量化业务------业务数据化

驱动业务------数据业务化

量化业务,在外行以极简视角来看,做数据埋点和落库就可以了,但是我们自己知道,越是复杂的分析需求,越需要复杂的底层建设,诸如清洗、打平嵌套结构,关联上源数据没有、或散落各处的维度。量化数据的工作也是有阶段性的,按照业务和数仓发展的完善性,工作内容可以分成3个阶段:

数开工作的3个阶段

1、内容补齐(描述性数据呈现)

2、发现问题/机会点(诊断性数据分析)

3、驱动业务(提炼和迭代认知)

其中1主要是数据处理的工作,2和3是我们想要做到的,带有自己思考的数开工作。那么,怎么做才能做到2和3呢?我认为是业务理解

业务理解的4个阶段

  1. 听懂需求描述,能理解背后含义

当做不到这点且业务侧需求描述/同步得不够精准和详细,就可能把需求做偏

  1. 深入理解业务过程,了解上下游,知道业务变化会影响哪些业务/看板/数据

技术层面(建模+数据)的融会贯通,能评估迭代/上线影响范围

  1. 深入理解需求,知道我做的事是服务哪些业务目标/业务问题(由点到面),理解该需求下数据的应用场景

业务感知开始培养,知道指标对业务(决策)的影响

  1. 深入理解业务的商业逻辑,知道目前数据驱动业务发展的逻辑;能对业务拆解,并在技术规划上进行映射

开始对一个行业有意识地构建知识体系(这也是为什么公司愿意给满5年经验的研发人员仍持续涨薪的原因,他的技术能力和行业认知已经构成公司对外竞争的护城河),已经能评价产品经理的方案优劣并对其能力有自己的看法,并预测产品的未来发展

  1. 洞察业务发展趋势,掌握所在行业的长短期趋势,发现新的数据应用场景

到这个阶段,让你在中台性质的部门守成简直是浪费才华,最适合你发挥能力去为公司攻城略地的部门是:用户增长部门!

怎么去做到好的业务理解,我也没什么特别好的方法论,按我的经验,只能长期深耕在业务领域,在复杂和有难点的需求挑战中,被问题难住,解决这个问题,获得新的业务理解。你的业务理解的深度是在无数个解决问题的过程中提升的(当然你的有意识主动复盘也很重要),这也要求经年累月的时间和自我思考。我能想到的,可能是问题驱动式方法的几个好问题,能有助于激发研发去主动思考业务的商业模式。一般有创业想法的人会更容易去主动思考。

问好问题

  1. 业务发展的关键问题是什么?

以我所在的业务线作为例子,该业务因为是个新的交友APP,在主要目标上可以认为是"我全都要!",既要增长,也要留存和转化。从我入职的3月底到现在,该APP的DAU翻了一番,可以说大方向对了,效果明显。APP是怎么做的呢?接下来给大家说一下业务的决策视角:

先解决增长问题 --> 增长优先解决新男流失(留存)问题 --> 高服务质量的分层女对标新男

--> 匹配效果不佳 --> 重做匹配v4 --> 短时间匹配消息太多,用户体验差 --> 短频控

--> 挂机行为,流量浪费 --> 刹车 --> ?

我认为,现在的最大问题还是在规模,规模不铺开,很多事情的投入就划不来(现在有精力和人力分析的维度还相对较少,AB测试也没普及)。

  1. 业务提出的问题/困惑点?

业务侧没有什么特别好的手段,去找到那些黑产/灰产,即用脚本挂机挣钱,以及竞品过来发广告的行为,目前只有人肉的手段,在我拉会沟通了解到这个需求后,已经开始调研了。黑产问题,你不需要技术迭代比灰产快,只要比你的竞品快就可以了。有个笑话,猎人A在狩猎时遇到了熊,靠着自己精进的射箭技能全身而退,但是腿上中了一箭的猎人B就没那么幸运了。这个笑话的含义是,你短期内战胜黑产,他们会去找没做好防护的竞品,可能会帮你把竞品给拖垮。

  1. 如何将业务痛点数据化?有什么例子吗?

例子:美团打车:成单率=F(供需密度-用户和运力做功,供需比,错配度,司乘利用率)

所在业务线的例子:该业务的匹配业务的专题看板的维度是极简的,就:时段,国家,人群类别,搭配上表示匹配环节不同流转节点的性能衡量指标,对于业务来说,维度就已经够用了。但当我想做更深度的根因,比如为什么运营反馈人均匹配量在11月23日的3个小时出现腰斩,或者为什么私信付费率在19-20日增幅超过一个标准差,目前的维度可能没法满足我解惑的要求,这时我得自己想到的值得去下钻的维度,并去通过关联或入仓的方式补齐这些分析维度,比如女用户年龄,刹车次数,还比如:把原表作为指标的数据转变成维度,活跃时长-女,通过四分位图划分成:低、中、高、极高4个层级,然后把我们要分析的异动的指标:匹配成功量按照该维度去分别下钻,看哪个维值对总指标波动贡献较大。如果结论置信度高,这时我们不仅完成了一次归因,可能还顺带完成了一次数据对业务的优化建议,比如我们可能提炼了一个付费私信领域的"魔法数字",即量变产生质变的临界点,此处含义是,引导用户高频或长时间做某些行为,在男用户那一般是签到、登陆,在女用户这可能就是保持在线,能让用户价值对应的等级提升,用户可能流失概览更低,更倾向于在我们的产品活跃。

这里即是个简单的"模拟"例子,反映了数据需求从:描述现状 -> 分析原因 -> 改善未来 的流转,但实际情况是很复杂的,既需要各方配合,确保分析所需内容的补齐,一个明确的数据结论/洞见也常常需要大量的数据验证才能站得住脚。

为什么我坚持要承接从数据角度而已较侵入业务,且增加运维成本的需求,因为把数据和数据处理流程嵌入业务系统流程,提供了某方面的一个判断能力,把一个对业务来说未知的问题提供了确定性的结果,对业务有着直接的价值。

方法论

异常预警

异常诊断可以分为两大类:

  • 异动告警
  • 异动归因

前者是一个质量监控模型,我们在dataworks和DQP上已经有很多应用了,基本都可以归纳为,在指标前N个周期算得的均值+-标准差为正常区间,区间之外即从统计学角度来说,值得去关注了。当然,成年人的世界没有轻松二字,这个事情也绝不可能这么简单,还有很多问题需要考虑,比如降噪问题(业务迭代导致的正常异常影响了原本稳定的统计),周期性正常波动问题(肯德基的营收肯定在周四大涨,但是没必要认为是异动),云云。波动性问题可以通过时间序列预测模型来解决,外界一般用holt-winter模型,内部就我所知,数分部门的同志在去年有使用Facebook开源的Prohet去做异动告警(链接放最下面)。

至于异动归因,这里分享一下网上学到的方法论,首先需要将指标类型分类,指标类型粗略可以划分为三种,贡献度计算方式均不同:

类型一:加法型指标,指不同维度值之间可直接累加。例如:pv、uv

类型二:除法型指标。例如:ctr = 点击/展现

类型三:乘法型指标。例如:详情页访问次数 = 首页DAU × 详细页渗透 × 详细页访问次数

加法型指标

直接拆解法:贡献度 = 维度值绝对DIFF / 大盘绝对DIFF。

案例:

某日大盘pv -520,拆解各年龄段对大盘降幅的贡献程度:

步骤一:[19-25]岁,pv -200。

步骤二:[19-25]岁,贡献度 = (-200) / (-520) = 38%。

除法型指标

控制变量法/连环替代法:仅将度量的维度值发生改变,其他维度值保持不变,从而评估仅在该维度值发生变化的时,对大盘变化的影响程度。

css 复制代码
含义说明
Ci:维度值i的贡献度
Rt:当前大盘指标
Rt-1:历史大盘指标
Rt_new:仅维度值i为历史值的当前大盘指标

给大家举个例子:

步骤一:分别计算大盘和各维度值,过去和当前的ctr指标。

步骤二:分别计算各维度控制变量计算出来的Rt_new(ctr_new),以[1-18]为例:

步骤三:分别计算各维度指标变化的贡献度,贡献度加和≈100%。以[1-18]为例,变化贡献度为7%,其余年龄段如上图红色部分。

未来价值模型

常见估算方法:

  1. 主观猜测(拍脑袋)
  2. 根据局部数据放大(存在种子用户问题)
  3. 根据友商/行业数据推算
  4. 根据数学模型推算

抛砖引玉:如何统计开通京东Plus会员的价值?

答:Plus会员人均一年贡献2000营收,非Plus会员一年人均贡献500,所以会员带来1500的价值

忽视的点:买Plus会员的人,天生就和不买的人不一样,真正要计算的是买Plus会员这批人买之前和之后,营收的变化。

经典问题:用户的哪个行为更值得引导?

难点:测准事件的价值是什么,更常见的场景甚至是在上线前统计一个全新行为的未来价值

工具:用户画像/标签 + AB测试

AB测试:做一个功能,一半人看见,一半人没看见,实验组和对照组两个分支,对比他们在关心的指标上产生的差距

额外知识点:AB分流 --> 通过垂直正交的方式确保多个AB测之间不构成干扰,都保持随机性,支持叠加测试(一次测11个功能)

计算步骤

  1. 特征抽取,对用户特征量化,在标签体系中做标记
  2. 标记之后,再做聚类,形成很多像星系一样的东西
  3. 把同一个星系(簇)的顾客拉出来,去找"双胞胎" --> 即关键特征维度都很接近的两个人,用于对照实验
  4. 通过对"双胞胎"做AB实验推算增量
  5. 计算增量部分的未来价值

详细描述:又一个我们需要测未来价值的事件,在双胞胎的X人中发生了,Y人中没发生,我们要测Y人在未来一段时间的均值贡献,来对比X人产生的价值均值。

ROI = 未来价值 - 活动预算,用来评估是否值得推动一项活动。

行为价值判断:期望价值 = 顾客行为可能性 x (直接价值 + 未来价值)

用户增长

"用户增长"是互联网公司永恒的话题,也是个增长方法论被实践到已经能高度抽象,在大部分行业都能直接迁移和使用。用户增长的方法论高度依赖于数据化运营,不过这方面市面上资料太多,因此这里不会多加叙述,而是留给感兴趣的自己去阅读。推荐阅读:《精益数据分析》,下图是网上找的读书笔记。

FAQ

关于如何赋能数据,大家不知道有没有思考过这个问题,如果有,希望也可以讲出来,我们一起多探讨。

参考资料

异动归因贡献度计算方法:「原创」指标异动排查中,如何量化对大盘的贡献程度

异动归因贡献度计算方法2:《波动解读---指标拆解的加减乘除双因素》

数据岗的核心职能、生产关系与知识技能

数据分析没思路?你需要理一理工作流程

相关推荐
l***O52022 分钟前
大数据实时处理:Flink流处理
大数据·flink
源码之家39 分钟前
基于python租房大数据分析系统 房屋数据分析推荐 scrapy爬虫+可视化大屏 贝壳租房网 计算机毕业设计 推荐系统(源码+文档)✅
大数据·爬虫·python·scrapy·数据分析·推荐算法·租房
源码之家43 分钟前
机器学习:基于python租房推荐系统 预测算法 协同过滤推荐算法 房源信息 可视化 机器学习-线性回归预测模型 Flask框架(源码+文档)✅
大数据·python·算法·机器学习·数据分析·线性回归·推荐算法
llilian_161 小时前
智能数字式毫秒计在实际生活场景中的应用 数字式毫秒计 智能毫秒计
大数据·网络·人工智能
打码人的日常分享1 小时前
基于信创体系政务服务信息化建设方案(PPT)
大数据·服务器·人工智能·信息可视化·架构·政务
搞科研的小刘选手2 小时前
【EI稳定】检索第六届大数据经济与信息化管理国际学术会议(BDEIM 2025)
大数据·人工智能·经济
一水鉴天3 小时前
整体设计 全面梳理复盘 之39 生态工具链 到顶级表征及其完全公理化
大数据·人工智能·算法
草原印象5 小时前
全文检索ElasticSearch实战
大数据·elasticsearch·全文检索
Guheyunyi5 小时前
安防监控系统,如何为你的生活构筑智慧安全屏障?
大数据·人工智能·安全·信息可视化·生活
TDengine (老段)5 小时前
TDengine 字符串函数 Replace 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据