数据如何主动赋能业务

背景

数据侧在新业务的地位,有点不平衡。一方面,相当部分运营,乃至数据分析师,在数据意识和数据应用上是薄弱的(笔者在三线城市的互联网公司,一线互联网一般不会有这种情况),当老板需要了解业务现状时,一般会花费较多的曲折且难以给出足够信服的结论(群里老板抛出一个指标波动问题,观察到群里各方人员的解答有感),因此数开作为相对了解数据的研发,重要性不言而喻;同时,某些数据使用方又走得太远,以至于数开乃至数据平台努力追赶都跟不上步伐:一方面数开的业务理解远不及业务产品经理,另一方面当外部成熟的商业化方案替换中台的平台工具时,相当部分报表需求都收敛到商业组件闭环,不走数开这条链路。我们得承认,这是整个生产流程发展成熟后的必然阶段(虽然在当下太快了),即简单的、重复性的数据建设,都可以借助工具支持非技术人员自己去生成,但是这也推动数开去思考自己工作的意义,自己的不可替代性在哪里。

标准数据挖掘流程(CRISP-DM)

数开/数仓的职责范围

基本只涉及其中的3个模块:⑥ 处理数据、⑨ 实施方案、⑩ 评价效用。

至于其他模块,都在逐渐完善的生产流程和自然分工中,交给更专业的人去完成了:

① 界定问题:在报表设计之初,一般已经由业务产品经理/数据分析师界定好了问题:我们要评估一下业绩的现状,我们要衡量某一业务节点的性能。

② 制定方案:数据产品经理制定了一个交付物为报表的解决方案;这个报表中包含了我们用来衡量业绩的诸多指标,如:销售额,产能等。

③ 定义数据:定义指标的计算口径,该步骤一般也会由业务产品经理/数据分析师去给出。

④ 获取数据:当指标的口径被确定后,从业务源系统的哪些库表去取数据也就相当明确了。

⑤ 理解数据、⑦ 验证方案、⑧ 评估方案这三个模块,这三步也都由需求方在数据需求的前期和验收阶段去完成。

该工作对数开工作结果的评价维度也基本只有:及时性与准确性。

冲突:数开的困境

看完上述流程梳理,大家可能能发现一个问题,即如果不考虑技术实现的问题,大部分需要思考的节点都由需求方完成了,留给数开的,其实是个数据处理的工作。这其实也是大部分研发人员的困境,即技术在上个10年已经日渐成熟(容器化、混云部署等),加上人才的涌入,技术门槛越来越低;同时,相比上代技术人员只要面对年龄(等同于性价比更高的年轻员工)这个竞争对手,现在的程序员还要面对ChatGPT这个大敌。当某个厂商为了占领市场提供大模型的私有化部署方案时,数据安全的风险就不存在了,很多工作的意义就岌岌可危。有危机感的人就总会多想,我的不可替代性是什么(甚至可能和工作能力无关),对这个问题,每个人都有自己的回答,这里我也把问题留给大家,我这里想提供的,是除了技术专家路线外,另一个可能的路。

问题:如何主动去赋能/驱动业务?

有什么成熟的方法论?有什么高度抽象的知识可以跨行业迁移,拿来就用的?

有什么学习的路径?知识体系?

相比数分,我们的优势是什么?

本文将围绕这些启发式的问题进行写作,并力求让读者看完后达到这样一个效果:在承接数据需求的时候,能更多思考数据对业务的作用,能有的放矢地去思考数据需求的价值;如果有志于往业务方向发展的,可以知道往哪个方向去学习。同时我想让大家调整下对接下来内容的预期:我在数据赋能业务方面的经验也寥寥,没有一个大的成功的showcase去更有说服力的介绍成功的方法论(这个需要天时,地利,人和),你们读到后面可能也会发现文章的结构不合理,最后的方法论内容较少,那是因为这方面我缺少建树,可能数分在这方面比较有发言权。但是我仍尽可能地把我学到的、认为通用的、可迁移的,实践过的方法论,放到这次分享里来分享。

答案

数据职能在组织中贡献的价值体现在:量化业务与驱动业务,分别对应:

量化业务------业务数据化

驱动业务------数据业务化

量化业务,在外行以极简视角来看,做数据埋点和落库就可以了,但是我们自己知道,越是复杂的分析需求,越需要复杂的底层建设,诸如清洗、打平嵌套结构,关联上源数据没有、或散落各处的维度。量化数据的工作也是有阶段性的,按照业务和数仓发展的完善性,工作内容可以分成3个阶段:

数开工作的3个阶段

1、内容补齐(描述性数据呈现)

2、发现问题/机会点(诊断性数据分析)

3、驱动业务(提炼和迭代认知)

其中1主要是数据处理的工作,2和3是我们想要做到的,带有自己思考的数开工作。那么,怎么做才能做到2和3呢?我认为是业务理解

业务理解的4个阶段

  1. 听懂需求描述,能理解背后含义

当做不到这点且业务侧需求描述/同步得不够精准和详细,就可能把需求做偏

  1. 深入理解业务过程,了解上下游,知道业务变化会影响哪些业务/看板/数据

技术层面(建模+数据)的融会贯通,能评估迭代/上线影响范围

  1. 深入理解需求,知道我做的事是服务哪些业务目标/业务问题(由点到面),理解该需求下数据的应用场景

业务感知开始培养,知道指标对业务(决策)的影响

  1. 深入理解业务的商业逻辑,知道目前数据驱动业务发展的逻辑;能对业务拆解,并在技术规划上进行映射

开始对一个行业有意识地构建知识体系(这也是为什么公司愿意给满5年经验的研发人员仍持续涨薪的原因,他的技术能力和行业认知已经构成公司对外竞争的护城河),已经能评价产品经理的方案优劣并对其能力有自己的看法,并预测产品的未来发展

  1. 洞察业务发展趋势,掌握所在行业的长短期趋势,发现新的数据应用场景

到这个阶段,让你在中台性质的部门守成简直是浪费才华,最适合你发挥能力去为公司攻城略地的部门是:用户增长部门!

怎么去做到好的业务理解,我也没什么特别好的方法论,按我的经验,只能长期深耕在业务领域,在复杂和有难点的需求挑战中,被问题难住,解决这个问题,获得新的业务理解。你的业务理解的深度是在无数个解决问题的过程中提升的(当然你的有意识主动复盘也很重要),这也要求经年累月的时间和自我思考。我能想到的,可能是问题驱动式方法的几个好问题,能有助于激发研发去主动思考业务的商业模式。一般有创业想法的人会更容易去主动思考。

问好问题

  1. 业务发展的关键问题是什么?

以我所在的业务线作为例子,该业务因为是个新的交友APP,在主要目标上可以认为是"我全都要!",既要增长,也要留存和转化。从我入职的3月底到现在,该APP的DAU翻了一番,可以说大方向对了,效果明显。APP是怎么做的呢?接下来给大家说一下业务的决策视角:

先解决增长问题 --> 增长优先解决新男流失(留存)问题 --> 高服务质量的分层女对标新男

--> 匹配效果不佳 --> 重做匹配v4 --> 短时间匹配消息太多,用户体验差 --> 短频控

--> 挂机行为,流量浪费 --> 刹车 --> ?

我认为,现在的最大问题还是在规模,规模不铺开,很多事情的投入就划不来(现在有精力和人力分析的维度还相对较少,AB测试也没普及)。

  1. 业务提出的问题/困惑点?

业务侧没有什么特别好的手段,去找到那些黑产/灰产,即用脚本挂机挣钱,以及竞品过来发广告的行为,目前只有人肉的手段,在我拉会沟通了解到这个需求后,已经开始调研了。黑产问题,你不需要技术迭代比灰产快,只要比你的竞品快就可以了。有个笑话,猎人A在狩猎时遇到了熊,靠着自己精进的射箭技能全身而退,但是腿上中了一箭的猎人B就没那么幸运了。这个笑话的含义是,你短期内战胜黑产,他们会去找没做好防护的竞品,可能会帮你把竞品给拖垮。

  1. 如何将业务痛点数据化?有什么例子吗?

例子:美团打车:成单率=F(供需密度-用户和运力做功,供需比,错配度,司乘利用率)

所在业务线的例子:该业务的匹配业务的专题看板的维度是极简的,就:时段,国家,人群类别,搭配上表示匹配环节不同流转节点的性能衡量指标,对于业务来说,维度就已经够用了。但当我想做更深度的根因,比如为什么运营反馈人均匹配量在11月23日的3个小时出现腰斩,或者为什么私信付费率在19-20日增幅超过一个标准差,目前的维度可能没法满足我解惑的要求,这时我得自己想到的值得去下钻的维度,并去通过关联或入仓的方式补齐这些分析维度,比如女用户年龄,刹车次数,还比如:把原表作为指标的数据转变成维度,活跃时长-女,通过四分位图划分成:低、中、高、极高4个层级,然后把我们要分析的异动的指标:匹配成功量按照该维度去分别下钻,看哪个维值对总指标波动贡献较大。如果结论置信度高,这时我们不仅完成了一次归因,可能还顺带完成了一次数据对业务的优化建议,比如我们可能提炼了一个付费私信领域的"魔法数字",即量变产生质变的临界点,此处含义是,引导用户高频或长时间做某些行为,在男用户那一般是签到、登陆,在女用户这可能就是保持在线,能让用户价值对应的等级提升,用户可能流失概览更低,更倾向于在我们的产品活跃。

这里即是个简单的"模拟"例子,反映了数据需求从:描述现状 -> 分析原因 -> 改善未来 的流转,但实际情况是很复杂的,既需要各方配合,确保分析所需内容的补齐,一个明确的数据结论/洞见也常常需要大量的数据验证才能站得住脚。

为什么我坚持要承接从数据角度而已较侵入业务,且增加运维成本的需求,因为把数据和数据处理流程嵌入业务系统流程,提供了某方面的一个判断能力,把一个对业务来说未知的问题提供了确定性的结果,对业务有着直接的价值。

方法论

异常预警

异常诊断可以分为两大类:

  • 异动告警
  • 异动归因

前者是一个质量监控模型,我们在dataworks和DQP上已经有很多应用了,基本都可以归纳为,在指标前N个周期算得的均值+-标准差为正常区间,区间之外即从统计学角度来说,值得去关注了。当然,成年人的世界没有轻松二字,这个事情也绝不可能这么简单,还有很多问题需要考虑,比如降噪问题(业务迭代导致的正常异常影响了原本稳定的统计),周期性正常波动问题(肯德基的营收肯定在周四大涨,但是没必要认为是异动),云云。波动性问题可以通过时间序列预测模型来解决,外界一般用holt-winter模型,内部就我所知,数分部门的同志在去年有使用Facebook开源的Prohet去做异动告警(链接放最下面)。

至于异动归因,这里分享一下网上学到的方法论,首先需要将指标类型分类,指标类型粗略可以划分为三种,贡献度计算方式均不同:

类型一:加法型指标,指不同维度值之间可直接累加。例如:pv、uv

类型二:除法型指标。例如:ctr = 点击/展现

类型三:乘法型指标。例如:详情页访问次数 = 首页DAU × 详细页渗透 × 详细页访问次数

加法型指标

直接拆解法:贡献度 = 维度值绝对DIFF / 大盘绝对DIFF。

案例:

某日大盘pv -520,拆解各年龄段对大盘降幅的贡献程度:

步骤一:[19-25]岁,pv -200。

步骤二:[19-25]岁,贡献度 = (-200) / (-520) = 38%。

除法型指标

控制变量法/连环替代法:仅将度量的维度值发生改变,其他维度值保持不变,从而评估仅在该维度值发生变化的时,对大盘变化的影响程度。

css 复制代码
含义说明
Ci:维度值i的贡献度
Rt:当前大盘指标
Rt-1:历史大盘指标
Rt_new:仅维度值i为历史值的当前大盘指标

给大家举个例子:

步骤一:分别计算大盘和各维度值,过去和当前的ctr指标。

步骤二:分别计算各维度控制变量计算出来的Rt_new(ctr_new),以[1-18]为例:

步骤三:分别计算各维度指标变化的贡献度,贡献度加和≈100%。以[1-18]为例,变化贡献度为7%,其余年龄段如上图红色部分。

未来价值模型

常见估算方法:

  1. 主观猜测(拍脑袋)
  2. 根据局部数据放大(存在种子用户问题)
  3. 根据友商/行业数据推算
  4. 根据数学模型推算

抛砖引玉:如何统计开通京东Plus会员的价值?

答:Plus会员人均一年贡献2000营收,非Plus会员一年人均贡献500,所以会员带来1500的价值

忽视的点:买Plus会员的人,天生就和不买的人不一样,真正要计算的是买Plus会员这批人买之前和之后,营收的变化。

经典问题:用户的哪个行为更值得引导?

难点:测准事件的价值是什么,更常见的场景甚至是在上线前统计一个全新行为的未来价值

工具:用户画像/标签 + AB测试

AB测试:做一个功能,一半人看见,一半人没看见,实验组和对照组两个分支,对比他们在关心的指标上产生的差距

额外知识点:AB分流 --> 通过垂直正交的方式确保多个AB测之间不构成干扰,都保持随机性,支持叠加测试(一次测11个功能)

计算步骤

  1. 特征抽取,对用户特征量化,在标签体系中做标记
  2. 标记之后,再做聚类,形成很多像星系一样的东西
  3. 把同一个星系(簇)的顾客拉出来,去找"双胞胎" --> 即关键特征维度都很接近的两个人,用于对照实验
  4. 通过对"双胞胎"做AB实验推算增量
  5. 计算增量部分的未来价值

详细描述:又一个我们需要测未来价值的事件,在双胞胎的X人中发生了,Y人中没发生,我们要测Y人在未来一段时间的均值贡献,来对比X人产生的价值均值。

ROI = 未来价值 - 活动预算,用来评估是否值得推动一项活动。

行为价值判断:期望价值 = 顾客行为可能性 x (直接价值 + 未来价值)

用户增长

"用户增长"是互联网公司永恒的话题,也是个增长方法论被实践到已经能高度抽象,在大部分行业都能直接迁移和使用。用户增长的方法论高度依赖于数据化运营,不过这方面市面上资料太多,因此这里不会多加叙述,而是留给感兴趣的自己去阅读。推荐阅读:《精益数据分析》,下图是网上找的读书笔记。

FAQ

关于如何赋能数据,大家不知道有没有思考过这个问题,如果有,希望也可以讲出来,我们一起多探讨。

参考资料

异动归因贡献度计算方法:「原创」指标异动排查中,如何量化对大盘的贡献程度

异动归因贡献度计算方法2:《波动解读---指标拆解的加减乘除双因素》

数据岗的核心职能、生产关系与知识技能

数据分析没思路?你需要理一理工作流程

相关推荐
小码农叔叔25 分钟前
【大数据】Flink CDC 实时同步mysql数据
大数据·mysql·flink
B站计算机毕业设计超人1 小时前
计算机毕业设计hadoop+spark天气预测 天气可视化 天气大数据 空气质量检测 空气质量分析 气象大数据 气象分析 大数据毕业设计 大数据毕设
大数据·hive·hadoop·机器学习·spark·网络爬虫·数据可视化
雪碧没有冰块3 小时前
Flink源码剖析
大数据·flink
kkivivu4 小时前
家庭用超声波清洗机好用吗?推荐四款性能绝佳的超声波清洗机!
大数据
大G哥5 小时前
ELK日志收集之ES的DSL查询语句
大数据·elk·elasticsearch·搜索引擎·jenkins
青云交5 小时前
大数据新视界 --大数据大厂之数据质量评估指标与方法:提升数据可信度
大数据·sql·一致性·完整性·数据质量评估·数据可信度·准确性·时效性
黄焖鸡能干四碗5 小时前
【需求分析】软件系统需求设计报告,需求分析报告,需求总结报告(原件PPT)
大数据·人工智能·安全·测试用例·需求分析
YONG823_API7 小时前
电商平台数据批量获取自动抓取的实现方法分享(API)
java·大数据·开发语言·数据库·爬虫·网络爬虫
Data 31710 小时前
Hive数仓操作(十)
大数据·数据库·数据仓库·hive·hadoop
ON.LIN10 小时前
Hadoop大数据入门——Hive-SQL语法大全
大数据·数据库·hive·hadoop·分布式·sql