导读
在数字化时代,企业对用户数据的挖掘和分析能力直接影响业务增长和竞争力。图灵数据洞察平台(TDF) 是一款面向企业的数据分析与用户增长平台,提供一站式的行为数据生产、用户行为分析、及广告效果评估等功能。它能够利用多维分析模型深入洞察用户行为,助力精细化运营。图灵数据洞察平台还支持数据可视化和智能分析,帮助企业优化营销策略,提高用户转化和留存率。本文将详细介绍图灵数据洞察平台的核心功能、应用场景及其在提升数据决策效率和驱动业务增长方面的优势,为企业提供数据智能化运营的最佳实践。
01 平台背景
1.1 背景
百度MEG上一代大数据产品存在平台多、质量参差不齐和易用性差的问题。这些问题导致开发人员面临较高的研发依赖、开发效率低下和高昂的学习成本;业务部门则感知需求支持迟缓、数据产出延迟及数据质量低的问题。
图灵3.0旨在解决旧有大数据产品使用分散且技术相对落后的问题。
图灵3.0是一个覆盖数据全生命周期的强大生态系统,支持全链路的数据操作,包括数据计算引擎、数据开发和数据分析三个核心部分:
-
TDE(Turing Data Engine):图灵生态的计算引擎,包含Spark计算引擎和ClickHouse。
-
TDS(Turing Data Studio):一站式数据开发治理平台。
-
TDA(Turing Data Analysis):新一代可视化BI产品。
△图灵3.0生态
1.2 问题
-
目前图灵生态内的可视化BI产品TDA聚焦于宏观分析,依赖用户自建的聚合后的数据集,缺乏对产品用户明细行为的关注分析。
-
宏观的数据报表基于固定的分析目标建模,建设周期长,关注点相对固定,分析新视角的更新依赖于数据开发工程师,且存在计算资源重复消耗。
-
TDA下分析模式关注宏观趋势,分析与图表也以宏观趋势为主,缺少漏斗用户路径之类明细视角的深度分析即相关方法论落地能力,对增长中用户留存、流失等问题的深层次归因缺乏整体的解决方案,依赖分析师的经验预建模,无法灵活快捷分析。
-
新产品和营销活动很难及时看到留存、转化等效果,难以复用过往沉淀的分析模型,依赖数据开发工程师全程跟进,响应周期长。
-
业界对增长分析普遍关注有很多成熟产品,如Mixpanel、Google Analytics、Amplitude、字节火山引擎等,需要快速跟进完善分析能力。
基于以上问题,我们建设了数据洞察平台(增长分析平台Turing Data Finder), 以下简称TDF。
1.3 与TDA平台的差异
有相关同学可能了解过TDA平台,它属于meg下的可视化数据分析产品,TDA与TDF在分析的数据、数据存储使用、关注的问题等方面都有较大的区别。
TDA的产品定位是一个可以实现用户一站式自助查询的BI平台,用户可以自由拖拽数据集,进行可视化数据分析,并进行核心仪表盘的搭建。分析模型如留存分析数据模型一般在数据生产阶段完成,然后在TDA平台多样化展示。
TDF更专注于数据增长分析,是一站式用户分析与运营平台,旨在为增长场景的数据分析带来全自动、全流程的解决方案,提升全流程迭代效率和分析深度,内部聚合多种高级分析模型,灵活洞察用户全生命周期的行为表现,从而发现指标背后增长的可能。分析模型在分析阶段打造,平台基于明细数据和用户选择的分析场景生成分析数据模型后展示查询结果。
△功能对比
02 平台整体架构介绍
TDF平台致力于打造全自动的、全流程的解决方案用于提升用增场景数据分析的深度,适配核心业务增长需求。
整体架构如下:
整体流程为数据开发工程师产出固定格式的ck明细日志后,用户在明细日志的基础上进行用户行为分析和用户分析,分析结果可保存至仪表盘。接下来从数据接入与管理、增长分析、仪表盘等方面对TDF功能进行详细的描述。
03 数据接入与管理
3.1 数据接入
日志中台数据接入流程如下:
-
用户在TDF选择需要从日志中台同步的页面;
-
TDF定时同步页面对应的事件meta数据;
-
TDF定时输出同步的meta数据给数据rd;
-
数据rd根据meta数据处理日志中台日志输出数据到ck;
对于非日志中台的日志,用户需要给TDF平台提供固定格式的事件meta信息。
3.2 标明细数据规范
因为增长分析场景复杂,很难针对不同的业务线的不同的用户行为表结构做定制化的sql模版开发,所以定义统一的明细数据规范,用户按照规范生成固定格式的数据,表模版字段如下:
3.3 数据管理
事件管理:事件管理支持新建事件、删除事件、支持设置必要属性(对于日志中台事件,必要属性不符合需求的事件会过滤)。
虚拟事件管理:用户可基于已有的元事件及事件属性建设虚拟事件,在分析时可选择虚拟事件进行分析。
属性管理:可管理属性、管理属性枚举值、为属性绑定事件。
04 增长分析
4.1 事件分析
事件分析支持用户进行属性筛选以及分组后计算不同的指标,,对用户行为进行多维分析,并提供多样化的可视化图表。也可以选择人群包查看人群在不同事件中的表现。事件分析方便用户掌握产品不同功能的使用情况,可以快速展开多维下钻分析,配置出业务相关的分析指标。
△配置填写
△图展示
△表格展示
- 支持的指标:pv、uv、人均次数、按任意属性去重、按任意属性求和。
△指标选择
-
支持多种图表类型,对于分天数据包括折线图、柱状图、面积图等,对于总数包括饼图、柱状图等。
-
支持多个自定义公式,可按照数值和百分比展示。
△多公式支持
- 支持与上期日期对比。
4.2 留存分析
留存分析用于衡量用户在一段时间内持续使用产品或服务的情况。它能帮助企业评估用户粘性、产品价值以及优化用户体验,以提高用户的留存率和忠诚度。方便对升级或活动所影响用户群体的留存率进行监控分
用户通过在页面选择起始事件(是指用户在特定时间段内完成的某个事件),回访事件(是指在起始事件之后,用户在特定时间段内再次完成的某个事件),以及筛选事件的属性和分组,查看在不同维度下回访事件相对于起始事件的n天(可选是当日留存还是累计留存)。
△条件筛选
△结果展示
-
不同位置的筛选作用于不同的事件,右侧的筛选作用于两个事件。
-
支持累计留存,累计留存是n天内回访事件的回访人群累计相对于起始事件的留存率。
4.3 漏斗分析
分析概述
漏斗模型通过分析用户流程中转化流失情况,反映用户行为状态以及从起点到终点各阶段用户转化情况,通过分析整个过程的转化率以及每一层的转化率,可以帮助我们明确优化的方向,找到转化率低的节点,进而可以定位用户流失的环节和原因。
用户通过按顺序选择漏斗中参与的事件、对事件属性进行筛选、添加分组,可查看不同维度下用户在一系列事件中的转化情况。
△条件筛选
△结果展示
-
可查看转化步骤,也可查看转化趋势,转化趋势是看选定的事件中事件a到事件b每天的转化情况。
-
转化率计算时可与前一事件相比也可与起始时间相比。
3)分析主体切换,配置后支持切换分析主体,默认分析视角是用户数查看用户的流向,在左上角切换后可选择比如商户、订单等查看这些主体的流转情况。
△分析主体切换
4.4 用户路径
用于记录和分析用户在各个事件之间的流转过程,通过可视化的用户流量流转图高效查看分析用户在各个页面中的行为分布,用户路径通过分析这些事件的序列和流向,可以洞察用户的行为模式、偏好以及在不同页面或功能间的转换效率。
用户通过选择起始事件和参与的事件、对事件属性进行筛选,可查看用户在所选的一系列事件中的流转情况和转化率。
△条件筛选
△结果展示
1)用户选择起始时间后可选择参与分析也可不选择,不选择参与分析的时间则能流转到任意事件,否则只能流向起始时间和参与分析的时间以及others
2)通过限制但级别最大节点数来限制每层级的最大node数据,显示的node表示这一层级流向的top事件。
3)通过日期组件旁边的步数选择来控制层级数量。最少2步、最多5步。
4.5 成分分析
查看目标群体(通过用户做过的事和固定属性确认)的属性分布和对比, 成分分析通过分析一些典型属性如手机品牌、用户年龄、新老用户等场景,可以帮助我们全盘掌握用户公共属性的分布情况,辅助我们进一步优化运营策略。
用户在左侧选择需要查看的成分,右侧通过筛选用户做过的事件和其他固定属性值确认分析的目标群体,可查看目标群体在不同成分下的用户量对比。
△条件筛选
△结果展示
1)可选多个属性(最多5个)查看分析,非交叉分析时每个属性的结果单独显示,交叉分析时显示属性的多个组合结果
2)可选择人群对照组(最多5个),对照结果并排显示
3)可切换柱状图显示比例
4.6 分布分析
分布分析指在整体或某一维度下,按照计算结果划分出一些区间,查看对应人数在各区间内的分布情况。分布分析有很多种类,比如按事件发生频次查看人数分布、按属性值计算结果查看人数分布、按一段时间内累计发生的时长或天数查看人数分布等,可用于分析用户的页面功能的满意度情况。
用户通过选择想要查看的事件、属性筛选,选择分布区间算法和间隔后,可以从不同的分组查看用户实现该事件次数的分布状况。
△条件筛选
△结果展示
1)分布区间可以按照sturges算法计算,也可以自定义区间。自定义区间可以自由定义几等分、按多少间隔分隔总共多少组,也可以完全自由定义,用户自由限制每个区间范围。
△自定义等分
△自定义区间
△自定义组数和间隔
2)是否整体用于计算在这段时间内用户整体的分布,这段时间内的用户整体去重。
3)展示结果图表右上角可选pv和占比,与默认展示的用户数自由组合。
4)可切换分析主体,默认分析视角是用户数,在左上角切换后可选择比如商户、订单等。
5)可选其他指标的去重分布,默认为次数。
4.7 归因分析
归因分析主要用于查看用户选择的多个待归因事件对最终结果事件的转化贡献,通过归因分析也可查看事件发生与目标事件发生之间的相关性。
用户选择目标事件和待归因事件,添加筛选条件后,可查看每个事件和目标事件的相关性,以及对整体目标出发的贡献。
△条件选择及结果展示
1)用户可选择是否添加过程事件,添加过程事件表示用户在放生目标事件前必须发生过程事件才算做一次转化。
2)相关系数采用皮尔森相关系数算法计算。
3)同时计算其他归因节点默认不选择时只计算归因事件的转化,选择时则计算所有目标事件的转化,将非待归因事件汇总为others事件。
4)归因方法可选首次归因、末次归因、线性归因。
5)归因窗口可调整,在归因窗口期内即发生目标事件又发生待归因事件切符合归因算法,则算做一次待归因事件对归因事件的转化。
05 增长分析效率优化
增长分析关注的是用户行为明细数据数据量大,同时留存、漏斗、用户路径等分析场景模型复杂涉及到多层sql嵌套和长时间跨度的数据,平台会面临较大的查询压力。我们从多个方面对查询效率进行了优化。
1. 数据模型简化
1)合并用户数据和事件明细数据将关联前置到数据生成阶段,避免查询时大表关联
2)拆分业务线不同活动数据至不同分区,最小化查询数据集。
2. 分析模型逻辑优化
1)切分分析逻辑至查询最小粒度,多线程获取查询结果,在内存中合并获取最终结果。如事件分析中不同事件结果并行获取、成分分析中不同成分和对照组交叉时并行获取。
2)业界高效方案应用。如留存场景取用户群交集时使用Roaringbitmap方案,按位计算,极大提升查询效率。
3. 复杂字段物化与数据缓存
1)由于明细数据必须使用固定模版,所以对于多样化的事件属性、用户属性需求,这些属性统一存放在map字段中,查询时会拉低查询的效率。目前依据业务经验,对常用的部分属性进行物化,后期会根据查询日志获取高频查看属性列表,自动物化高频属性。
2)触发缓存和定时缓存结合,优化高频报表查询效率。用户触发缓存:按照用户查询条件缓存数据查询结果。定时缓存:对于高频的慢查询报表,根据明细数据表是否发生变更决定缓存更新频率,未发生变更时拉长缓存更新频率,发生变更则立即更新缓存。
06 总结与展望
TDF平台作为图灵3.0系统的新成员,作为一个全新的平台,功能已基本对齐业界竞品, 目前在用增、搜索等数据团队推广使用中。目标是通过平台基础数据分析能力,以数据为驱动为用户增长提供有效的线索,给产品、运营和分析师等提供新的增长分析思路。
展望未来,TDF平台有望在以下几个方面进一步发展和完善:
-
智能化助力数据分析:AI交互,探索数据智能洞察
-
多平台分析联通与交互:与TDA平台仪表盘打通,在同一仪表盘内数据从宏观分析深入到日志级别增长分析;与其他平台(如人机平台)交互,扩大人群分析能力和使用范围。
-
分析场景拓展:接入更多的数据源,支持更多的业务场景;拓展分析场景如ahamoment、LTV等,多角度为增长分析提供线索;提升分析效率,高效服务用户
总体而言,TDF平台将持续完善自身能力,通过不断的技术创新和功能完善,提升增长分析的深度、适配业务增长的需求,在增长分析中发挥重要作用。
----------END----------
推荐阅读