基于过滤器下推的多阶段数据分析性能优化策略

数据的过滤是数据分析中最重要的方法之一。通过有效的过滤,可以去除噪声数据、异常值和不相关的信息,从而提高分析结果的准确性和可靠性。数据过滤能够帮助分析师专注于关键数据点,发现潜在的趋势和模式,从而做出更明智的决策。

数据分析的过程可以分为几个关键节点:

**·**确定明细数据表;

**·**利用部分表格制作宽表;

**·**确定直接用于分析的数据表和宽表,并建立它们之间的关联模型;

**·**基于关联模型进行数据可视化展示。

数据过滤的需求可能出现在上述任何节点,这取决于分析的功能和性能需求。为了更好地描述数据过滤的发生过程,我们可以将上述节点倒序排列,例如下面图片描述的一个关于咖啡的简单分析场景,在这个场景中,我们可以描述数据过滤在每个阶段的作用。

可视化阶段

01

在可视化阶段,过滤掉不相关的数据可以帮助我们更清晰地识别关注对象的趋势和模式。过滤在可视化阶段的作用最为直观,结果呈现为所见即所得,这对分析师和数据使用者都非常方便。然而,它的缺点在于过滤位于最外层,下面的所有数据明细处理仍然基于全量数据,这对整体分析性能并不友好。如果我们能够解决性能问题,分析师就可以更加专注于业务需求。衡石提供的过滤器下推能力正是为了解决这一问题。

过滤器下推是指在不影响计算结果的基础上,将过滤器尽量推到底层计算,从而减少计算量,过滤被下推之后,原始的过滤条件会被删掉。目前,衡石对过滤器下推的策略如下:

1

多表联合计算

假设有两个表 t1 和 t2。

**·**如果 t1 采用 left join t2,那么所有与 t1 中字段相关的过滤条件都会推到 t1 表上。

· 如果 t1 采用 right join t2,那么所有与 t2 中字段相关的过滤条件都会推到 t2 表上。

**·**如果 t1 采用 inner join t2,那么与 t1 中字段相关的过滤条件会推到 t1 表上,同时与 t2 中字段相关的过滤条件也会推到 t2 表上。

2

多表合并计算

假设有两个表 t1 和 t2,过滤条件会同时被推到 t1 表和 t2 表上。

3

聚合计算

在聚合表上能够执行的过滤条件都会被推下来。

下图展示了咖啡分析场景中,订单日期的过滤器是如何被推到底层的。黄色填充的过滤条件是下推的中间过程,最终过滤条件落在了"coffee_2016年销量"和"coffee_2023年销量"上,相当于 "coffee_2016年销量"的数据不会参与到分析中。

数据建模阶段

02

在数据建模阶段,过滤掉异常值和噪声数据可以确保模型的准确性和可靠性。数据管理员需要在建模阶段添加过滤条件,以确保在使用数据模型时,所处理的数据始终带有这些过滤条件。这种做法不仅提高了模型的质量,还能有效减少后续分析中的干扰因素,从而使得分析结果更加可信。衡石在建模阶段提供了针对模型添加过滤的功能,并且这些过滤条件在条件允许的情况下,也会被下推到底层。

数据整合阶段

03

在数据整合阶段,过滤掉不必要的字段和记录可以简化数据结构,提高后续分析的效率。数据管理员可以方便地在创建多表联合、多表合并、聚合、行转列和列转行等类型的数据表时添加过滤条件。然而,数据管理员在添加过滤条件时,通常会关注新数据表是否受到底层数据集的过滤条件影响。以下是两个相关场景:

1

新数据表不受底层数据集的过滤条件影响:例如,用户以"coffee_2023年销量"表为基础,创建了一个聚合数据集,用于表示2023年各门店的总销量。管理员期望这个门店总销量不应随"coffee_2023年销量"表的任何过滤条件而变化。

2

新数据表需要受底层数据集的过滤条件影响:例如,当"coffee_2023年销量"和"coffee_2016年销量"上有过滤条件时,用户期望"coffee_销量"数据表能够随之变化。

衡石提供了"继承上游权限"的功能,方便数据管理员根据不同场景需求创建满足多种条件的数据表。开启了"继承上游权限",新的数据表会受底层数据过滤的影响;不开启"继承上游权限",新的数据表不会受底层数据过滤的影响。

确定明细数据表阶段

确定明细数据表时,初步过滤可以帮助我们聚焦于最相关的数据,确保后续步骤的有效性。除了数据管理员对明细数据表有初步过滤的需求外,分析员也会有类似的需求。在分析阶段,分析员在添加过滤条件时,有时希望这些过滤条件直接作用于最终结果,有时则希望它们作用于底层的数据。衡石的仪表盘过滤功能正好支持这两种需求,提供了灵活的过滤选项,以满足不同分析场景的需要。分析师在添加仪表盘过滤时,开启"外层过滤",表示过滤发生在分析结果上;关闭"外层过滤",表示过滤直接作用于底层数据集。

在数据分析的各个节点,衡石均提供了灵活的过滤功能,并在后台有效解决性能问题。数据管理员和分析师可以将这些功能组合成丰富多样的分析场景,以满足不同的业务需求。

以上为本次分享的全部内容,关注衡石,了解更多数据分析技能!

相关推荐
Access开发易登软件3 小时前
Access开发实战:绘制漏斗图实现业务转化分析
数据库·信息可视化·html·vba·图表·access
墨_浅-4 小时前
教育/培训行业智能体应用分类及知识库检索模型微调
人工智能·分类·数据挖掘
Elastic 中国社区官方博客4 小时前
Kibana 数据可视化的新配色方案 —— 我们如何以及为什么创建它
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·kibana
咕噜企业分发小米6 小时前
阿里云基因测序数据分析平台有哪些成功案例?
阿里云·数据分析·云计算
中渝软通6 小时前
中小企业数字化新标杆:“二级达标”技术解析与实施策略
信息可视化
CryptoPP7 小时前
印度股票市场数据获取与分析实战:基于RESTful API与Python
数据挖掘·数据分析
adaAS14143157 小时前
【矿物识别】基于改进YOLO13-C3k2-ContextGuided的铝土矿智能检测与分类系统
人工智能·分类·数据挖掘
HyperAI超神经7 小时前
预测精度可提升60%,清华李勇团队提出神经符号回归方法,自动推导高精度网络动力学公式
人工智能·ai·数据挖掘·地球科学·神经符号
过期的秋刀鱼!7 小时前
Excel-数据分析开发心得(工具PQ,PP)与开发经验
大数据·数据分析·excel·模型搭建·数据优化·powerquery·powerpivot
大数据魔法师7 小时前
曲靖天气数据分析与挖掘(二)- 曲靖天气数据预处理
数据挖掘·数据分析