基于过滤器下推的多阶段数据分析性能优化策略

数据的过滤是数据分析中最重要的方法之一。通过有效的过滤,可以去除噪声数据、异常值和不相关的信息,从而提高分析结果的准确性和可靠性。数据过滤能够帮助分析师专注于关键数据点,发现潜在的趋势和模式,从而做出更明智的决策。

数据分析的过程可以分为几个关键节点:

**·**确定明细数据表;

**·**利用部分表格制作宽表;

**·**确定直接用于分析的数据表和宽表,并建立它们之间的关联模型;

**·**基于关联模型进行数据可视化展示。

数据过滤的需求可能出现在上述任何节点,这取决于分析的功能和性能需求。为了更好地描述数据过滤的发生过程,我们可以将上述节点倒序排列,例如下面图片描述的一个关于咖啡的简单分析场景,在这个场景中,我们可以描述数据过滤在每个阶段的作用。

可视化阶段

01

在可视化阶段,过滤掉不相关的数据可以帮助我们更清晰地识别关注对象的趋势和模式。过滤在可视化阶段的作用最为直观,结果呈现为所见即所得,这对分析师和数据使用者都非常方便。然而,它的缺点在于过滤位于最外层,下面的所有数据明细处理仍然基于全量数据,这对整体分析性能并不友好。如果我们能够解决性能问题,分析师就可以更加专注于业务需求。衡石提供的过滤器下推能力正是为了解决这一问题。

过滤器下推是指在不影响计算结果的基础上,将过滤器尽量推到底层计算,从而减少计算量,过滤被下推之后,原始的过滤条件会被删掉。目前,衡石对过滤器下推的策略如下:

1

多表联合计算

假设有两个表 t1 和 t2。

**·**如果 t1 采用 left join t2,那么所有与 t1 中字段相关的过滤条件都会推到 t1 表上。

· 如果 t1 采用 right join t2,那么所有与 t2 中字段相关的过滤条件都会推到 t2 表上。

**·**如果 t1 采用 inner join t2,那么与 t1 中字段相关的过滤条件会推到 t1 表上,同时与 t2 中字段相关的过滤条件也会推到 t2 表上。

2

多表合并计算

假设有两个表 t1 和 t2,过滤条件会同时被推到 t1 表和 t2 表上。

3

聚合计算

在聚合表上能够执行的过滤条件都会被推下来。

下图展示了咖啡分析场景中,订单日期的过滤器是如何被推到底层的。黄色填充的过滤条件是下推的中间过程,最终过滤条件落在了"coffee_2016年销量"和"coffee_2023年销量"上,相当于 "coffee_2016年销量"的数据不会参与到分析中。

数据建模阶段

02

在数据建模阶段,过滤掉异常值和噪声数据可以确保模型的准确性和可靠性。数据管理员需要在建模阶段添加过滤条件,以确保在使用数据模型时,所处理的数据始终带有这些过滤条件。这种做法不仅提高了模型的质量,还能有效减少后续分析中的干扰因素,从而使得分析结果更加可信。衡石在建模阶段提供了针对模型添加过滤的功能,并且这些过滤条件在条件允许的情况下,也会被下推到底层。

数据整合阶段

03

在数据整合阶段,过滤掉不必要的字段和记录可以简化数据结构,提高后续分析的效率。数据管理员可以方便地在创建多表联合、多表合并、聚合、行转列和列转行等类型的数据表时添加过滤条件。然而,数据管理员在添加过滤条件时,通常会关注新数据表是否受到底层数据集的过滤条件影响。以下是两个相关场景:

1

新数据表不受底层数据集的过滤条件影响:例如,用户以"coffee_2023年销量"表为基础,创建了一个聚合数据集,用于表示2023年各门店的总销量。管理员期望这个门店总销量不应随"coffee_2023年销量"表的任何过滤条件而变化。

2

新数据表需要受底层数据集的过滤条件影响:例如,当"coffee_2023年销量"和"coffee_2016年销量"上有过滤条件时,用户期望"coffee_销量"数据表能够随之变化。

衡石提供了"继承上游权限"的功能,方便数据管理员根据不同场景需求创建满足多种条件的数据表。开启了"继承上游权限",新的数据表会受底层数据过滤的影响;不开启"继承上游权限",新的数据表不会受底层数据过滤的影响。

确定明细数据表阶段

确定明细数据表时,初步过滤可以帮助我们聚焦于最相关的数据,确保后续步骤的有效性。除了数据管理员对明细数据表有初步过滤的需求外,分析员也会有类似的需求。在分析阶段,分析员在添加过滤条件时,有时希望这些过滤条件直接作用于最终结果,有时则希望它们作用于底层的数据。衡石的仪表盘过滤功能正好支持这两种需求,提供了灵活的过滤选项,以满足不同分析场景的需要。分析师在添加仪表盘过滤时,开启"外层过滤",表示过滤发生在分析结果上;关闭"外层过滤",表示过滤直接作用于底层数据集。

在数据分析的各个节点,衡石均提供了灵活的过滤功能,并在后台有效解决性能问题。数据管理员和分析师可以将这些功能组合成丰富多样的分析场景,以满足不同的业务需求。

以上为本次分享的全部内容,关注衡石,了解更多数据分析技能!

相关推荐
hqyjzsb41 分钟前
深度洞察人性需求!拆解传统心理咨询升级AI智慧辅导师数智工作流
人工智能·深度学习·学习·数据挖掘·aigc·学习方法·业界资讯
问组生物1 小时前
在线绘制带连线的配体-受体联合热图
数据分析·数据可视化·论文插图·科研绘图·科学科普·基因表达·联合热图
Aloudata1 小时前
如何通过 NoETL 指标平台根治跨业务口径混乱
数据分析·etl·指标平台·指标口径
小陈工2 小时前
Python Web开发入门(十八):跨域问题解决方案——从“为什么我的请求被拦了“到“我让浏览器乖乖听话“
开发语言·python·机器学习·架构·数据挖掘·回归·状态模式
CodeCraft Studio3 小时前
LightningChart .NET v12.5.1 发布:高性能数据可视化再升级,赋能工业与实时数据场景
信息可视化·.net·gpu·数据可视化·lightningchart·高性能图表开发·数据可视化引擎
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月9日
大数据·人工智能·信息可视化·自然语言处理·ai编程
2501_944448473 小时前
数据可视化 Kotlin KMP OpenHarmony图表生成
开发语言·信息可视化·harmonyos
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月10日
人工智能·python·信息可视化·自然语言处理·ai编程
独特的螺狮粉4 小时前
开源鸿蒙跨平台Flutter开发:喝水时间提醒应用
开发语言·flutter·华为·信息可视化·开源·harmonyos·鸿蒙
余丁,微生信4 小时前
在线绘制饼+弧线图以展示venn交集情况
数据分析·数据可视化·论文插图·生信分析·科学科普·文恩图·基因表达