基于过滤器下推的多阶段数据分析性能优化策略

数据的过滤是数据分析中最重要的方法之一。通过有效的过滤,可以去除噪声数据、异常值和不相关的信息,从而提高分析结果的准确性和可靠性。数据过滤能够帮助分析师专注于关键数据点,发现潜在的趋势和模式,从而做出更明智的决策。

数据分析的过程可以分为几个关键节点:

**·**确定明细数据表;

**·**利用部分表格制作宽表;

**·**确定直接用于分析的数据表和宽表,并建立它们之间的关联模型;

**·**基于关联模型进行数据可视化展示。

数据过滤的需求可能出现在上述任何节点,这取决于分析的功能和性能需求。为了更好地描述数据过滤的发生过程,我们可以将上述节点倒序排列,例如下面图片描述的一个关于咖啡的简单分析场景,在这个场景中,我们可以描述数据过滤在每个阶段的作用。

可视化阶段

01

在可视化阶段,过滤掉不相关的数据可以帮助我们更清晰地识别关注对象的趋势和模式。过滤在可视化阶段的作用最为直观,结果呈现为所见即所得,这对分析师和数据使用者都非常方便。然而,它的缺点在于过滤位于最外层,下面的所有数据明细处理仍然基于全量数据,这对整体分析性能并不友好。如果我们能够解决性能问题,分析师就可以更加专注于业务需求。衡石提供的过滤器下推能力正是为了解决这一问题。

过滤器下推是指在不影响计算结果的基础上,将过滤器尽量推到底层计算,从而减少计算量,过滤被下推之后,原始的过滤条件会被删掉。目前,衡石对过滤器下推的策略如下:

1

多表联合计算

假设有两个表 t1 和 t2。

**·**如果 t1 采用 left join t2,那么所有与 t1 中字段相关的过滤条件都会推到 t1 表上。

· 如果 t1 采用 right join t2,那么所有与 t2 中字段相关的过滤条件都会推到 t2 表上。

**·**如果 t1 采用 inner join t2,那么与 t1 中字段相关的过滤条件会推到 t1 表上,同时与 t2 中字段相关的过滤条件也会推到 t2 表上。

2

多表合并计算

假设有两个表 t1 和 t2,过滤条件会同时被推到 t1 表和 t2 表上。

3

聚合计算

在聚合表上能够执行的过滤条件都会被推下来。

下图展示了咖啡分析场景中,订单日期的过滤器是如何被推到底层的。黄色填充的过滤条件是下推的中间过程,最终过滤条件落在了"coffee_2016年销量"和"coffee_2023年销量"上,相当于 "coffee_2016年销量"的数据不会参与到分析中。

数据建模阶段

02

在数据建模阶段,过滤掉异常值和噪声数据可以确保模型的准确性和可靠性。数据管理员需要在建模阶段添加过滤条件,以确保在使用数据模型时,所处理的数据始终带有这些过滤条件。这种做法不仅提高了模型的质量,还能有效减少后续分析中的干扰因素,从而使得分析结果更加可信。衡石在建模阶段提供了针对模型添加过滤的功能,并且这些过滤条件在条件允许的情况下,也会被下推到底层。

数据整合阶段

03

在数据整合阶段,过滤掉不必要的字段和记录可以简化数据结构,提高后续分析的效率。数据管理员可以方便地在创建多表联合、多表合并、聚合、行转列和列转行等类型的数据表时添加过滤条件。然而,数据管理员在添加过滤条件时,通常会关注新数据表是否受到底层数据集的过滤条件影响。以下是两个相关场景:

1

新数据表不受底层数据集的过滤条件影响:例如,用户以"coffee_2023年销量"表为基础,创建了一个聚合数据集,用于表示2023年各门店的总销量。管理员期望这个门店总销量不应随"coffee_2023年销量"表的任何过滤条件而变化。

2

新数据表需要受底层数据集的过滤条件影响:例如,当"coffee_2023年销量"和"coffee_2016年销量"上有过滤条件时,用户期望"coffee_销量"数据表能够随之变化。

衡石提供了"继承上游权限"的功能,方便数据管理员根据不同场景需求创建满足多种条件的数据表。开启了"继承上游权限",新的数据表会受底层数据过滤的影响;不开启"继承上游权限",新的数据表不会受底层数据过滤的影响。

确定明细数据表阶段

确定明细数据表时,初步过滤可以帮助我们聚焦于最相关的数据,确保后续步骤的有效性。除了数据管理员对明细数据表有初步过滤的需求外,分析员也会有类似的需求。在分析阶段,分析员在添加过滤条件时,有时希望这些过滤条件直接作用于最终结果,有时则希望它们作用于底层的数据。衡石的仪表盘过滤功能正好支持这两种需求,提供了灵活的过滤选项,以满足不同分析场景的需要。分析师在添加仪表盘过滤时,开启"外层过滤",表示过滤发生在分析结果上;关闭"外层过滤",表示过滤直接作用于底层数据集。

在数据分析的各个节点,衡石均提供了灵活的过滤功能,并在后台有效解决性能问题。数据管理员和分析师可以将这些功能组合成丰富多样的分析场景,以满足不同的业务需求。

以上为本次分享的全部内容,关注衡石,了解更多数据分析技能!

相关推荐
TDengine (老段)9 小时前
TDengine 中 TDgp 中添加机器学习模型
大数据·数据库·算法·机器学习·数据分析·时序数据库·tdengine
永洪科技17 小时前
永洪科技华西地区客户交流活动成功举办!以AI之力锚定增长确定性
大数据·人工智能·科技·数据分析·数据可视化
木木子999918 小时前
【2】专业自定义图表创建及应用方法
信息可视化·数据挖掘·数据分析
补三补四19 小时前
Shapley与SHAP
大数据·人工智能·算法·机器学习·数据分析
java1234_小锋20 小时前
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博评论数据可视化分析-用户评论词云图实现
python·信息可视化·自然语言处理
小一亿20 小时前
【0基础PS】PS工具详解--仿制图章工具
学习·平面·adobe·信息可视化·媒体·photoshop
IT北辰1 天前
用Python+MySQL实战解锁企业财务数据分析
python·mysql·数据分析
Blossom.1181 天前
基于深度学习的医学图像分析:使用YOLOv5实现医学图像目标检测
人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉·数据挖掘
我要学习别拦我~1 天前
TikTok 视频审核模型:用逻辑回归找出特殊类型的视频
机器学习·数据分析·逻辑回归
白鲸开源2 天前
从日志到告警,带你用好 SeaTunnel 的事件监听能力
大数据·数据分析·开源