FlinkSQL窗口函数TUMBLE、SESSION 和 HOP的区别

目录

[TUMBLE 滚动窗口(Tumbling Window)](#TUMBLE 滚动窗口(Tumbling Window))

[SESSION 会话窗口(Session Window)](#SESSION 会话窗口(Session Window))

[HOP 滑动窗口(Hopping Window)](#HOP 滑动窗口(Hopping Window))

小结

[HOP 窗口为什么不需要rowtime(事件时间)](#HOP 窗口为什么不需要rowtime(事件时间))

[PROCTIME() vs row_time](#PROCTIME() vs row_time)

[为什么 HOP 窗口常用 PROCTIME()?](#为什么 HOP 窗口常用 PROCTIME()?)

总结

TUMBLE、SESSION可以使用处理时间嘛

[TUMBLE 窗口(滚动窗口)](#TUMBLE 窗口(滚动窗口))

[SESSION 窗口(会话窗口)](#SESSION 窗口(会话窗口))

总结


TUMBLESESSIONHOP。它们各自的窗口行为和使用场景有所不同

TUMBLE 滚动窗口(Tumbling Window)

滚动窗口是一种固定大小、不重叠的窗口。每个事件只属于一个窗口。

在这个查询中,TUMBLE 窗口定义了一个10秒的固定窗口,每个窗口从row_time的每10秒开始计算。例如,窗口将从00:00:0000:00:10,然后从00:00:1000:00:20,依此类推

SESSION 会话窗口(Session Window)

会话窗口根据不活动时间(gap)来定义窗口。事件之间的时间间隔超过指定的gap时,将生成一个新的窗口。

在这个查询中,SESSION 窗口定义了一个会话窗口,gap为10秒。这意味着,如果两个事件之间的时间间隔超过10秒,将创建一个新的会话窗口。

HOP 滑动窗口(Hopping Window)

滑动窗口是一种固定大小且可以重叠的窗口。每个事件可以属于多个窗口。

在这个查询中,HOP 窗口定义了一个10秒的窗口,每5秒滑动一次。这意味着每个窗口大小为10秒,并且每5秒开始一个新的窗口。由于窗口重叠,每个事件可能会属于多个窗口。

小结

  1. TUMBLE 窗口:固定大小的窗口,事件只属于一个窗口。
  2. SESSION 窗口:基于不活动时间间隔(gap)的窗口,适合不规则的事件流。
  3. HOP 窗口:固定大小且可以重叠的窗口,事件可以属于多个窗口。

选择哪种窗口取决于你的应用场景和需求。例如,如果你需要固定时间间隔的统计,可以选择 TUMBLE 窗口;如果你需要处理不规则事件流,可以选择 SESSION 窗口;如果你需要频繁的时间间隔统计,可以选择 HOP 窗口

HOP 窗口为什么不需要rowtime(事件时间)

在Flink SQL中使用 HOP 滑动窗口时,HOP 函数的时间字段通常使用的是 PROCTIME(),而不是 row_time。下面是原因和详细解释:

PROCTIME() vs row_time

  • PROCTIME(): 代表处理时间(Processing Time),即事件被处理的时间。处理时间是Flink系统的本地时间,适用于实时性要求高的应用或当事件时间不重要时使用。

  • row_time: 代表事件时间(Event Time),即事件产生的实际时间。事件时间是从数据流中提取的时间戳,适用于需要基于事件实际时间进行处理的应用。

为什么 HOP 窗口常用 PROCTIME()

  • 滑动窗口的特性 : HOP 窗口通常用于需要在时间上重叠的统计,例如每隔5秒计算10秒窗口内的统计量。使用 PROCTIME() 可以让你基于系统时间来滑动窗口,适用于需要实时处理的场景。

  • 实时数据处理 : 在很多实时数据处理应用中,系统时间(PROCTIME())足以满足需求。使用 PROCTIME() 可以避免因为事件时间的延迟或乱序引入复杂性。

  • 简化使用 : 对于简单的实时分析或流处理任务,使用 PROCTIME() 可以简化窗口操作,因为不需要处理复杂的事件时间问题,如乱序、延迟等

总结

  • 使用 PROCTIME() 时,HOP 窗口基于系统时间滑动,适合实时数据处理。
  • 使用 row_time 时,HOP 窗口可以基于事件时间滑动,适合需要处理事件时间的场景。

选择哪个时间字段取决于你的业务需求和数据特性。如果实时性和简洁性更重要,PROCTIME() 是一个很好的选择;如果事件时间更重要,则使用 row_time

TUMBLE、SESSION可以使用处理时间嘛

在Flink SQL中,TUMBLESESSION 窗口通常用于事件时间,但它们也可以使用处理时间。如果你选择使用处理时间,Flink提供了 PROCTIME() 函数来获取系统当前时间

TUMBLE 窗口(滚动窗口)

使用处理时间的示例

在这个例子中,PROCTIME() 返回处理时间,窗口从每10秒的处理时间开始计算。每个事件会按照处理时间被划分到相应的窗口中。

SESSION 窗口(会话窗口)

使用处理时间的示例

在这个例子中,PROCTIME() 返回处理时间。会话窗口会基于处理时间中的不活动间隔(gap)进行划分,每当两个事件之间的处理时间间隔超过10秒,就会创建一个新的会话窗口

总结

  • TUMBLE 窗口:可以使用事件时间或处理时间。使用处理时间时,每个事件根据系统当前时间划分到固定大小的窗口中。
  • SESSION 窗口:也可以使用事件时间或处理时间。使用处理时间时,会话窗口基于事件的处理时间间隔来定义窗口。

选择使用事件时间还是处理时间取决于你的业务需求。如果事件的实际发生时间重要(例如,日志数据或用户活动数据),通常使用事件时间;如果系统时间和实时性更为关键(例如,实时监控数据),则可以使用处理时间

相关推荐
大大大大晴天1 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术1 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB2 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
掉头发的王富贵2 天前
【StarRocks】极限十分钟入门StarRocks
数据库·sql·mysql
tonyabasy3 天前
Flink 实时数仓开发实战:SQL中也能做到资源精细化管理
flink
大大大大晴天3 天前
浅聊Flink实时关联计算的不适用场景
flink
大大大大晴天4 天前
深入解析 Flink Kafka Connector:原理、配置与最佳实践
flink
大大大大晴天5 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB6 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI6 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop