0基础学习PyFlink——时间滑动窗口(Sliding Time Windows)

《0基础学习PyFlink------时间滚动窗口(Tumbling Time Windows)》我们介绍了不会有重复数据的时间滚动窗口。本节我们将介绍存在重复计算数据的时间滑动窗口。

关于滑动窗口,可以先看下《0基础学习PyFlink------个数滑动窗口(Sliding Count Windows)》。下图就是个数滑动窗口示意图。

我们看到个数滑动窗口也会因为窗口内数据不够而不被触发。但是时间滑动窗口则可以解决这个问题,我们只要把窗口改成时间类型即可。

相应的代码我们参考《0基础学习PyFlink------时间滚动窗口(Tumbling Time Windows)》,只要把TumblingProcessingTimeWindows改成SlidingProcessingTimeWindows,并增加一个偏移参数(Time.milliseconds(1))即可。这意味着我们将运行一个时间长度为2毫秒,每次递进1毫秒的窗口。

完整代码

python 复制代码
from typing import Iterable
import time
from pyflink.common import Types, Time
from pyflink.datastream import StreamExecutionEnvironment, RuntimeExecutionMode, WindowFunction
from pyflink.datastream.window import  TimeWindow, SlidingProcessingTimeWindows
   
class SumWindowFunction(WindowFunction[tuple, tuple, str, TimeWindow]):
    def apply(self, key: str, window: TimeWindow, inputs: Iterable[tuple]):
        print(*inputs, window)
        return [(key,  len([e for e in inputs]))]


word_count_data = [("A",2),("A",1),("A",4),("A",3),("A",6),("A",5),("A",7),("A",8),("A",9),("A",10),
                   ("A",11),("A",12),("A",13),("A",14),("A",15),("A",16),("A",17),("A",18),("A",19),("A",20)]

def word_count():
    env = StreamExecutionEnvironment.get_execution_environment()
    env.set_runtime_mode(RuntimeExecutionMode.STREAMING)
    # write all the data to one file
    env.set_parallelism(1)

    source_type_info = Types.TUPLE([Types.STRING(), Types.INT()])
    # define the source
    # mappging
    source = env.from_collection(word_count_data, source_type_info)
    # source.print()

    # keying
    keyed=source.key_by(lambda i: i[0]) 
    
    # reducing
    reduced=keyed.window(SlidingProcessingTimeWindows.of(Time.milliseconds(2), Time.milliseconds(1))) \
                    .apply(SumWindowFunction(),
                        Types.TUPLE([Types.STRING(), Types.INT()]))
        
    # # define the sink
    reduced.print()

    # submit for execution
    env.execute()

if __name__ == '__main__':
    word_count()

运行结果

运行两次上述代码,我们发现每次都不同,而且有重叠计算的元素。

('A', 2) ('A', 1) ('A', 4) TimeWindow(start=1698773292650, end=1698773292652)

('A', 2) ('A', 1) ('A', 4) ('A', 3) ('A', 6) ('A', 5) ('A', 7) ('A', 8) ('A', 9) ('A', 10) ('A', 11) TimeWindow(start=1698773292651, end=1698773292653)

(A,3)

(A,11)

('A', 3) ('A', 6) ('A', 5) ('A', 7) ('A', 8) ('A', 9) ('A', 10) ('A', 11) ('A', 12) ('A', 13) ('A', 14) ('A', 15) ('A', 16) ('A', 17) ('A', 18) ('A', 19) ('A', 20) TimeWindow(start=1698773292652, end=1698773292654)

(A,17)

('A', 2) ('A', 1) ('A', 4) TimeWindow(start=1698773319933, end=1698773319935)

('A', 2) ('A', 1) ('A', 4) ('A', 3) ('A', 6) ('A', 5) ('A', 7) ('A', 8) ('A', 9) ('A', 10) ('A', 11) ('A', 12) TimeWindow(start=1698773319934, end=1698773319936)

(A,3)

(A,12)

('A', 3) ('A', 6) ('A', 5) ('A', 7) ('A', 8) ('A', 9) ('A', 10) ('A', 11) ('A', 12) ('A', 13) ('A', 14) ('A', 15) ('A', 16) ('A', 17) ('A', 18) ('A', 19) ('A', 20) TimeWindow(start=1698773319935, end=1698773319937)

(A,17)

参考资料

相关推荐
小林ixn8 分钟前
从 List 切片到 LLM 调用:一篇搞定 Python 基础与 AI 接口
python·ai编程
得物技术14 分钟前
HorizonVault 技术深潜:如何在 HDD 上做出 100GB/s+ 级大吞吐分布式存储|得物技术
大数据·后端·kafka
sugar__salt14 分钟前
从Python列表切片到LLM接口实战:零基础AI编程落地教程
开发语言·python·ai·prompt·transformer·ai编程
乐于分享的阿乐16 分钟前
Miniconda3 超详细安装配置教程(附安装包及学习资料)
python
gis分享者25 分钟前
从原理到落地,Python 实现客户细分与销量预测
python·客户细分,销量预测,商业智能
小熊Coding42 分钟前
Python二手图书市场行为分析系统
开发语言·爬虫·python·django·计算机毕业设计·数据可视化分析·二手图书分析系统
大大大大晴天42 分钟前
拒绝状态爆炸!一文看透 Flink CEP 复杂事件处理机制
flink
AllData公司负责人1 小时前
亲测丝滑,体验跃迁|AllData通过集成开源项目Cube-Studio,降低机器学习落地门槛
java·大数据·数据库·人工智能·机器学习·开源·cube-studio
AI算法沐枫1 小时前
机器学习经典小项目4:泰坦尼克号生存预测
人工智能·python·深度学习·线性代数·算法·机器学习·回归