技术栈
流式计算
linweidong
1 个月前
大数据
·
flink
·
checkpoint
·
流式计算
·
数仓
·
自定义source
·
数据分片
Flink 自定义数据源:从理论到实践的全方位指南
在 Flink 的世界里,数据源是数据流的 “源头活水”。简单来说,它负责从外部系统(比如数据库、消息队列、文件系统等)读取数据,并将其转化为 Flink 内部能够处理的格式,供后续的算子(Operator)加工。不管是实时流处理的无界数据,还是批处理的有限数据集,数据源都是那个默默干活的 “搬运工”。
爱做梦的鱼
2 年前
大数据
·
flink
·
spark
·
流式计算
1. Flink简述
Spark 的数据模型是 RDD,很多时候 RDD 可以实现为分布式共享内存或者完全虚拟化(即有的中间结果 RDD 当下游处理完全在本地时可以直接优化省略掉)。这样可以省掉很多不必要的 I/O。
阿年、嗯啊
2 年前
大数据
·
flink
·
流式计算
·
窗口
·
滚动窗口
·
滑动窗口
·
会话窗口
Flink窗口分类简介及示例代码
水善利万物而不争,处众人之所恶,故几于道💦Flink作为一个流式处理引擎,被设计用来处理无限数据集,理论上来说,无限数据集是一种不断产生,源源不断的数据集,说白了就是你不知道这个数据流它啥时候结束,这就是无限数据集。
qq_23204557
2 年前
大数据
·
流式计算
思格新能源面试(部分)
面试官聊到他们是做储能的,是从华为数字能源独立出来的。他们主要缺算法的人。他们调用了ChatGPT的接口,但一是比较慢,二是回答质量不太满意。