技术栈
水位线
G皮T
9 个月前
大数据
·
数据库
·
flink
·
watermark
·
水位线
·
乱序
·
延迟
【Flink】WaterMark 实战
例如,现在我们有了一个 [12:00:00-12:00:10) 的时间窗口,现在事件如下图所示顺序 A、B、C、D、E、F … 到达。
G皮T
1 年前
大数据
·
flink
·
实时计算
·
数据流
·
watermark
·
水位线
【大数据】详解 Flink 中的 WaterMark
流处理,最本质的是在处理数据的时候,接受一条处理一条数据。批处理,则是累积数据到一定程度在处理。这是他们本质的区别。
G皮T
1 年前
大数据
·
flink
·
时间戳
·
watermark
·
水位线
·
事件时间
【大数据】Flink 中的事件时间处理
在之前的博客中,我们强调了时间语义对于流处理应用的重要性并解释了 处理时间 和 事件时间 的差异。虽然处理时间是基于处理机器的本地时间,相对容易理解,但它会产生一些较为随意、不一致且无法重现的结果。相反,事件时间语义会生成可重现且一致性的结果,这也是很多流处理用例的刚性需求。但和基于处理时间语义的应用相比,基于事件时间的应用需要一些额外的配置。此外,相比纯粹使用处理时间的引擎,支持事件时间的流处理引擎内部要更加复杂。
Stephen6Yang
1 年前
大数据
·
flink
·
水位线
·
迟到数据
Flink-水位线和时间语义
在实际应用中,事件时间语义会更为常见。一般情况下,业务日志数据中都会记录数据生成的时间戳(timestamp),它就可以作为事件时间的判断基础。 在Flink中,由于处理时间比较简单,早期版本默认的时间语义是处理时间;而考虑到事件时间在实际应用中更为广泛,从Flink1.12版本开始,Flink已经将事件时间作为默认的时间语义了。