Flink中常见问题总结

1、什么是侧道输出流,有什么用途

测到输出流就是将一个流中的数据按照指定规则进行分流处理;

作用:一方面可以分流,另一方面就是可以通过侧输出机制将严重迟到的数据单独放入一个datastream中供后续处理

(1)flink中有两种方式可以将两个流合并为流,分别是union和connect;

(2)两者的区别在于union只能合并同种类型的流,而connect可以和并不同类型的流,且两个流之间相互独立,流中的数据也用的是不同的处理逻辑。

(1)两个流jion的方式分为三种:join、coGroup、intervalJoin;

(2)他们的区别在于:

join只能实现内连接的效果;

coGroup比join更加灵活,它可以按照指定的逻辑实现内连接、左连接、右连接,但与join都是基于窗口的;

intervalJoin跟窗口无关,但必须先分组,可以实现点对线的连接,是一个流上某一时刻的数据与另一个流上某一段范围数据的join。

(1)有countWindow、timeWindow、会话窗口;

(2)滑动窗口就是每过多长时间就统计比这个时间长的时间段的数据;滚动窗口是指每过多长时间就统计多长时间的数据。

(1)有eventTime(事件(数据)时间)、IgestionTime(摄入时间)、Processing Time(处理时间);

(2)当数据出现短期迟到时,可以通过设置水印(watermark)延迟窗口关闭的时间,当使用event Time时就必须使用watermask,当数据出现较严重迟到时,可以设置allowedLateness在水印基础上再次延迟窗口关闭的时间,当数据出现严重迟到时,可以将数据通过侧道输出机制单独放入一个dataStream中供后续处理。

相关推荐
辰宇信息咨询2 小时前
3D自动光学检测(AOI)市场调研报告-发展趋势、机遇及竞争分析
大数据·数据分析
珠海西格3 小时前
“主动预防” vs “事后补救”:分布式光伏防逆流技术的代际革命,西格电力给出标准答案
大数据·运维·服务器·分布式·云计算·能源
创客匠人老蒋4 小时前
从数据库到智能体:教育企业如何构建自己的“数字大脑”?
大数据·人工智能·创客匠人
2501_948120154 小时前
基于大数据的泄漏仪设备监控系统
大数据
Spey_Events5 小时前
星箭聚力启盛会,2026第二届商业航天产业发展大会暨商业航天展即将开幕!
大数据·人工智能
AC赳赳老秦5 小时前
专利附图说明:DeepSeek生成的专业技术描述与权利要求书细化
大数据·人工智能·kafka·区块链·数据库开发·数据库架构·deepseek
GeeLark6 小时前
#请输入你的标签内容
大数据·人工智能·自动化
智能相对论6 小时前
2万台?九识无人车车队规模靠谱吗?
大数据
小小王app小程序开发7 小时前
淘宝扭蛋机小程序核心玩法拆解与技术运营分析
大数据·小程序
得物技术8 小时前
从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践
大数据·数据仓库