对比Flink、Storm、Spark Streaming 的反压机制

分析&回答

Flink 如何处理反压?

Storm 反压机制

Storm反压机制

Storm 在每一个 Bolt 都会有一个监测反压的线程(Backpressure Thread),这个线程一但检测到 Bolt 里的接收队列(recv queue)出现了严重阻塞就会把这个情况写到 ZooKeeper 里,ZooKeeper 会一直被 Spout 监听,监听到有反压的情况就会停止发送。因此,通过这样的方式匹配上下游的发送接收速率。

Storm 提供的最基本的处理 stream 的原语是 spout 和 bolt。

spout 是流的源头。 通常 spout 从外部数据源(队列、数据库等)读取数据,然后封装成Tuple形式,之后发送到Stream中。

bolt 处理输入的Stream,并产生新的输出Stream。bolt 可以执行Filter、Map、Join等操作。bolt 是一个被动的 角色,其接口中有一个execute(Tuple input)方法,在接收到消息之后会调用此函数,用户可以在此方法中执行自己的处理逻辑。

Spark Streaming 反压机制

Spark streaming反压机制

组件 RateController 监听负责监听"OnBatchCompleted"事件,然后从中抽取processingDelay 及schedulingDelay信息。RateEstimator 依据这些信息估算出最大处理速度(rate),最后由基于Receiver的Input Stream 将 rate 转发给 Executor 的 BlockGenerator,并更新RateLimiter

对比Flink、Storm、Spark Streaming 的反压机制

Flink、Storm、Spark Streaming 的反压机制都采用动态反馈/自动反压原理,可以动态反映节点限流情况,进而实现自动的动态反压。

Flink、Storm、Spark Streaming 反压机制的区别

Flink 是天然的流处理引擎,数据传输的过程相当于提供了反压,类似管道里的水(下游流动慢自然导致下游也慢),所以不需要一种特殊的机制来处理反压。

Storm 利用 Zookeeper 组件和流量监控的线程实现反压机制 ,其中存在的问题有实现复杂、bolt 接收队列暴涨导致OOM、反压慢

Spark Streaming 是微批处理,可以根据前一批次数据的处理情况,动态、自动的调整后续数据的摄入量 ,其中存在的问题有实现复杂、时效性较差。

喵呜面试助手:一站式解决面试问题,你可以搜索微信小程序 喵呜面试助手 或关注 喵呜刷题 -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

相关推荐
数据仓库_晨曦5 小时前
【无标题】
大数据·sql·spark
元让_vincent6 小时前
Spark 2.0:面向 Web 的 3DGS 可视化与大场景渲染平台详解
前端·3d·spark·渲染·轻量化·3dgs·lod
penngo9 小时前
FlowLoom:基于 Apache Spark 的可视化数据处理平台
大数据·spark·apache
大大大大晴天10 小时前
告别 Lambda 架构!Flink 批流一体底层原理解析
flink
极光代码工作室11 小时前
基于Spark的电商用户点击流分析系统
大数据·python·数据分析·spark·数据可视化
大大大大晴天️12 小时前
告别 Lambda 架构!Flink 批流一体底层原理解析
大数据·flink
无关868812 小时前
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程
大数据·hive·spark
Apache StreamPark1 天前
Flink生产环境实战:从Demo到稳定运行的破局之道
ai·flink
大帅点兵1 天前
设计一个金融交易监控系统
大数据·clickhouse·flink·spark·kafka·hbase
阿坤带你走近大数据1 天前
Flink基本原理与调优经验的总体介绍
大数据·flink