流式处理,为什么Flink比Spark Streaming好?

1 、反压机制
Flink 在数据传输过程中使用了分布式阻塞队列,一个阻塞队列中,当队列满了以后发送者会被天然阻塞住,这种阻塞功能相当于给这个阻塞队列提供了反压的能力。
Spark Streaming 为了实现反压这个功能,在原来的架构基础上构造了一个 " 速率控制器 " ,这个 " 速率控制器" 会根据几个属性,如任务的结束时间、处理时长、处理消息的条数等计算一个速率。在实现控制数据的接收速率中用到了一个经典的算法,即"PID 算法 " 。
2 、延迟方面
Spark Streaming 是秒级别的
Structured Streaming 是毫秒级别的
Flink 是亚秒级别的
3 、状态存储方面
Spark 的状态管理目前做的比较简单 , 只有两个对应的算子( UpdateStateByKey 和 mapWithState )。
Flink 提供文件、内存、 RocksDB 三种状态存储,五种类型的状态,( ValueState , ListState ,
ReducingState , AggregatingState , FoldingState , MapState )。
4 、灵活的窗口
Spark 只能根据处理时间窗口批量处理。
Flink 可以基于处理时间,数据时间,没有记录等的窗口。
5 、实时方面
Flink 是真正的实时计算,在状态数据和 Checkpoint 容错上做的比较好,能够做到 exactly once 。

相关推荐
TracyCoder12339 分钟前
ElasticSearch内存管理与操作系统(一):内存分配底层原理
大数据·elasticsearch·搜索引擎
cd_949217212 小时前
九昆仑低碳科技:所罗门群岛全国森林碳汇项目开发合作白皮书
大数据·人工智能·科技
Acrelhuang2 小时前
工商业用电成本高?安科瑞液冷储能一体机一站式解供能难题-安科瑞黄安南
大数据·开发语言·人工智能·物联网·安全
小王毕业啦2 小时前
2010-2024年 非常规高技能劳动力(+文献)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
言無咎2 小时前
从规则引擎到任务规划:AI Agent 重构跨境财税复杂账务处理体系
大数据·人工智能·python·重构
张小凡vip2 小时前
数据挖掘(十)---python操作Spark常用命令
python·数据挖掘·spark
uesowys3 小时前
Apache Spark算法开发指导-Decision tree classifier
算法·决策树·spark
私域合规研究3 小时前
【AI应用】AI与大数据融合:中国品牌出海获客的下一代核心引擎
大数据·海外获客
TDengine (老段)3 小时前
金融风控系统中的实时数据库技术实践
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
MMME~4 小时前
Ansible模块速查指南:高效定位与实战技巧
大数据·运维·数据库