flink的网络缓冲区

背景

在flink的taskmanager进行数据交互的过程中,网络缓冲区是一个可以提升网络交换速度的设计,此外,flink还通过网络缓冲区实现其基于信用值credit的流量控制,以便尽可能的处理数据倾斜问题

网络缓冲区

在flink中每个taskmanager都有两种类型的网络缓冲区,一个是发送网络缓冲区,一个是接收网络缓冲区,他们的大小都是32K,以下是示意图

我们在调优flink时,可以通过大概估算应用有多少个网络缓冲区,并且根据总的内存大小适当的调大或者调低每个网络缓冲区的大小以达到最佳性能。

顺便说一下: flink中基于信用值的流量控制是接收方根据每个发送方的消息堆积量来分配不同的流量信用值给发送方,比如给堆积比较多的发送方更多的信用值,以便它可以发送给接收方更多的数据,而对于堆积比较少的发送方,只提供给他们较低的信用值,这样就可以尽量的解决数据倾斜的问题了

相关推荐
武子康5 小时前
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS
大数据·后端·apache hive
SelectDB1 天前
易车 × Apache Doris:构建湖仓一体新架构,加速 AI 业务融合实践
大数据·agent·mcp
武子康1 天前
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)
大数据·后端·mysql
IvanCodes1 天前
一、消息队列理论基础与Kafka架构价值解析
大数据·后端·kafka
武子康2 天前
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
大数据·后端·apache hive
字节跳动数据平台3 天前
5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
武子康3 天前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive
字节跳动数据平台4 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术4 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
大大大大晴天4 天前
Flink生产问题排障-HBase NotServingRegionException
flink·hbase