可以讲讲Flink的优化吗,具体以项目中某个例子举例一下?

优化的话:可以参考下面几点

  1. GC的配置
    (1)调整老年代与新生代的比值 或者 更换垃圾收集器
    (2)增加JVM内存
  2. 数据倾斜
    (1)需要重新设计key,以更小粒度的key使得task大小合理化。

(2)当分区导致数据倾斜时,需要考虑优化分区。避免非并行度操作,有些对DataStream的操作会导致无法并行,例如WindowAll。

(3)调用rebalance操作,使数据分区均匀。

(4)自定义分区:使用一个用户自定义的Partitioner对每一个元素选择目标task,由于用户对自己的数据更加熟悉,可以按照某个特征进行分区,从而优化任务执行。

  1. checkpoint

(1)频率不宜过高

(2)超时时间不要过长,一般在频率一半

(3)使用异步

4.其他配置

(1)配置JobManager内存

(2)配置TaskManager个数

(3)配置TaskManager Slot数

5.其他

(1)背压的时候大家往往忽略了数据的序列化和反序列化,过程所造成的性能问题。

(2) 一些数据结构 ,比如 HashMap 和 HashSet 这种 key 需要经过 hash 计算的数据结构,在数据量大的时候使用 keyby 进行操作, 造成的性能影响是非常大的。

(3) 如果我们的下游是 MySQL,HBase这种,我们都会进行一个批处理的操作,就是让数据存储到一个 buffer 里面,在达到某些条件的时候再进行发送,这样做的目的就是减少和外部系统的交互,降低网络开销的成本。

(4) 频繁GC ,无论是 CMS 也好,G1也好,在进行 GC 的时候,都会停止整个作业的运行,GC 时间较长还会导致 JobManager 和 TaskManager 没有办法准时发送心跳,此时 JobManager 就会认为此 TaskManager 失联,它就会另外开启一个新的 TaskManager。

  1. 场景

产生背压的时候如果定位下游计算不过来,导致上游挤压严重,这个时候想着怎么去增加并行度也好或者利用多线程也好,目的就是增加计算能力。如果多线程计算,这个时候更多关注cpu核数,来分配更多的时间片,提高计算能力。

相关推荐
QYR_1138 分钟前
防水医用无人机市场报告:现状、趋势与洞察
大数据·网络·市场研究
阿里云大数据AI技术38 分钟前
数据开发再提速!DataWorks正式接入Qwen3-Coder
大数据·人工智能·数据分析
Xxtaoaooo40 分钟前
MCP协议全景解析:从工业总线到AI智能体的连接革命
大数据·人工智能·mcp协议·mcp解析·工业mcp
jarreyer1 小时前
【语义分割】记录2:yolo系列
大数据·yolo·elasticsearch
青云交1 小时前
Java 大视界 -- Java 大数据在智能安防入侵检测系统中的多源数据融合与误报率降低策略(369)
java·大数据·入侵检测·智能安防·多源数据融合·误报率降低·视频语义理解
程思扬2 小时前
无界设计新生态:Penpot开源平台与cpolar的云端协同创新实践
大数据·linux·服务器·前端·经验分享·ubuntu·开源
武子康2 小时前
大数据-54 Kafka 安装配置 从 ZooKeeper 到 KRaft 的演进之路
大数据·后端·kafka
爱埋珊瑚海~~2 小时前
开源AI智能体-JoyAgent集成Deepseek
大数据·人工智能·ai智能体
CCF_NOI.6 小时前
谷歌浏览器深入用法全解析:解锁高效网络之旅
大数据·运维·服务器·前端·计算机·谷歌
练习两年半的工程师9 小时前
金融科技中的跨境支付、Open API、数字产品服务开发、变革管理
大数据·科技·金融