Flink+Spark相关记录

Parallel23332024-09-16 14:03

Flink+Spark相关记录

FlinkSQL

Flink Streaming的一些点
覆写RichSource、RichSink、RichMap
1.Source自动负载均衡，CDC源端加入一个全局调控的节点监控流量流速
2.Sink并发写入
3.Map与Iterator与增量迭代等用法
关于Checkpoint几个用法
1.提交Commit至目的端数据库
2.UnalignedCheckpoint与ChandyLamport与ChangeLog存增量快照
3.Buffer写盘
4.ckp与record共抢一把锁，独占writeBuffer（1.16版本），ckp禁止太快
5.State写盘+broadcast+JVM+keyState+operatorState+并行度自动扩缩容时恢复

Spark记录

groupByKey
reduceByKey
combineByKey(createCombiner+mergeValue+mergeCombiner)
aggregate(n)(seqOp,combOp)
关于ByKey和Join不一定会产生shuffle，先设置好new HashPartition或Custom或Range、之后直接forward不需要shuffle
Driver产生一个DAG
1.一个DAG里的一个节点=>一个RDD
2.一个RDD=>多个分区
3.一个分区=>一个Task
===>一个DAG有多个RDD，一个RDD有多个Task
===>也就是DAG控制多个弹性数据集流转

JVM与堆外内存
JVM里的StorageMemory（读RDD用）和ExecutionMemory（shuffle/agg/join用）
关于合理设计Block->TaskPartition大小，(4G-200M)*0.5，又因为动态可以弹性，可直接3.8G
Spark设置cache和persist缓存级别（每个分区的都会cache，cache务必保证100%否则重算）
对于Flink又有一个slot(JVM)里运行多个算子，所以可以考虑slot内数据总量和资源消耗整体分析
关于Executor add后很久才执行，说明任务调度拥堵
堆外内存

上一篇：MYSQL数据库基础篇——MYSQL的安装与使用

下一篇：Unity3D 服务器AStar寻路客户端位置同步显示验证详解

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流