Flink+Spark相关记录

Flink+Spark相关记录


  • FlinkSQL

  • Flink Streaming的一些点
  • 覆写RichSource、RichSink、RichMap
    1.Source自动负载均衡,CDC源端加入一个全局调控的节点监控流量流速
    2.Sink并发写入
    3.Map与Iterator与增量迭代等用法
  • 关于Checkpoint几个用法
    1.提交Commit至目的端数据库
    2.UnalignedCheckpoint与ChandyLamport与ChangeLog存增量快照
    3.Buffer写盘
    4.ckp与record共抢一把锁,独占writeBuffer(1.16版本),ckp禁止太快
    5.State写盘+broadcast+JVM+keyState+operatorState+并行度自动扩缩容时恢复

Spark记录

  • groupByKey
  • reduceByKey
  • combineByKey(createCombiner+mergeValue+mergeCombiner)
  • aggregate(n)(seqOp,combOp)
  • 关于ByKey和Join不一定会产生shuffle,先设置好new HashPartition或Custom或Range、之后直接forward不需要shuffle
  • Driver产生一个DAG
    1.一个DAG里的一个节点=>一个RDD
    2.一个RDD=>多个分区
    3.一个分区=>一个Task
    ===>一个DAG有多个RDD,一个RDD有多个Task
    ===>也就是DAG控制多个弹性数据集流转

  • JVM与堆外内存
  • JVM里的StorageMemory(读RDD用)和ExecutionMemory(shuffle/agg/join用)
  • 关于合理设计Block->TaskPartition大小,(4G-200M)*0.5,又因为动态可以弹性,可直接3.8G
  • Spark设置cache和persist缓存级别(每个分区的都会cache,cache务必保证100%否则重算)
  • 对于Flink又有一个slot(JVM)里运行多个算子,所以可以考虑slot内数据总量和资源消耗整体分析
  • 关于Executor add后很久才执行,说明任务调度拥堵
  • 堆外内存

相关推荐
珠海西格电力2 小时前
零碳园区的能源供给成本主要包括哪些方面?
大数据·分布式·微服务·架构·能源
经济元宇宙2 小时前
摄影培训行业百科:机构选择与学习路径全解析
大数据·人工智能·学习
GJGCY3 小时前
企业AI Agent落地架构深度解析:LLM+RAG+RPA+工具调用全流程
大数据·人工智能·ai·数字化·智能体
互联网科技看点3 小时前
数智化人事管理软件系统行业分析与推荐
大数据
2601_957780844 小时前
GPT API工程化接入:从演示验证到生产部署的完整实践
大数据·人工智能·gpt·架构
WL_Aurora5 小时前
YARN资源调度器深度解析 | 架构原理、作业提交流程
大数据·hadoop·yarn
团象科技5 小时前
2026出海技术观察:云API接口迭代的能力边界与业务增量空间
大数据·人工智能
元拓数智5 小时前
AI 自动化工作流,正在重塑企业数据工程的效率边界
大数据·人工智能·ai·自动化·工作流·数据工程
xwz小王子6 小时前
机器人学习十年进化史——从强化学习到VLA的范式变迁
大数据·学习·机器人
老詹图解IT6 小时前
银河麒麟V10(Kylin V10 SP1/SP3)常见报错对照表—2026年5月版
大数据·kylin