Flink+Spark相关记录

Flink+Spark相关记录


  • FlinkSQL

  • Flink Streaming的一些点
  • 覆写RichSource、RichSink、RichMap
    1.Source自动负载均衡,CDC源端加入一个全局调控的节点监控流量流速
    2.Sink并发写入
    3.Map与Iterator与增量迭代等用法
  • 关于Checkpoint几个用法
    1.提交Commit至目的端数据库
    2.UnalignedCheckpoint与ChandyLamport与ChangeLog存增量快照
    3.Buffer写盘
    4.ckp与record共抢一把锁,独占writeBuffer(1.16版本),ckp禁止太快
    5.State写盘+broadcast+JVM+keyState+operatorState+并行度自动扩缩容时恢复

Spark记录

  • groupByKey
  • reduceByKey
  • combineByKey(createCombiner+mergeValue+mergeCombiner)
  • aggregate(n)(seqOp,combOp)
  • 关于ByKey和Join不一定会产生shuffle,先设置好new HashPartition或Custom或Range、之后直接forward不需要shuffle
  • Driver产生一个DAG
    1.一个DAG里的一个节点=>一个RDD
    2.一个RDD=>多个分区
    3.一个分区=>一个Task
    ===>一个DAG有多个RDD,一个RDD有多个Task
    ===>也就是DAG控制多个弹性数据集流转

  • JVM与堆外内存
  • JVM里的StorageMemory(读RDD用)和ExecutionMemory(shuffle/agg/join用)
  • 关于合理设计Block->TaskPartition大小,(4G-200M)*0.5,又因为动态可以弹性,可直接3.8G
  • Spark设置cache和persist缓存级别(每个分区的都会cache,cache务必保证100%否则重算)
  • 对于Flink又有一个slot(JVM)里运行多个算子,所以可以考虑slot内数据总量和资源消耗整体分析
  • 关于Executor add后很久才执行,说明任务调度拥堵
  • 堆外内存

相关推荐
智能化咨询1 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
陈老老老板5 小时前
Bright Data Web Scraper 实战:构建 eBay Web Scraping 自动化 Skill(2026)
大数据·人工智能·自动化
李可以量化5 小时前
【2026 量化工具选型】通达信 TdxQuant vs 迅投 QMT/miniQMT 深度对比:新手该怎么选?
大数据·人工智能·区块链·通达信·qmt·量化 qmt ptrade
互联科技报5 小时前
零售数字化:高准确率客流分析系统优质推荐
大数据·人工智能
张艾拉 Fun AI Everyday6 小时前
苹果的 AI 战略到底是什么?
大数据·人工智能
黎阳之光6 小时前
去标签化无感定位技术突破,黎阳之光重构空间定位技术路径
大数据·人工智能·算法·安全·数字孪生
天辛大师6 小时前
江南居士林:天辛大师浅谈如何用AI分辨明前茶还是雨前茶
大数据·人工智能·决策树·随机森林·启发式算法
隐于花海,等待花开7 小时前
数据开发常问的技术性问题及解答
大数据·hive
数据中心的那点事儿7 小时前
从设计到运营全链破局 恒华智算专场解锁产业升级密码
大数据·人工智能
天辛大师8 小时前
山东居士林:天辛大师用AI+预测城市田园农场运营调配
大数据·人工智能·随机森林·机器人·启发式算法