Flink+Spark相关记录

Flink+Spark相关记录


  • FlinkSQL

  • Flink Streaming的一些点
  • 覆写RichSource、RichSink、RichMap
    1.Source自动负载均衡,CDC源端加入一个全局调控的节点监控流量流速
    2.Sink并发写入
    3.Map与Iterator与增量迭代等用法
  • 关于Checkpoint几个用法
    1.提交Commit至目的端数据库
    2.UnalignedCheckpoint与ChandyLamport与ChangeLog存增量快照
    3.Buffer写盘
    4.ckp与record共抢一把锁,独占writeBuffer(1.16版本),ckp禁止太快
    5.State写盘+broadcast+JVM+keyState+operatorState+并行度自动扩缩容时恢复

Spark记录

  • groupByKey
  • reduceByKey
  • combineByKey(createCombiner+mergeValue+mergeCombiner)
  • aggregate(n)(seqOp,combOp)
  • 关于ByKey和Join不一定会产生shuffle,先设置好new HashPartition或Custom或Range、之后直接forward不需要shuffle
  • Driver产生一个DAG
    1.一个DAG里的一个节点=>一个RDD
    2.一个RDD=>多个分区
    3.一个分区=>一个Task
    ===>一个DAG有多个RDD,一个RDD有多个Task
    ===>也就是DAG控制多个弹性数据集流转

  • JVM与堆外内存
  • JVM里的StorageMemory(读RDD用)和ExecutionMemory(shuffle/agg/join用)
  • 关于合理设计Block->TaskPartition大小,(4G-200M)*0.5,又因为动态可以弹性,可直接3.8G
  • Spark设置cache和persist缓存级别(每个分区的都会cache,cache务必保证100%否则重算)
  • 对于Flink又有一个slot(JVM)里运行多个算子,所以可以考虑slot内数据总量和资源消耗整体分析
  • 关于Executor add后很久才执行,说明任务调度拥堵
  • 堆外内存

相关推荐
DolphinScheduler社区13 分钟前
大数据调度组件之Apache DolphinScheduler
大数据
SelectDB技术团队13 分钟前
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
大数据·数据库·数据仓库·数据分析·doris
panpantt3211 小时前
【参会邀请】第二届大数据与数据挖掘国际会议(BDDM 2024)邀您相聚江城!
大数据·人工智能·数据挖掘
青云交1 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:跨数据中心环境下的挑战与对策(上)(27 / 30)
大数据·性能优化·impala·案例分析·代码示例·跨数据中心·挑战对策
soso19682 小时前
DataWorks快速入门
大数据·数据仓库·信息可视化
The_Ticker2 小时前
CFD平台如何接入实时行情源
java·大数据·数据库·人工智能·算法·区块链·软件工程
java1234_小锋2 小时前
Elasticsearch中的节点(比如共20个),其中的10个选了一个master,另外10个选了另一个master,怎么办?
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客2 小时前
Elasticsearch 开放推理 API 增加了对 IBM watsonx.ai Slate 嵌入模型的支持
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
我的运维人生2 小时前
Elasticsearch实战应用:构建高效搜索与分析平台
大数据·elasticsearch·jenkins·运维开发·技术共享
大数据编程之光2 小时前
Flink Standalone集群模式安装部署全攻略
java·大数据·开发语言·面试·flink