Flink中关于checkpoint、重启策略、状态、维表join总结

(1)state状态是指可以存储计算的历史数据;

(2)像我们比较常用的状态有valueState、ListState、MapState

定义:像checkPoint检查点在很多技术栈中都用到过,其实它们的原理都是差不多的;

比如spark中的checkPoint检查点就是将rdd存储在像hdfs这种的存储系统中,防止persist缓存丢失,需要重新构建RDD;

而flink中的checkPoint检查点就相当于虚拟机的快照,可以在系统出现问题等情况时,恢复内存中的计算结果;

如何设置:可以直接在代码中设置enableCheckPoint每隔多长时间自动保存一次快照,也可以通过在命令中手动设置sava Point。

(1)重启策略就是当数据出现异常时,系统会通过重启从而保证后续程序的正常运行,防止数据丢失;

(2)重启策略可以通过设置checkPoint实现系统自动且无限循环式重启,也可以通过手动设置实现指定次数的重启。

4、什么是维表 join,如何实现

定义:维表join就是将进入flink的数据与一些外部存储设备上的数据(维表)进行关联;

实现方法:

(1)可以通过预加热维表的方式实现,就是把维表数据加载到内存中,然后与流中数据进行join,这种方式虽然实现起来简单,但是由于其数据是存储在内存中的,所以值适合小数据量和表中数据更新频率不高的情况;

(2)也可以通过热存储维表的方式实现,就是将一部分经常访问的维表数据存储在cache缓存中,从而减轻访问压力;

5、flinksql 如何读取 kafka 或者 mysql 的数据。

在读取kafka或者mysql中的数据之前需要先配置相关依赖,然后通过一些参数设置创建执行环境以及表环境,从而实现数据的读取以及各种查询操作。

相关推荐
IT研究室42 分钟前
大数据毕业设计选题推荐-基于大数据的人类健康生活方式数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata
大数据·生活·课程设计
Hello.Reader1 小时前
Flink 状态模式演进(State Schema Evolution)从原理到落地的一站式指南
python·flink·状态模式
武子康2 小时前
大数据-122 - Flink Watermark 全面解析:事件时间窗口、乱序处理与迟到数据完整指南
大数据·后端·flink
九河云3 小时前
在云计算环境中实施有效的数据安全策略
大数据·网络·数据库·云计算
Brianna Home4 小时前
从“码农”到“导演”:AI结对编程如何重塑软件工程范式
大数据·人工智能·深度学习·自然语言处理·chatgpt
云飞云共享云桌面4 小时前
SolidWorks服务器多人使用方案
大数据·运维·服务器·前端·网络·电脑·制造
码上地球4 小时前
大数据成矿预测系列(四) | 成矿预测的“主力军”:随机森林与支持向量机深度解析
大数据·随机森林·支持向量机
电商软件开发 小银6 小时前
八年磨一剑:中品维度如何用“分布式电商”为商家打开增长新通路?
大数据·软件开发·私域运营·实体店转型·中品维度·数字化经济·商业模式设计
武汉唯众智创6 小时前
产教融合背景下,高职大数据技术专业“课证融通”课程解决方案
大数据·课证赛创·课证融通·大数据专业·大数据技术专业·高职大数据技术专业
小小王app小程序开发8 小时前
任务悬赏小程序深度细分分析:非技术视角下的运营逻辑拆解
大数据·小程序