Flink SQL -- CheckPoint

1、开启CheckPoint

checkpoint可以定时将flink任务的状态持久化到hdfs中,任务执行失败重启可以保证中间结果不丢失

sql 复制代码
# 修改flink配置文件
vim flink-conf.yaml

# checkppint 间隔时间
execution.checkpointing.interval: 1min
# 任务手动取消时保存checkpoint
execution.checkpointing.externalized-checkpoint-retention: RETAIN_ON_CANCELLATION
# 同时允许1个checkpoint执行
execution.checkpointing.max-concurrent-checkpoints: 1
execution.checkpointing.min-pause: 0
# 数据处理的语义
execution.checkpointing.mode: EXACTLY_ONCE
# checkpoint超时时间
execution.checkpointing.timeout: 10min
execution.checkpointing.tolerable-failed-checkpoints: 0
execution.checkpointing.unaligned: false
# 状态后端(保存状态的位置,hashmap:内存)
state.backend: hashmap
# checkpoint路径
state.checkpoints.dir: hdfs://master:9000/flink/checkpoint
2、编写一个Flnik SQL 脚本:
sql 复制代码
vim word_count.sql
sql 复制代码
-- 实时从kafka中读取单词,统计单词的数量,将结果保存到mysql中

-- 1、创建source表
CREATE TABLE words (
    word STRING
) WITH (
  'connector' = 'kafka',
  'topic' = 'words', -- 数据的topic
  'properties.bootstrap.servers' = 'master:9092,node1:9092,node2:9092', -- broker 列表
  'properties.group.id' = 'testGroup', -- 消费者组
  'scan.startup.mode' = 'earliest-offset', -- 读取数据的位置earliest-offset latest-offset
  'format' = 'csv' -- 读取数据的格式
);

-- 2、创建sink表
CREATE TABLE word_count (
    word STRING,
    num BIGINT,
    PRIMARY KEY (word) NOT ENFORCED -- 主键
) WITH (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://master:3306/student',
    'table-name' = 'word_count', -- 需要手动到mysql中创建表
    'username' ='root',
    'password' ='123456'
);

-- 3、编写sql处理数据将结果保存到sink表中
insert into word_count
select 
word,
count(1) as num
from
words
group by word;
3、使用sq-client.sh -f 启动脚本
sql 复制代码
sql-client.sh -f word_count.sql
4、当任务失败的时候再重新启动任务:
sql 复制代码
-- 1、获取checkpoint的路径
/file/checkpoint/47ee348d8c9edadadfc770cf7de8e7ee/chk-23

-- 2、再sql脚本中增加参数,增加到sql脚本的insert into 的前面
-- 指定任务会的checkpoint的地址
SET'execution.savepoint.path'='hdfs://master:9000/file/checkpoint/47ee348d8c9edadadfc770cf7de8e7ee/chk-23';

-- 3、启动sql任务
sql-client.sh -f word_count.sql
相关推荐
AORO_BEIDOU16 分钟前
抢抓5G机遇,AORO A23防爆手机如何直击园区巡检挑战?
大数据·5g·智能手机·信息与通信
Shaidou_Data17 分钟前
信息技术引领未来:大数据治理的实践与挑战
大数据·人工智能·数据清洗·信息技术·数据治理技术
Elastic 中国社区官方博客18 分钟前
开始使用 Elastic AI Assistant 进行可观察性和 Microsoft Azure OpenAI
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
青云交30 分钟前
大数据新视界 -- 大数据大厂之 Impala 性能优化:新技术融合的无限可能(下)(12/30)
大数据·性能优化·impala·技术创新·新技术融合·电商案例·跨行业应用
weixin_4426434232 分钟前
FileLink跨网文件安全摆渡系统——企业数据流转的安全桥梁
大数据·网络·安全·filelink文件摆渡系统
OBOO鸥柏2 小时前
OBOO鸥柏“触摸屏广告一体机交互”亮相2024中国珠海航展
大数据·人工智能·科技·交互
我是琦琦琦琦2 小时前
flink 同步oracle11g数据表到pg库
大数据·postgresql·oracle·flink
myheartgo-on3 小时前
PySpark——Python与大数据
大数据·python·信息可视化
Mephisto.java3 小时前
【大数据学习 | flume】flume的概述与组件的介绍
大数据·学习·flume
鸿乃江边鸟4 小时前
Flink CDC 源码解析--整体流程
flink·cdc