技术栈
flink
念陌曦
1 天前
大数据
·
flink
Flink总结
# 一、Flink 核心概念综述 # 二、Flink 开发环境搭建 # 三、Flink Data Source # 四、Flink Data Transformation # 五、Flink Data Sink # 六、Flink 窗口模型 # 七、Flink 状态管理与检查点机制 # 八、Flink Standalone 集群部署
岁岁种桃花儿
3 天前
大数据
·
flink
·
kafka
Flink从入门到上天系列第二十五篇:Flink和Kafka连接时的精准一次性
在流处理的应用中,最佳的数据源当然就是可重置偏移量的消息队列了;它不仅可以提供数据重放的功能,而且天生就是以流的方式存储和处理数据的。所以作为大数据工具中消息队列的代表,Kafka可以说与Flink是天作之合,实际项目中也经常会看到以Kafka作为数据源和写入的外部系统的应用。在本小节中,我们就来具体讨论一下Flink和Kafka连接时,怎样保证端到端的exactly-once状态一致性。
岁岁种桃花儿
4 天前
大数据
·
flink
Flink从入门到上天系列第二十四篇:Flink中的保存点
除了检查点外,Flink还提供了另一个非常独特的镜像保存功能——保存点(savepoint)。从名称就可以看出,这也是一个存盘的备份,它的原理和算法与检查点完全相同,只是多了一些额外的元数据。
yumgpkpm
4 天前
人工智能
·
hadoop
·
elasticsearch
·
flink
·
kafka
·
企业微信
·
big data
华为昇腾910B 开源软件GPUStack的介绍(Cloudera CDH、CDP)
开源软件GPUStack的介绍GPUStack 是一个开源的、轻量级的大模型(LLM)推理与管理平台。它的核心目标是让用户能够极其简单地在本地服务器、边缘设备或集群上部署、管理和运行各种开源大语言模型(如 Llama 3, Qwen, DeepSeek 等),并提供统一的 API 接口供应用调用。
岁岁种桃花儿
5 天前
大数据
·
ui
·
flink
Flink从入门到上天系列第二十二篇:Flink中通过UI查看检查点
chk文件一会更新一次,一会更新一次,这个就是检查点的备份。
D愿你归来仍是少年
5 天前
大数据
·
flink
·
apache
Apache Flink 算子(Operator)深度解析
在 Apache Flink 中,算子(Operator) 是流处理程序的基本计算单元,负责对数据流执行转换、聚合、过滤、连接等操作。每个算子接收上游数据流,经过业务逻辑处理后输出新的数据流。
岁岁种桃花儿
5 天前
大数据
·
flink
Flink从入门到上天系列第二十一篇:Flink当中的检查点配置
Flink的配置文件当中有检查点的配置,还有另外一中是在代码里边配置。默认情况下,Flink程序是禁用检查点的。如果想要为Flink应用开启自动保存快照的功能,需要在代码中显式地调用执行环境的.enableCheckpointing()方法:
岁岁种桃花儿
5 天前
大数据
·
flink
Flink从入门到上天系列第二十三篇:Flink中增量检查点和最终检查点
在 1.15 之前,只有RocksDB 支持增量快照。不同于产生一个包含所有数据的全量备份,增量快照中只包含自上一次快照完成之后被修改的记录,因此可以显著减少快照完成的耗时。
yumgpkpm
5 天前
flink
·
spark
·
apache
Apache Spark 和 Flink,处理实时大数据流对比(Cloudera CDH、CDP)
Apache Spark 和 Flink,处理实时大数据流哪个更优?通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南
岁岁种桃花儿
5 天前
大数据
·
flink
Flink从入门到上天系列第二十篇:Flink当中的Barrier算法
备份的时候,为什么必须要Barrier,保障每个算子状态是将一条数据完整处理完毕的。在Flink中,采用了基于Chandy-Lamport算法的分布式快照,可以在不暂停整体流处理的前提下,将状态备份保存到检查点。
岁岁种桃花儿
6 天前
大数据
·
flink
Flink从入门到上天系列第十九篇:Flink当中的容错机制
在流处理中,我们可以用存档读档的思路,就是将之前某个时间点所有的状态保存下来,这份 “存档” 就是我们所谓的 “检查点”(checkpoint)。
D愿你归来仍是少年
6 天前
flink
·
spark
·
apache
Apache Spark Real-Time Mode 深度解析:打破微批次壁垒,挑战 Flink 的实时王座
长久以来,流处理领域存在一个经典的"鱼和熊掌"难题:工程团队不得不为同一条数据管道维护两套完全不同的引擎——用 Spark 跑批量 ETL,用 Flink 做毫秒级响应。这不仅带来了运维复杂度,也提高了学习成本。
海南java第二人
6 天前
java
·
spring
·
flink
Flink状态后端与容错机制深度剖析:TB级状态下的高可用实战
在流处理领域,有一句广为流传的话:“Flink 强,不是因为算得快,是因为记得住”。这里的"记得住",指的就是 Flink 的状态管理能力。
董可伦
6 天前
服务器
·
python
·
flink
Flink DataStream2Table 总结
平时工作中有时会遇到 DataStream 转 Table 的需求,之前也写过几次,但是不总结就会忘掉还得专门扒拉之前写的代码,比较麻烦,现在总结一下,方便后面再有需要时查找。
岁岁种桃花儿
6 天前
大数据
·
flink
Flink从入门到上天系列第二十二篇:Flink当中的FlinkSQL
Table API和SQL是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。
渣渣盟
6 天前
大数据
·
flink
·
scala
Flink定时器实战:处理时间与事件时间
目录代码解释1. 环境设置2. 基于处理时间的定时器3. 基于事件时间的定时器4. 自定义数据源5. 任务执行
岁岁种桃花儿
7 天前
大数据
·
flink
Flink从入门到上天系列第十七篇:Flink当中的算子状态
算子状态:一个算子,会有多个并行子任务。作用范围被限定为当前算子任务。算子状态跟数据的key无关,所以不同key的数据只要被分发到同一个并行子任务,就会访问到同一个Operator State。
IT果果日记
7 天前
大数据
·
后端
·
flink
K8S+Dinky+Flink管理你的计算资源
已安装 Dinky (版本 1.2.3)准备 Flink 镜像地址(版本 1.17.2)已安装 K8S (版本 1.20.0)
岁岁种桃花儿
8 天前
大数据
·
flink
Flink从入门到上天系列第十六篇:Flink当中的键控状态
连续检测水位值,如果同一个传感器的水位值连续两次超过10就报警当前的问题,使用普通变量,当前的子任务组都共用一个变量,这个作用范围是非常危险的。
Hello.Reader
9 天前
java
·
大数据
·
flink
Flink Task Lifecycle 一篇讲透 StreamTask 与 Operator 生命周期
在 Flink 中,Task 是执行单元,Operator 是逻辑单元。可以这样理解:举个例子:假设你有一个 map 算子,并且设置了并行度为 5,那么运行时这个算子的 5 个并行实例,会分别运行在 5 个 Task 中。