1、Flink基础概念

1、基础知识

(1)、数据流上的有状态计算

(2)、框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。

(3)、事件驱动型应用,有数据流就进行处理,无数据流就不进行处理,就像挤牙膏一样。

(4)、无界数据流&&有界数据流:

其中,无界数据流就相当于水龙头,流的开始就是打开水龙头,但原则上,只要不关闭水龙头,水就会一直流下去,所以没有定义流的结束。

有界数据流,相当于给一个水桶中装满水,水桶底部存在一个小孔,流的开始就是水桶滴下第一滴水,流的结束就是滴下最后一滴水。

2、有状态流处理

举例:在一条马路上,每过一辆车,就会记录一次,在经过一段时间后,对记录的结果进行统计处理。

3、Flink特点

4、Spark和Flink的区别

两者最为本质的区别就是,Spark是批处理模式,Flink是流处理模式,

Spark Streaming:

(1)比如设计批次为3s,那么Spark将会积攒3s内的数据,最后统一对其进行处理。

(2)计算模型:微批次处理

(3)时间语义:处理时间

(4)窗口:少,不灵活

(5)状态:没有,需要跟外部系统进行交互。

(6)流式SQL:没有

Flink:

(1)与Spark不同的是,Flink是流处理模式,来一条数据,就处理一条数据。

(2)计算模型:流计算

(3)时间语义:事件时间、处理时间

处理时间:在处理数据时的现实时间

事件事件:数据本身产生的时间

举例:

例如,在23:59:59产生了一条数据,但因为网络延迟问题,导致计算引擎读取出现延迟,读取时间为0:00:01,综上所述,事件时间就是23:59:59,处理时间就是0:00:01

(4)窗口:多、灵活

(5)状态:有,可以自己维护管理数据。

(6)流式SQL:有

5、Flink分层API

相关推荐
七牛云行业应用37 分钟前
企业级AI大模型选型指南:从评估部署到安全实践
大数据·人工智能·安全
云飞云共享云桌面1 小时前
非标自动化工厂如何10个三维设计共用一台云主机
大数据·运维·服务器·网络·数据库
jiedaodezhuti1 小时前
Flink on YARN 实战问题排查指南(精华版)
大数据·flink
人大博士的交易之路1 小时前
今日行情明日机会——20250912
大数据·数据挖掘·数据分析·缠论·缠中说禅·涨停回马枪·道琼斯结构
BYSJMG3 小时前
计算机毕设推荐:基于Hadoop+Spark物联网网络安全数据分析系统 物联网威胁分析系统【源码+文档+调试】
大数据·hadoop·python·物联网·spark·django·课程设计
陈天伟教授3 小时前
Hadoop Windows客户端配置与实践指南
大数据·hadoop·windows
lifallen3 小时前
Hadoop MapOutputBuffer:Map高性能核心揭秘
java·大数据·数据结构·hadoop·算法·apache
在未来等你3 小时前
Elasticsearch面试精讲 Day 16:索引性能优化策略
大数据·分布式·elasticsearch·搜索引擎·面试
江瀚视野3 小时前
自如入局二手房,对居住服务行业的一次范式重构
大数据
北极光SD-WAN组网4 小时前
某光伏电力监控系统网络安全监测项目:智能组网技术优化方案实践
大数据·网络·分布式