Link入门

Filk概述

概念介绍

Apache Flink® --- Stateful Computations over Data Streams | Apache Flink

大致意思:Filk是一个

  1. 框架
  2. 分布式处引擎
  3. 支持有界和无界状态计算。
  • 有界数据指的是有开始的标志也有结束的标志
  • 这里的分布式强调的是不同的节点能进行不同的任务
  • 状态计算指的是在进行计算的时候能保留计算的中间结果

离线数仓和实时数仓对比

离线数仓 实时数仓
处理方式 批处理 流处理
数据稳定性 数据固定 数据变化
数据量
处理时间
划分依据 T+1 T

T+1表示的是现在一个单位时间之前,这里的单位时间可以说一天也可以一年;

Flink特点

处理数据的目标:

  • 低延迟
  • 高吞吐:每毫秒处理百万个数据
  • 准确性:提供了事件时间和处理时间
  • 容错性:状态基本一致
  • 可以连接到常用的外部系统:如Kfka,Hive,JDBC
  • 高可用:从故障中快速恢复,借助于Yarn

Flink和SparkStreaming对比

Spark是一个微批次数据的框架(他有一个'攒'批操作)

Flink Streaming
计算模型 流计算 微批处理
时间语义 事件时间+处理时间 处理时间
窗口 多、灵活 少、不灵活
状态 没有
流式SQL 没有

窗口

  • SparkStreaming窗口:滚动窗口、滑动窗口(必须是采集周期的整数倍)
  • FLink窗口:基于时间窗口,基于事件的窗口等;

Flink分层API

  1. 最高层语言:SQL

  2. 声明式领域专用语言:Table API

  3. 核心API:DataStream(无界数据)

    ​ DateSet(有界无界数据)

  4. 底层API:有状态流处理(基础数据操作map,flatMap)

相关推荐
用户67570498850219 分钟前
Celery 太重了?这可能是你一直在找的 asyncio 任务队列
后端·python·消息队列
Cloud_Shy61820 分钟前
Python 数据分析基础入门:《Excel Python:飞速搞定数据分析与处理》学习笔记系列(第十一章 Python 包跟踪器 下篇)
前端·后端·python·数据分析·excel
清平乐的技术专栏35 分钟前
【Flink学习】(六)Flink 三大时间语义 + 水位线 Watermark
大数据·学习·flink
清平乐的技术专栏35 分钟前
【Flink学习】(一)初识 Flink,大数据实时计算核心认知
大数据·flink
神奇小汤圆39 分钟前
为什么Redis能称霸缓存界?揭秘其每秒10万+读写的核心技术
后端
楼田莉子44 分钟前
C++17新特性:结构化绑定/inline变量/if相关的变化
c++·后端·学习
无限进步_1 小时前
【C++】C++11的类功能增强与STL变化
java·前端·数据结构·c++·后端·算法
字节跳动数据库1 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能·后端
用户6757049885021 小时前
Python 统一大业:uv 如何整合 Pip、Pyenv 和 Venv?
后端·python
倚栏听风雨1 小时前
Spring AI 流式工具调用:你的 TOOL_CALLS Chunk 去哪了?
后端