Flink入门（一）

十七✧ᐦ̤2023-12-03 11:45

整体框架

Flink概述
Flink上手部署
Flink架构
DataStream API(算子)
Flink中的时间和窗口：窗口就是范围
处理函数：底层函数
状态管理：
容错机制：报错重启后能够从出错的位置继续执行
FlinkSQL：功能逐步完善

基于数据流的有状态计算

正确性保证
- 精确一次（Exactly-once）状态一致性
- 事件时间处理
- 成熟的迟到数据处理
分层API：底层处理函数、java API、Flink SQL
聚焦运维：灵活部署、高可用、保存点
大规模计算：水平扩展架构、支持超大状态、增量检查点机制
性能卓越：低延迟（毫秒级的计算）、高吞吐（每秒数百万事件处理）、内存计算
可以连接到常用的存储系统：Kafka, Hive, JDBC, HDFS, Redis等

流式场景

事件驱动应用：事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。
流批分析：既支持流处理、也支持批处理
数据管道&ETL：提取-转换-加载（ETL）是一种在存储系统之间进行数据转换和迁移的常用方法。

状态

把流处理需要使用到的额外数据保存为一个"状态"，状态会跟着流动的数据动态的变化。

Flink分层API

SQL
Table API
DataStream
有状态流处理（底层 API 处理函数）

集群剖析

JobManager:协调Flink程序的分布式执行，对完成的task或执行失败做出反应，协调检查点，恢复还原状态。一般集群中只有一个。
TaskManager: 执行作业流的Task, 并且缓存和交换数据流。存在一个或者多个。

部署模式

会话模式：多个任务共享一个任务管理器，适合多个执行时间短、使用资源少的任务。先起集群再提交作业
单作业模式：一个作业，专用的任务管理器，程序运行在客户端机器上。
应用模式：一个作业，专用的任务管理器，程序运行在集群机器上。

Standalone模式

配置集群参数
使用./jobmanager.sh start | ./taskmanager.sh start 单点启动
使用bin/start-cluster.sh | bin/stop-cluster 群起群关

YARN运行模式

后续补充

上一篇：C#网络编程（System.Net命名空间和System.Net.Sockets命名空间）

下一篇：GitHub Actions 之自动化发布 Maven 项目

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 032026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？042026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 062026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 09【AI】2026 年具身智能模型和世界模型总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？