技术栈
flink
Hello.Reader
13 小时前
java
·
flink
·
maven
用 Maven 配置 Flink 从初始化到可部署的完整实践
要求:初始化方式:JVM 堆内存:默认堆可能偏小。一个 Flink 作业通常需要三类依赖: (1)Flink API(DataStream、Table/SQL 等) (2)连接器/格式(Kafka、Filesystem、JSON/Avro 等) (3)测试工具(例如 JUnit 与 Flink test utils)
武子康
16 小时前
大数据
·
后端
·
flink
大数据-116 - Flink Sink 使用指南:类型、容错语义与应用场景 多种输出方式与落地实践
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
武子康
2 天前
大数据
·
后端
·
flink
大数据-115 - Flink DataStream Transformation Map、FlatMap、Filter 到 Window 的全面讲解
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
武子康
3 天前
大数据
·
后端
·
flink
大数据-114 Flink DataStreamAPI 从 SourceFunction 到 RichSourceFunction 源函数的增强与实战
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
武子康
4 天前
大数据
·
后端
·
flink
大数据-113 Flink 源算子详解:非并行源(Non-Parallel Source)的原理与应用场景
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
Hello.Reader
4 天前
flink
·
php
·
etl
优化 Flink 基于状态的 ETL少 Shuffle、不膨胀、可落地的工程
核心对策:先压缩再重分区,增量代替明细,生命周期严格管理。同 Key、同并行度、同分区器维表 Broadcast-Hash Join(小表)
菜鸡儿齐
4 天前
大数据
·
flink
flink api-datastream api-source算子
Flink源算子API是构建数据处理程序的输入端组件,主要分为预定义源和自定义源两类实现方式。以下是核心分类与使用方式:
lifallen
4 天前
大数据
·
数据库
·
sql
·
flink
Flink SQL 查询 核心概念与实战指南
参考官网,Flink 2.1https://nightlies.apache.org/flink/flink-docs-release-2.1/docs/dev/table/sql/queries/overview/
Hello.Reader
5 天前
大数据
·
架构
·
flink
Flink 架构组件、任务链路、Slot 资源与集群形态
Flink 是分布式流处理系统。相同的作业,因资源管理、任务并行度、Slot 配置不同,性能差异可能是数量级的。理解运行时架构,能帮助你:
武子康
5 天前
大数据
·
后端
·
flink
大数据-112 Flink DataStream API :数据源、转换与输出 文件、Socket 到 Kafka 的完整流程
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
Hello.Reader
5 天前
大数据
·
flink
·
linq
Flink 有状态流处理State、Keyed State、Checkpoint、对齐/不对齐与生产实践
在实际业务里,你很难“看一条算一条”。典型需求包括:这都需要 状态(State)。Flink 在运行时感知状态,借助 Checkpoints/Savepoints 保障容错,并支持弹性伸缩时的状态再分布。
菜鸡儿齐
5 天前
大数据
·
flink
flink批处理-时间和窗口
流处理:流处理是对连续产生的实时数据进行即时处理的技术,数据以事件流的形式逐条(flink)或按小批次(spark)处理,无需等待完整数据集就绪。 批处理:批处理是对静态数据集按固定批次(如每小时/每天)进行离线处理的技术,遵循“先存储后处理”模式。 有界流:有界流:具有明确的开始和结束点(如静态文件、数据库表)。有界流处理通常被称为批处理。 无界流:只有开始点,数据持续产生无终止(如Kafka消息流、IoT传感器数据)。
一休哥助手
6 天前
大数据
·
flink
·
apache
Apache Flink:流处理革命的领导者与新一代大数据计算引擎
Apache Flink是一个开源的流处理框架,以其高吞吐、低延迟、精确一次处理的特性成为实时计算领域的领导者。本文将从Flink的核心架构、编程模型、容错机制到实际应用场景,全面解析这一新一代大数据计算引擎的技术原理与实践应用,为读者提供从入门到精通的完整指南。
Hello.Reader
6 天前
大数据
·
flink
Flink 有状态与时间敏感流处理从 Concepts 到 API 实战
在真实业务中,流处理不仅是“看一条算一条”。我们需要:Flink 的运行时(Runtime)为此提供了**一致性(Exactly-Once)的状态与事件时间(Event Time)**优先的时间模型,再通过不同层级的 API 抽象把这些能力向上暴露出来。
武子康
7 天前
大数据
·
后端
·
flink
大数据-110 Flink 安装与部署指南 支持 Local/Standalone/YARN 的多种模式
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
武子康
8 天前
大数据
·
后端
·
flink
大数据-109 Flink 架构深度解析:JobManager、TaskManager 与核心角色全景图
AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
Hello.Reader
8 天前
前端
·
javascript
·
flink
Flink 容错从状态后端到 Exactly-Once
流式应用一旦有状态(聚合、去重、规则命中、窗口累加等),故障恢复就不仅是“重跑消息”这么简单;你还要把状态恢复到与输入位置一致的点。Flink 通过**快照(Snapshot)**把“各有状态算子当前的状态 + 各 Source 读到的位置”一起固化下来:
lifallen
8 天前
大数据
·
flink
·
nio
Flink TCP Channel复用:NettyServer、NettyProtocol详解
NettyServer 是 Flink TaskManager 内部负责网络通信的服务端组件。每个 TaskManager 都会启动一个 NettyServer 实例,用于监听来自其他 TaskManager(作为 NettyClient)的连接请求,从而接收数据拉取请求并发送数据。它是 Flink 数据交换(Shuffle)服务的基石。
Hello.Reader
8 天前
大数据
·
flink
用 Flink 打造事件驱动流式应用从 DataStream 到 ProcessFunction
很多需求用内置时间窗口就能搞定(Tumbling/Sliding/Session)。但当你遇到这些场景,ProcessFunction 更合适:
XueminXu
9 天前
mysql
·
flink
·
kafka
·
topic
·
flink sql
·
flink-sql
·
sink
Flink-SQL通过过滤-解析-去重-聚合计算写入到MySQL表
数据源来自于Kafka的Json结构数据,数据结构为源头不断更新的小时报表,Flink的任务是处理计算并将结果输出到MySQL中。代码如下: