技术栈
flink
大大大大晴天️
6 小时前
大数据
·
sql
·
flink
Flink技术实践-Flink SQL 开发中的隐蔽陷阱
Flink SQL/Table API 作为 Apache Flink 面向流批一体场景的声明式开发接口,凭借低代码、易上手、生态兼容的特性,已成为实时数仓、实时 ETL、实时报表等场景的核心开发方案。相较于 DataStream API,Flink SQL 屏蔽了状态管理、时间语义、算子链式调用等底层细节,让工程师可通过标准 SQL 快速构建实时任务。
juniperhan
9 小时前
大数据
·
分布式
·
flink
Flink 系列第8篇:Flink Checkpoint 全解析(原理+流程+配置+优化)
流处理引擎通常为用户的应用程序提供三种数据处理语义,核心差异在于数据处理的重复度和准确性,具体如下:最多一次(At-Most-Once):用户的数据只会被处理一次,无论处理成功与否,都不会重试、不会重发。适用于对数据准确性要求极低的场景(如非核心日志统计),优势是处理速度快、无冗余。
juniperhan
1 天前
java
·
大数据
·
数据仓库
·
flink
Flink 系列第4篇:Flink 时间系统与 Timer 定时器实战精讲
专栏定位:聚焦 Flink 核心时间机制与 Timer 定时器,拆解时间类型、时间属性配置,详解 Timer 工作原理、应用场景及两种定时器(EventTimer/ProcessTimer)实战,配套完整代码与生产注意事项
juniperhan
1 天前
大数据
·
数据仓库
·
flink
link 系列第7篇:Flink 状态管理全解析(原理+类型+存储+实操)
专栏定位:聚焦 Flink 状态管理核心,从状态概念、分类体系,到 Keyed State、Operator State 详解,再到状态后端底层存储,覆盖原理、实操与生产避坑,兼顾新手入门与开发实战
lifallen
2 天前
java
·
大数据
·
人工智能
·
python
·
语言模型
·
flink
Flink Agents:Python 执行链路与跨语言 Actor (PyFlink Agent)
本篇主要分析 Flink Agents 框架是如何在 Java 编写的 Flink 引擎中,完美嵌入并执行 Python 编写的 Agent 逻辑的。重点解析 PythonEnvironmentManager 的环境隔离机制,以及 PythonActionExecutor 如何通过 Pemja 实现跨语言的 Coroutine (协程) 调度与内存安全。
juniperhan
2 天前
大数据
·
分布式
·
缓存
·
flink
Flink 系列第 3 篇:核心概念精讲|分布式缓存 + 重启策略 + 并行度 底层原理 + 代码实战 + 生产规范
适用人群:Flink入门进阶、实时开发、作业调优、故障运维、初学架构理解分布式缓存最早源自 Hadoop 设计思想:
juniperhan
2 天前
大数据
·
数据仓库
·
flink
Flink 系列第6篇:Watermark 水印全解析(原理+实操+避坑)
专栏定位:聚焦 Flink Watermark(水印)核心原理、生成策略、实操代码,详解水印如何解决数据乱序、多流处理及空闲数据源问题,覆盖生产全场景避坑要点
Apache Flink
2 天前
大数据
·
flink
Flink Agents 0.3 Roadmap 解读
相信一直关注 Apache Flink 生态的朋友,最近都注意到了 Flink Agents 引发的热议。这是一个全新的 Apache Flink 子项目,旨在提供一个开源的 Agent 框架,用于构建事件驱动的流式 Agent。
勇哥的编程江湖
2 天前
大数据
·
elasticsearch
·
flink
·
flinkcdc
flinkcdc streaming 同步数据到es记录过程
边记录边操作,目前有对应的需求考虑到采用ES来对业务提供查询接口使用。采用实时方案写入ES,通过FlinkCDC3.5读取mysql直接sink到ES。
却话巴山夜雨时i
3 天前
spring boot
·
redis
·
flink
·
kafka
·
java面试
·
rest api
·
互联网大厂
互联网大厂Java面试实录:从Spring Boot到Kafka的技术问答
谢飞机是一名刚入行不久的程序员,今天他来到某互联网大厂参加Java开发工程师的面试。面试官是经验丰富的高级Java架构师,面试过程分为三轮技术问答,涵盖基础知识、业务场景和综合能力。
Henb929
3 天前
大数据
·
flink
·
linq
# Flink 生产环境调优案例
实时数据 pipeline(2023 年双 11 大促):典型故障:2023 年 11 月 10 日(双 11 前夜),流量峰值到来,作业吞吐量卡在 8000 TPS,延迟飙升至 120 秒,紧急扩容 3 倍资源才勉强撑过。
dinl_vin
3 天前
大数据
·
flink
Flink 实时计算引擎深度解析
从入门到源码,全面掌握流批一体计算引擎在实时数据处理需求爆发式增长的今天,Apache Flink 已成为流计算领域的事实标准。无论是双 11 的实时交易大屏、金融风控系统的毫秒级响应,还是实时数仓的秒级数据新鲜度,背后都离不开 Flink 的身影。
lifallen
3 天前
java
·
大数据
·
人工智能
·
语言模型
·
flink
Flink Agents:Memory 层级分析 (Sensory, Short-Term, Long-Term)
本篇主要分析 Flink Agents 框架中记忆 (Memory) 的整体架构与底层物理存储设计。重点解析为何需要分层、短期记忆如何将树状 JSON 映射到 Flink 扁平状态、以及长期记忆如何通过大模型实现自动压缩。
lifallen
3 天前
java
·
大数据
·
人工智能
·
语言模型
·
flink
Flink Agents:外部副作用一致性 (ActionStateStore) 演进分析
本篇主要分析 Flink Agents 框架中为了解决外部副作用 (Side Effects) 重复执行问题,而引入的 ActionStateStore (特别是 KafkaActionStateStore) 机制。这是让流式 Agent 在面对故障恢复时,能够真正做到 Exactly-once (精确一次) 语义的关键防线。
大大大大晴天️
3 天前
大数据
·
flink
Flink技术实践-实时流中的脏数据治理
在大数据实时计算领域,脏数据就像一颗定时炸弹,随时可能引爆业务系统 —— 轻则导致计算结果错误,重则引发线上故障,影响业务活动。某电商平台因订单金额字段脏数据(负数、超大值)导致实时销售额统计错误,决策层误判促销效果,造成百万级库存积压;某物流企业因 CDC 同步的脏数据未被拦截,导致数据湖存储大量无效数据,下游分析团队花费数周时间清理,严重影响数据驱动决策;金融行业中,脏数据可能导致反欺诈系统漏检风险交易,违反监管要求,面临巨额罚款。
lifallen
3 天前
java
·
大数据
·
人工智能
·
语言模型
·
flink
Flink Agents:Watermark 与事件时间 (Event Time) 在 Agent 算子中的演进分析
本篇主要分析 Flink Agents 框架中关于 Watermark (水位线) 的对齐与发射机制。在流处理(特别是事件时间处理)中,Watermark 决定了下游算子(如窗口函数)何时触发计算。而 Agent 算子由于其极其特殊的“非阻塞异步”与“任务裂变”特性,对 Watermark 的处理提出了一套名为 SegmentedQueue 的创新设计。
lifallen
4 天前
java
·
大数据
·
人工智能
·
语言模型
·
flink
Flink Agent:RunnerContext 注入与装配演进分析
本篇主要分析 Flink Agents 框架中 RunnerContext 的设计本质。它作为连接底层分布式复杂性与上层用户业务逻辑的核心枢纽,是如何通过门面模式(Facade)和享元模式(Flyweight)实现高效装配与隔离的。
彧翎Pro
5 天前
大数据
·
flink
·
linq
从零开始学Flink:Flink 双流 JOIN 实战详解
需要把 Flink 的 Kafka SQL Connector JAR 包,放到 $FLINK_HOME/lib 目录下。
Memory_荒年
5 天前
flink
Flink CDC:数据库的"时光机",让数据流动像德芙一样丝滑!
大家好,今天咱们不聊Spring Boot的优雅,也不扯Redis的高并发,来唠唠一个能让数据库"开口说话"的神器:Flink CDC!
tian_jiangnan
5 天前
大数据
·
flink
Flink checkopint使用教程
Flink checkpoint 需要写入远程持久化存储(如 HDFS、S3 等),不能直接存在本地,因为 Kubernetes Pod 是临时易失的。