flink

Jackyzhe15 分钟前
大数据·flink·kafka
Flink源码阅读:Kafka Connector本文我们来梳理 Kafka Connector 相关的源码。在介绍 Kafka Connector 之前,我们先来看一下在 Flink 中是如何支持自定义 Source 和 Sink 的。我们来看一张 Flink 官方文档提供的图。
Knight_AL1 小时前
大数据·flink
深入理解 Apache Flink 的时间语义、Watermark 与窗口触发机制这三个概念是 Flink 基于 事件时间(Event Time) 做正确统计与窗口触发的基础。本文用最简单的语言和真实案例解释它们之间的关系,帮助你彻底理解。
Jackeyzhe11 小时前
flink
Flink源码阅读:Kafka Connector本文我们来梳理 Kafka Connector 相关的源码。在介绍 Kafka Connector 之前,我们先来看一下在 Flink 中是如何支持自定义 Source 和 Sink 的。我们来看一张 Flink 官方文档提供的图。
Hello.Reader21 小时前
sql·mongodb·flink
Flink MongoDB SQL Connector Scan/Lookup/Sink 全打通,Upsert、分片集群与缓存一篇讲透官方文档目前明确提示:Flink 2.2 还没有可用的 MongoDB connector。 (Apache Nightlies) 同时,MongoDB connector 不在 Flink 二进制发行包里,跑集群需要你自己把 connector jar 带上(放 lib/ 或打成 uber-jar)。 (Apache Nightlies)
Knight_AL1 天前
大数据·python·flink
Flink 核心算子详解:map / flatMap / filter / process在学习 Flink 的过程中,map、flatMap、filter、process 是最常用、也是最容易让人迷糊的几个算子。
重生之绝世牛码1 天前
大数据·linux·运维·hadoop·zookeeper·flink·软件安装
Linux软件安装 —— Flink集群安装(集成Zookeeper、Hadoop高可用)1、相关软件2、相关进程参考本人此篇文章:Linux软件安装 —— SSH免密登录参考本人此篇文章:Linux软件安装 —— JDK安装
Blossom.1181 天前
大数据·运维·人工智能·python·flink·prompt·知识图谱
实时知识增强大模型:基于Flink的流式向量索引与动态RAG系统摘要:本文揭秘面向大模型应用的实时数据流处理架构,通过Flink CDC + Milvus增量索引 + 动态Prompt注入技术,实现知识库分钟级更新与查询零延迟。创新的时间感知向量编码与热点数据预加载算法使知识新鲜度从T+1提升至T+5分钟,查询P99延迟从2.3秒降至180毫秒。提供完整的数据摄取、索引更新、模型调用全链路代码,已在金融舆情分析与电商商品知识系统稳定运行,日均处理千万级知识变更事件。
Hello.Reader1 天前
大数据·sql·flink
Flink SQL 接入 Amazon Kinesis Data Streams 版本迁移、DDL、EFO/Polling、分区与常见坑一篇搞定文档里已经写得很直白:所以你在博客开头一定要强调一句: 如果你正在用 Flink 2.2,先别在 Maven 里死磕依赖坐标,短期要么等官方发布 2.2 对应版本,要么选用已有可用连接器的 Flink 版本线。
Hello.Reader2 天前
大数据·python·flink
Flink DynamoDB Connector 用 Streams 做 CDC,用 BatchWriteItem 高吞吐写回很多人看到 “Flink 2.2 文档里有 DynamoDB SQL Connector” 会以为可以直接 CREATE TABLE ... WITH ('connector'='dynamodb') 开干,但需要注意:
Hello.Reader2 天前
大数据·elasticsearch·flink
Flink Elasticsearch Connector 从 0 到 1 搭一个高吞吐、可容错的 ES Sink如果你在看 Flink 2.2 的官方文档,会看到一个非常关键的提示:但在 Flink 1.20 这类稳定版本,ES 连接器是可用的,并且官方文档给出了明确的 Maven 坐标(例如 3.1.0-1.20)。 (Apache Nightlies)
Hello.Reader2 天前
大数据·flink
Flink Firehose Sink 把实时流数据稳定写进 Amazon Kinesis Data Firehose如果你正在用 Flink 2.2,官方文档明确写了:Flink 2.2 暂无可用的 Firehose connector;PyFlink 侧也标注 暂无 SQL jar。 (nightlies.apache.org)
ask_baidu3 天前
java·大数据·postgresql·flink
监控Source端Pg对Flink CDC的影响1.pom2.java代码主类3.输出优化建议4.对部分指标进行增量计算5.创建个事务类,用来记录监控耗时长的sql
Hello.Reader3 天前
大数据·flink·apache
Apache Cassandra Connector:Flink 与宽列存储的高吞吐协作使用 Cassandra Connector 需要显式引入依赖(不包含在 Flink 二进制发行版中):
yumgpkpm4 天前
hive·hadoop·elasticsearch·flink·kafka·hbase·cloudera
Cloudera CDP/CMP华为鲲鹏版下 Spark应用加速,华为昇腾芯片的实用配置过程要将 Apache Spark 应用与华为昇腾(Ascend)芯片集成以实现 AI/ML 环节加速,需构建一个“Spark 负责数据预处理 + 昇腾负责模型训练/推理”的混合架构。以下是截至 2026 年的完整、可落地的实用配置流程,适用于企业级部署(如 Atlas 800/900 服务器或华为云 CCE 集群)。
Jackyzhe5 天前
大数据·flink
Flink源码阅读:Mailbox线程模型本文我们来梳理 Flink 的线程模型——Mailbox。在以前的线程模型中,Flink 通过 checkpointLock 来隔离保证不同线程在修改内部状态时的正确性。通过 checkpointLock 控制并发会在代码中出现大量的 synchronize(lock) 这样非常不利于阅读和调试。Flink 也提供了一些 API 将锁对象暴露给用户,如果没有正确使用锁,很容易导致线程安全问题。
Hello.Reader5 天前
大数据·flink
Flink 读文本文件TextLineInputFormat + FileSource(批/流一体)+ 目录持续监控Java 工程要使用文本文件 Source,需要引入 Flink 的文件连接器依赖:PyFlink 用户通常可以直接在作业里使用(但如果你集群环境缺少对应 jar,也需要通过 Python dependency management 方式携带)。
Analyze_ing5 天前
大数据·flink·kafka
DolphinScheduler启动flink任务, 用Flink消费Kafka数据(linux)已经在虚拟机部署好海豚了,想尝试下在海豚新建一个flink节点,然后用flink消费kafka数据。海豚用的是单机部署,具体操作你们可以看官方文档:DolphinScheduler | 文档中心
面向Google编程6 天前
大数据·flink
Flink源码阅读:Mailbox线程模型本文我们来梳理 Flink 的线程模型——Mailbox。在以前的线程模型中,Flink 通过 checkpointLock 来隔离保证不同线程在修改内部状态时的正确性。通过 checkpointLock 控制并发会在代码中出现大量的 synchronize(lock) 这样非常不利于阅读和调试。Flink 也提供了一些 API 将锁对象暴露给用户,如果没有正确使用锁,很容易导致线程安全问题。
Hello.Reader6 天前
大数据·python·flink
CSV Format Flink / PyFlink 读写 CSV 的正确姿势(含 Schema 高级配置)Java/Scala 工程需要加 Flink CSV 依赖:PyFlink 用户一般可以直接在作业里使用(前提是集群环境里对应的 jar 能被加载;如果你是在远程集群跑,仍然需要按你前面“依赖管理”章节的方式把 jar 加入 pipeline.jars 或 env.add_jars())。
Hello.Reader6 天前
大数据·hadoop·flink
Hadoop Formats 在 Flink 里复用 Hadoop InputFormat(flink-hadoop-compatibility)核心依赖是 Flink 的兼容模块:如果你要在本地(IDE / MiniCluster)跑起来,通常还需要带上一个 Hadoop 客户端依赖(本地有 class 才能初始化 Hadoop 相关类):