flink

zhangkaixuan45612 小时前
java·大数据·flink·paimon·datalake
Paimon Action Jar 实现机制分析Paimon Action Jar 是 Apache Paimon 提供的一套用于表维护操作的命令行工具框架。通过 flink run 命令,用户可以执行各种维护操作,如快照过期、分区删除、表压缩等。
java_logo13 小时前
docker·flink·apache·apache flink·apache flink部署·flink部署文档·flink部署教程
Apache Flink Docker 容器化部署指南Apache Flink® 是一个强大的开源分布式流处理与批处理框架,具备高吞吐、低延迟和强状态一致性等特性。通过 Docker 方式部署 Flink,可实现环境一致性、快速部署与简化运维,非常适合开发测试、POC 以及中小规模生产场景。
Jackyzhe14 小时前
大数据·flink
Flink源码阅读:双流操作今天来梳理一下 Flink 双流操作相关的源码。通过Flink学习笔记:多流 Join一文的介绍,我们知道 Flink 有三种数据关联的方式,分别是 Window Join、Interval Join 和 CoGroup。下面我们分别看下这三种关联方式的源码实现。
Jackeyzhe1 天前
flink
Flink源码阅读:Checkpoint机制(下)书接上回,前文我们梳理的 Checkpoint 机制的源码,但是对于如何写入状态数据并没有深入了解。今天就一起来梳理一下这部分代码。
面向Google编程1 天前
大数据·flink
Flink源码阅读:双流操作今天来梳理一下 Flink 双流操作相关的源码。通过Flink学习笔记:多流 Join一文的介绍,我们知道 Flink 有三种数据关联的方式,分别是 Window Join、Interval Join 和 CoGroup。下面我们分别看下这三种关联方式的源码实现。
Hello.Reader1 天前
python·机器学习·flink
Flink ML OneHotEncoder 把类别索引变成稀疏 one-hot 向量One-hot 编码把一个类别索引(例如 2)映射成一个向量:举个例子:假设类别数 3(0/1/2)如果 dropLast=true(默认):
Hello.Reader1 天前
java·python·flink
Flink ML VectorAssembler 把多列特征“拼”成一个向量列(数值 + 向量都支持)给定一组输入列 inputCols(每列类型必须是 数值 或 Vector),把它们按顺序组合成一个新向量列 outputCol:
yumgpkpm2 天前
大数据·人工智能·hive·zookeeper·flink·kafka·cloudera
Cloudera CDP 7.3(国产CMP 鲲鹏版)平台与银行五大平台的技术对接方案Cloudera CDP 7.3(国产CMP 鲲鹏版)平台与银行五大平台的技术对接方案一份 CMP(Cloud Data AI Platform)与银行五大核心业务平台 的技术对接方案整理。该方案聚焦于数据层面的集成,适用于银行在构建数据中台、智能风控、客户洞察等场景下,如何通过 CMP 实现统一的数据湖仓、治理、分析与服务化能力。
Hello.Reader2 天前
大数据·flink·线性回归
Flink ML LinearRegression 用 Table API 训练线性回归并输出预测值它学习一个线性函数(简化表达):[y^=w⋅x+b][ \hat{y} = w \cdot x + b ][y^=w⋅x+b]
Hello.Reader2 天前
机器学习·均值算法·flink
Flink ML StandardScaler 标准化(去均值 + 除以标准差)让特征“同量纲”更好学对向量特征的每个维度 (x) 做标准化:在 Flink ML 里,通过两个开关控制:标准用法永远是两步:
Hello.Reader2 天前
机器学习·分类·flink
Flink ML KNN 入门基于 Table API 的近邻分类说明:Flink ML 的 Vector 通常是 DenseVector 或 SparseVector(特征列必须是向量类型)。
Hello.Reader2 天前
java·支持向量机·flink
Flink ML 线性 SVM(Linear SVC)入门输入输出列、训练参数与 Java 示例解读说明:featuresCol 必须是 Flink ML 的 Vector 类型(DenseVector/SparseVector)。
Hello.Reader2 天前
大数据·人工智能·flink
Flink ML MinMaxScaler 把特征缩放到统一区间 [min, max]对每个特征维度 (x) 做缩放:[x′=x−xminxmax−xmin⋅(max−min)+min][ x' = \frac{x - x_{min}}{x_{max} - x_{min}} \cdot (max - min) + min ][x′=xmax−xminx−xmin⋅(max−min)+min]
Hello.Reader3 天前
java·算法·flink
Flink ML Bucketizer 连续特征分桶(多列映射、splitsArray、handleInvalid)+ Java 示例解读Bucketizer 会把输入列(连续值)按你配置的 splitsArray 切分成区间,并输出区间编号:
Hello.Reader3 天前
python·机器学习·flink
Flink ML Logistic Regression 离线训练 + 在线增量训练(FTRL-Proximal)离线逻辑回归主要用于:工程理解建议:你贴的示例核心流程:文档写 labelCol 是 Integer,但示例里 label 用 0. / 1.(Double),并且 prediction 也按 Double 取。
Hello.Reader3 天前
大数据·分类·flink
Flink ML 二分类评估器 BinaryClassificationEvaluator AUC、PR-AUC、KS 一次搞懂BinaryClassificationEvaluator 的输入表需要包含:1)double 可以是:
Hello.Reader3 天前
大数据·分类·flink
Flink ML K-Means 离线聚类 + 在线增量聚类(mini-batch + decayFactor)示例流程很标准:关键代码片段:输出打印(预测列是 Integer):离线 KMeans 训练出来的中心是“固定”的。 但很多业务数据分布会随时间变化,例如:
Hello.Reader3 天前
大数据·分类·flink
Flink ML Naive Bayes 多分类朴素贝叶斯在 multinomial 朴素贝叶斯里,经常会遇到某类样本中某个特征从未出现过的情况,这会导致该条件概率为 0,从而让整个后验概率变成 0。 smoothing 的作用就是避免这种“零概率”问题,让模型更稳健。
Hello.Reader4 天前
大数据·flink
Flink ML 数据类型:Vector 向量类型入门(DenseVector / SparseVector)Flink ML 支持:Flink Table API 支持的全部类型 例如:BOOLEAN / INT / BIGINT / DOUBLE / STRING / ARRAY / MAP / ROW / TIMESTAMP 等。
Hello.Reader5 天前
人工智能·机器学习·flink
Flink ML 迭代机制详解:有界迭代 vs 无界迭代、IterationBody、Epoch 与 API 实战特点:训练数据是有限集(bounded dataset)算法会反复扫描数据多轮(epoch),不断更新参数