Flink+Dinky实现UDF自定义函数

Flink+Dinky实现UDF自定义函数

前言

在大数据中,Apache Flink 以其流批一体的架构亚秒级延迟精确一次处理的特性,成为实时计算领域的领头羊。但当面对千变万化的业务场景时,你是否遇到过这样的困境:

  • 内置函数无法解析特殊加密的JSON数据?
  • 需要实现行业特定的指标算法(如金融风控模型)?
  • 要对敏感字段进行定制化的脱敏处理?

这正是 Flink UDF(用户自定义函数) 大显身手的时刻!UDF 如同给你的数据处理流水线装上了万能工具箱,让你突破内置功能的边界,将业务逻辑直接植入计算引擎的心脏地带。

本文接下来就详细介绍一下如何在Dinky界面中引入UDF包,并注册到Flink作业里实现自定义功能。

创建项目

使用Flink官方示例脚手架,以下是linux命令,如果想要在windows环境下执行可以在windowsgit bash里执行该命令。

bash 复制代码
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-walkthrough-datastream-java \
    -DarchetypeVersion=1.16.2 \
    -DgroupId=frauddetection \
    -DartifactId=frauddetection \
    -Dversion=0.1 \
    -Dpackage=spendreport \
    -DinteractiveMode=false

为了和官方示例做区分,我修改了上述命令的archetypeVersiongroupIdartifactIdpackage

bash 复制代码
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-walkthrough-datastream-java \
    -DarchetypeVersion=1.17.2 \
    -DgroupId=com.guoguo \
    -DartifactId=udf-demo \
    -Dversion=0.1 \
    -Dpackage=udfdemo \
    -DinteractiveMode=false

添加依赖

添加如下maven依赖到pom.xml文件中,否则对于UDF开发的代码会报错。

xml 复制代码
<dependency>
	<groupId>org.apache.flink</groupId>
	<artifactId>flink-table-api-java-bridge</artifactId>
	<version>${flink.version}</version> <!-- 与Flink集群版本一致 -->
	<scope>provided</scope>
</dependency>

对于Maven依赖的作用域,官方自带的是provided,它表示该依赖在编译、测试阶段包含,运行阶段不包含,适用于运行环境本身已经包含了这些依赖的场景,如远程FlinkDinky环境。

如果想要在idea本地运行Flink官方示例,则需要将这个<scope>标签内的provided 改为compile,或者删除<scope>标签,因为默认就是compilecompile表示该依赖在编译、测试和运行阶段都会被包含,适用于本地运行的场景。

代码

新建了一个AddHelloPrefix类,继承ScalarFunction类,实现eval接口,这个类用来在输入字符串的开头添加Hello字符串前缀。

java 复制代码
package udfdemo;

import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.functions.ScalarFunction;

public class AddHelloPrefix extends ScalarFunction {
    // 基本字符串处理
    public String eval(String input) {
        return "Hello " + (input != null ? input : "null");
    }

    // 支持整数类型(多态)
    public String eval(Integer input) {
        return "Hello " + (input != null ? input.toString() : "null");
    }
}

此时代码结构如下图,FraudDetectionJobFraudDetector是官方自带的示例,可删除。

打包

执行以下maven命令将UDF代码打包

bash 复制代码
mvn clean package

UDF打包后是要放在Dinky环境中执行的,所以<scope>标签使用的是provided ,打包后的压缩包结构如下,没有一些依赖的其他jar包,非常简洁。

Dinky

上传jar包

进入Dinky界面,点击顶部注册中心菜单,选择左侧资源菜单

Root目录下新建一个文件夹,鼠标右键在新建的文件夹下,会有上传按钮,就可以上传上一步打包好的jar包。

在配置中心的Resource配置里,找到上传资源的路径,也可以在该路径下直接将文件拷贝过去。拷贝完了之后在资源界面里(上图)有一个同步目录结构,点击它就会将新上传的文件刷新出来。

创建作业

进入Dinky数据开发界面,创建一个FLink SQL作业,在作业的开头加入两行代码

sql 复制代码
-- 引入UDF包依赖,路径是上一步上传资源里的路径
ADD JAR 'file:///dinky/udf-demo-0.1.jar';

-- 注册UDF,udfdemo是包名,AddHelloPrefix是自定义函数名,add_hello_prefix是udf的别名
CREATE FUNCTION add_hello_prefix AS 'udfdemo.AddHelloPrefix' LANGUAGE JAVA;

在作业的最后使用UDF查询

sql 复制代码
-- 使用UDF查询
SELECT 
    name,
    add_hello_prefix(name) AS greeting,
    add_hello_prefix(age) AS age_greeting 
FROM users;

查询结果如下

参考

基于 DataStream API 实现欺诈检测 | Apache Flink

Flink SQL 使用自定义 UDF 函数在业务场景中,我们经常需要对身份证信息进行加密在保存,这时我们就需要对身份 - 掘金

相关推荐
这里有鱼汤3 分钟前
如何用Python找到股票的支撑位和压力位?——成交量剖面
后端·python
minh_coo7 分钟前
Spring框架接口之RequestBodyAdvice和ResponseBodyAdvice
java·后端·spring·intellij idea
吾当每日三饮五升12 分钟前
RapidJSON 自定义内存分配器详解与实战
c++·后端·性能优化·json
shark_chili20 分钟前
Linux IO性能瓶颈排查全攻略:从理论到实战的系统性解决方案
后端
卷福同学36 分钟前
#去深圳了~
后端·面试·架构
CodeSheep37 分钟前
稚晖君公司最新合伙人,公开了!
前端·后端·程序员
绝无仅有42 分钟前
面试MySQL基础20题(一)
后端·面试·github
百锦再1 小时前
一文掌握Flask:从基础使用到高级应用
后端·python·django·flask·virtualenv·scikit-learn·pygame
STLearner1 小时前
AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断
大数据·论文阅读·人工智能·深度学习·机器学习·语言模型·自然语言处理
IT_陈寒1 小时前
3年Java老手:我用这5个Spring Boot优化技巧将系统吞吐量提升了200%!🚀
前端·人工智能·后端