Flink+Dinky实现UDF自定义函数

Flink+Dinky实现UDF自定义函数

前言

在大数据中,Apache Flink 以其流批一体的架构亚秒级延迟精确一次处理的特性,成为实时计算领域的领头羊。但当面对千变万化的业务场景时,你是否遇到过这样的困境:

  • 内置函数无法解析特殊加密的JSON数据?
  • 需要实现行业特定的指标算法(如金融风控模型)?
  • 要对敏感字段进行定制化的脱敏处理?

这正是 Flink UDF(用户自定义函数) 大显身手的时刻!UDF 如同给你的数据处理流水线装上了万能工具箱,让你突破内置功能的边界,将业务逻辑直接植入计算引擎的心脏地带。

本文接下来就详细介绍一下如何在Dinky界面中引入UDF包,并注册到Flink作业里实现自定义功能。

创建项目

使用Flink官方示例脚手架,以下是linux命令,如果想要在windows环境下执行可以在windowsgit bash里执行该命令。

bash 复制代码
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-walkthrough-datastream-java \
    -DarchetypeVersion=1.16.2 \
    -DgroupId=frauddetection \
    -DartifactId=frauddetection \
    -Dversion=0.1 \
    -Dpackage=spendreport \
    -DinteractiveMode=false

为了和官方示例做区分,我修改了上述命令的archetypeVersiongroupIdartifactIdpackage

bash 复制代码
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-walkthrough-datastream-java \
    -DarchetypeVersion=1.17.2 \
    -DgroupId=com.guoguo \
    -DartifactId=udf-demo \
    -Dversion=0.1 \
    -Dpackage=udfdemo \
    -DinteractiveMode=false

添加依赖

添加如下maven依赖到pom.xml文件中,否则对于UDF开发的代码会报错。

xml 复制代码
<dependency>
	<groupId>org.apache.flink</groupId>
	<artifactId>flink-table-api-java-bridge</artifactId>
	<version>${flink.version}</version> <!-- 与Flink集群版本一致 -->
	<scope>provided</scope>
</dependency>

对于Maven依赖的作用域,官方自带的是provided,它表示该依赖在编译、测试阶段包含,运行阶段不包含,适用于运行环境本身已经包含了这些依赖的场景,如远程FlinkDinky环境。

如果想要在idea本地运行Flink官方示例,则需要将这个<scope>标签内的provided 改为compile,或者删除<scope>标签,因为默认就是compilecompile表示该依赖在编译、测试和运行阶段都会被包含,适用于本地运行的场景。

代码

新建了一个AddHelloPrefix类,继承ScalarFunction类,实现eval接口,这个类用来在输入字符串的开头添加Hello字符串前缀。

java 复制代码
package udfdemo;

import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.functions.ScalarFunction;

public class AddHelloPrefix extends ScalarFunction {
    // 基本字符串处理
    public String eval(String input) {
        return "Hello " + (input != null ? input : "null");
    }

    // 支持整数类型(多态)
    public String eval(Integer input) {
        return "Hello " + (input != null ? input.toString() : "null");
    }
}

此时代码结构如下图,FraudDetectionJobFraudDetector是官方自带的示例,可删除。

打包

执行以下maven命令将UDF代码打包

bash 复制代码
mvn clean package

UDF打包后是要放在Dinky环境中执行的,所以<scope>标签使用的是provided ,打包后的压缩包结构如下,没有一些依赖的其他jar包,非常简洁。

Dinky

上传jar包

进入Dinky界面,点击顶部注册中心菜单,选择左侧资源菜单

Root目录下新建一个文件夹,鼠标右键在新建的文件夹下,会有上传按钮,就可以上传上一步打包好的jar包。

在配置中心的Resource配置里,找到上传资源的路径,也可以在该路径下直接将文件拷贝过去。拷贝完了之后在资源界面里(上图)有一个同步目录结构,点击它就会将新上传的文件刷新出来。

创建作业

进入Dinky数据开发界面,创建一个FLink SQL作业,在作业的开头加入两行代码

sql 复制代码
-- 引入UDF包依赖,路径是上一步上传资源里的路径
ADD JAR 'file:///dinky/udf-demo-0.1.jar';

-- 注册UDF,udfdemo是包名,AddHelloPrefix是自定义函数名,add_hello_prefix是udf的别名
CREATE FUNCTION add_hello_prefix AS 'udfdemo.AddHelloPrefix' LANGUAGE JAVA;

在作业的最后使用UDF查询

sql 复制代码
-- 使用UDF查询
SELECT 
    name,
    add_hello_prefix(name) AS greeting,
    add_hello_prefix(age) AS age_greeting 
FROM users;

查询结果如下

参考

基于 DataStream API 实现欺诈检测 | Apache Flink

Flink SQL 使用自定义 UDF 函数在业务场景中,我们经常需要对身份证信息进行加密在保存,这时我们就需要对身份 - 掘金

相关推荐
AskHarries20 小时前
为什么大多数人创业第一步就错了
人工智能·后端
tyung20 小时前
Go 手写二叉堆优先队列:避开 container/heap 的性能陷阱
数据结构·后端·go
Nirvana在掘金20 小时前
MySQL 事务隔离级别 锁 高并发场景优化经验
后端·mysql
李小狼lee20 小时前
《spring如此简单》第二节--IOC思想的实现,容器是什么
后端·面试
GetcharZp20 小时前
深入浅出 etcd:从 K8s 灵魂到 Golang 实战,分布式系统的“定海神针”!
后端
珠海西格电力20 小时前
零碳园区的能源成本优势具体体现在哪些方面
大数据·人工智能·算法·架构·能源
大大大大晴天20 小时前
告别混淆!一文讲透 Flink State Backend 与 Checkpoint Storage
flink
一线数智21 小时前
AI+业务 Vs 业务+AI?寻找让AI真正“转”起来的确定性答案
大数据·人工智能
智慧医养结合软件开源21 小时前
数智协同,赋能康养服务高效升级
大数据·人工智能·云计算·生活
docsz21 小时前
Ambari3.0集成Flink 2.2+Paimon1.4
大数据·flink