Flink+Dinky实现UDF自定义函数

Flink+Dinky实现UDF自定义函数

前言

在大数据中,Apache Flink 以其流批一体的架构亚秒级延迟精确一次处理的特性,成为实时计算领域的领头羊。但当面对千变万化的业务场景时,你是否遇到过这样的困境:

  • 内置函数无法解析特殊加密的JSON数据?
  • 需要实现行业特定的指标算法(如金融风控模型)?
  • 要对敏感字段进行定制化的脱敏处理?

这正是 Flink UDF(用户自定义函数) 大显身手的时刻!UDF 如同给你的数据处理流水线装上了万能工具箱,让你突破内置功能的边界,将业务逻辑直接植入计算引擎的心脏地带。

本文接下来就详细介绍一下如何在Dinky界面中引入UDF包,并注册到Flink作业里实现自定义功能。

创建项目

使用Flink官方示例脚手架,以下是linux命令,如果想要在windows环境下执行可以在windowsgit bash里执行该命令。

bash 复制代码
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-walkthrough-datastream-java \
    -DarchetypeVersion=1.16.2 \
    -DgroupId=frauddetection \
    -DartifactId=frauddetection \
    -Dversion=0.1 \
    -Dpackage=spendreport \
    -DinteractiveMode=false

为了和官方示例做区分,我修改了上述命令的archetypeVersiongroupIdartifactIdpackage

bash 复制代码
mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-walkthrough-datastream-java \
    -DarchetypeVersion=1.17.2 \
    -DgroupId=com.guoguo \
    -DartifactId=udf-demo \
    -Dversion=0.1 \
    -Dpackage=udfdemo \
    -DinteractiveMode=false

添加依赖

添加如下maven依赖到pom.xml文件中,否则对于UDF开发的代码会报错。

xml 复制代码
<dependency>
	<groupId>org.apache.flink</groupId>
	<artifactId>flink-table-api-java-bridge</artifactId>
	<version>${flink.version}</version> <!-- 与Flink集群版本一致 -->
	<scope>provided</scope>
</dependency>

对于Maven依赖的作用域,官方自带的是provided,它表示该依赖在编译、测试阶段包含,运行阶段不包含,适用于运行环境本身已经包含了这些依赖的场景,如远程FlinkDinky环境。

如果想要在idea本地运行Flink官方示例,则需要将这个<scope>标签内的provided 改为compile,或者删除<scope>标签,因为默认就是compilecompile表示该依赖在编译、测试和运行阶段都会被包含,适用于本地运行的场景。

代码

新建了一个AddHelloPrefix类,继承ScalarFunction类,实现eval接口,这个类用来在输入字符串的开头添加Hello字符串前缀。

java 复制代码
package udfdemo;

import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.functions.ScalarFunction;

public class AddHelloPrefix extends ScalarFunction {
    // 基本字符串处理
    public String eval(String input) {
        return "Hello " + (input != null ? input : "null");
    }

    // 支持整数类型(多态)
    public String eval(Integer input) {
        return "Hello " + (input != null ? input.toString() : "null");
    }
}

此时代码结构如下图,FraudDetectionJobFraudDetector是官方自带的示例,可删除。

打包

执行以下maven命令将UDF代码打包

bash 复制代码
mvn clean package

UDF打包后是要放在Dinky环境中执行的,所以<scope>标签使用的是provided ,打包后的压缩包结构如下,没有一些依赖的其他jar包,非常简洁。

Dinky

上传jar包

进入Dinky界面,点击顶部注册中心菜单,选择左侧资源菜单

Root目录下新建一个文件夹,鼠标右键在新建的文件夹下,会有上传按钮,就可以上传上一步打包好的jar包。

在配置中心的Resource配置里,找到上传资源的路径,也可以在该路径下直接将文件拷贝过去。拷贝完了之后在资源界面里(上图)有一个同步目录结构,点击它就会将新上传的文件刷新出来。

创建作业

进入Dinky数据开发界面,创建一个FLink SQL作业,在作业的开头加入两行代码

sql 复制代码
-- 引入UDF包依赖,路径是上一步上传资源里的路径
ADD JAR 'file:///dinky/udf-demo-0.1.jar';

-- 注册UDF,udfdemo是包名,AddHelloPrefix是自定义函数名,add_hello_prefix是udf的别名
CREATE FUNCTION add_hello_prefix AS 'udfdemo.AddHelloPrefix' LANGUAGE JAVA;

在作业的最后使用UDF查询

sql 复制代码
-- 使用UDF查询
SELECT 
    name,
    add_hello_prefix(name) AS greeting,
    add_hello_prefix(age) AS age_greeting 
FROM users;

查询结果如下

参考

基于 DataStream API 实现欺诈检测 | Apache Flink

Flink SQL 使用自定义 UDF 函数在业务场景中,我们经常需要对身份证信息进行加密在保存,这时我们就需要对身份 - 掘金

相关推荐
溪饱鱼43 分钟前
NextJs + Cloudflare Worker 是出海最佳实践
前端·后端
哈哈哈笑什么44 分钟前
完整分布式事务解决方案(本地消息表 + RabbitMQ)
分布式·后端·rabbitmq
无代码专家1 小时前
设备巡检数字化解决方案:构建高效闭环管理体系
java·大数据·人工智能
天远数科1 小时前
Node.js 原生加密指南:详解 Crypto 模块对接天远银行卡黑名单接口
大数据·api
小周在成长1 小时前
Java 抽象类 vs 接口:相同点与不同点
后端
expect7g1 小时前
Paimon Branch --- 流批一体化之二
大数据·后端·flink
幌才_loong1 小时前
.NET 8 实时推送魔法:SSE 让数据 “主动跑” 到客户端
后端
00后程序员1 小时前
如何解决浏览器HTTPS不安全连接警告及SSL证书问题
后端
00后程序员1 小时前
苹果App上架审核延迟7工作日无反应:如何通过App Store Connect和邮件询问进度
后端
DS小龙哥1 小时前
基于物联网设计的蜂箱智能监测系统设计
后端