9、Flink 用户自定义 Functions 及 累加器详解

1)用户自定义函数
1.实现接口

最基本的方法是实现提供的接口。

复制代码
# 根据提供的接口创建自定义函数
class MyMapFunction implements MapFunction<String, Integer> {
  public Integer map(String value) { 
    return Integer.parseInt(value); 
  }
}

# 调用创建的自定义函数
data.map(new MyMapFunction());
2.匿名类

可以将 function 当做匿名类传递。

复制代码
data.map(new MapFunction<String, Integer> () {
  public Integer map(String value) { 
     return Integer.parseInt(value); 
  }
});
3.Java 8 Lambdas

Flink 在 Java API 中还支持 Java 8 Lambdas 表达式。

复制代码
data.filter(s -> s.startsWith("http://"));

data.reduce((i1,i2) -> i1 + i2);
4.Rich functions

所有需要用户自定义 function 的转化操作都可以将 rich function 作为参数。

复制代码
class MyMapFunction implements MapFunction<String, Integer> {
  public Integer map(String value) { 
    return Integer.parseInt(value); 
  }
}

替换成

复制代码
class MyMapFunction extends RichMapFunction<String, Integer> {
  public Integer map(String value) { 
    return Integer.parseInt(value); 
  }
}

并将 function 照常传递给 map transformation。

复制代码
data.map(new MyMapFunction());

Rich functions 也可以定义成匿名类:

复制代码
data.map (new RichMapFunction<String, Integer>() {
  public Integer map(String value) { 
    return Integer.parseInt(value); 
  }
});
2)累加器 和 计数器
1.概述

累加器是具有加法运算最终累加结果 的一种简单结构,可在作业结束后使用

最简单的累加器是计数器 : 可以使用 Accumulator.add(V value) 方法将其递增。

在作业结束时,Flink 会汇总(合并)所有部分的结果并将其发送给客户端,Flink 目前有如下内置累加器,每个都实现了累加器接口。

  • IntCounter , LongCounterDoubleCounter
  • Histogram(直方图): 离散数量的柱状直方图实现;在内部,它只是整形到整形的映射,可以使用它来计算值的分布,例如,单词计数程序的每行单词的分布情况【详见 Metrics】。
2.使用累加器

首先,在需要使用累加器的用户自定义的转换 function 中创建一个累加器对象(此处是计数器)。

复制代码
private IntCounter numLines = new IntCounter();

其次,必须在 rich function 的 open() 方法中注册累加器对象,也可以在此处定义累加器的名称。

复制代码
getRuntimeContext().addAccumulator("num-lines", this.numLines);

在操作 function 中的任何位置(包括 open()close() 方法中)使用累加器。

复制代码
this.numLines.add(1);

最终整体结果会存储在由执行环境的 execute() 方法返回的 JobExecutionResult 对象中(当前只有等待作业完成后执行才起作用)。

复制代码
myJobExecutionResult.getAccumulatorResult("num-lines");

单个作业的所有累加器共享一个命名空间,因此可以在不同的操作 function 里面使用同一个累加器;Flink 会在内部将所有具有相同名称的累加器合并起来。

关于累加器和迭代的注意事项 :当前累加器的结果只有在整个作业结束后才可用;Flink 计划在下一次迭代中提供上一次的迭代结果;可以使用 聚合器 来计算每次迭代的统计信息,并基于此类统计信息来终止迭代。

3.定制累加器

自定义累加器只需要实现累加器接口,可以选择实现 Accumulator 或 SimpleAccumulator。

Accumulator 的实现十分灵活: 它定义了将要添加的值类型 V,并定义了最终的结果类型 R;例如,对于直方图,V 是一个数字且 R 是一个直方图。

SimpleAccumulator 适用于两种类型都相同的情况,例如计数器。

4.总结
复制代码
1.通过调用 execute() 方法返回的 JobExecutionResult 对象获得累加器结果(只有等待作业完成后执行才起作用)。

2.单个作业的所有累加器共享一个命名空间,可以在不同的操作 function 里面使用同一个累加器;Flink 会在内部将所有具有相同名称的累加器合并起来。
相关推荐
扁豆的主人5 小时前
Elasticsearch
大数据·elasticsearch·jenkins
想ai抽6 小时前
Flink重启策略有啥用
大数据·flink
TMT星球6 小时前
TCL华星t8项目正式开工,总投资额约295亿元
大数据·人工智能
阿里云大数据AI技术6 小时前
云栖实录 | 驶入智驾深水区:广汽的“数据突围“之路
大数据·人工智能
B站_计算机毕业设计之家6 小时前
python股票交易数据管理系统 金融数据 分析可视化 Django框架 爬虫技术 大数据技术 Hadoop spark(源码)✅
大数据·hadoop·python·金融·spark·股票·推荐算法
腾讯云开发者7 小时前
太古可口可乐的数智跃迁:用 AI 重构快消渠道的“最后一公里”
大数据
GIS数据转换器7 小时前
2025无人机在农业生态中的应用实践
大数据·网络·人工智能·安全·无人机
武子康7 小时前
大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法
大数据·后端·flink
Lion Long8 小时前
PB级数据洪流下的抉择:从大数据架构师视角,深度解析时序数据库选型与性能优化(聚焦Apache IoTDB)
大数据·性能优化·apache·时序数据库·iotdb
Lx3528 小时前
Flink背压机制:原理与调优策略
大数据