flink分别使用FilterMap和ProcessFunction实现去重逻辑

背景

在日常的工作中,对数据去重是一件很常见的操作,比如我们只需要保留重复记录的第一条,而忽略掉后续重复的记录,达到去重的效果,本文就使用flink的FilterMap和ProcessFunction来实现去重逻辑

FilterMap和ProcessFunction去重实现

filterMap实现去重

java 复制代码
public class DuplicateRichFlatMap extends RichFlatMapFunction<WikipediaEditEvent, WikipediaEditEvent> {

    ValueState<Boolean> duplicateInput;

    @Override
    public void open(Configuration parameters) throws Exception {
        duplicateInput = getRuntimeContext().getState(new ValueStateDescriptor<Boolean>("duplicate", Types.BOOLEAN));
    }

    @Override
    public void flatMap(WikipediaEditEvent in, Collector<WikipediaEditEvent> collector) throws Exception {
        if (duplicateInput.value() == null) {
            collector.collect(in);
            duplicateInput.update(true);
        }
    }

}

这里实现的关键就是有一个key-value的flink状态

ProcessFunction去重

java 复制代码
public class DupliacateProcessFunction extends KeyedProcessFunction<String, WikipediaEditEvent, WikipediaEditEvent> {


    ValueState<Boolean> duplicateInput;

    @Override
    public void open(Configuration parameters) throws Exception {
        ValueStateDescriptor stateDescriptor = new ValueStateDescriptor<Boolean>("previousInput", Types.BOOLEAN);
        // 状态ttl超时时间设置
        StateTtlConfig ttlConfig =
                StateTtlConfig.newBuilder(Time.days(1)).setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
                        .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
                        // check 10 keys for every state access
                        .cleanupIncrementally(100, false).build();
        stateDescriptor.enableTimeToLive(ttlConfig);
        duplicateInput = getRuntimeContext().getState(stateDescriptor);
    }

    @Override
    public void processElement(WikipediaEditEvent in, Context context, Collector<WikipediaEditEvent> collector)
            throws Exception {
        if (duplicateInput.value() == null) {
            collector.collect(in);
            duplicateInput.update(true);
        }
    }
}

这里的关键代码也是拥有一个key-value的状态

触发计算的job代码如下

java 复制代码
public class DuplicateJob {

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment see = StreamExecutionEnvironment.getExecutionEnvironment();
        see.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

        DataStream<WikipediaEditEvent> edits = see.addSource(new RandomStringSource());

        KeyedStream<WikipediaEditEvent, String> keyedEdits = edits.keyBy(new KeySelector<WikipediaEditEvent, String>() {
            @Override
            public String getKey(WikipediaEditEvent event) {
                return event.getUser();
            }
        });

        // 通过RichFlatMap实现去重
        DataStream<WikipediaEditEvent> result = keyedEdits.flatMap(new DuplicateRichFlatMap());
        // 通过ProcessFunction实现去重
//        DataStream<WikipediaEditEvent> result = keyedEdits.process(new DupliacateProcessFunction());

        result.print();
        see.execute();

    }
}
相关推荐
Hello.Reader6 小时前
Flink ZooKeeper HA 实战原理、必配项、Kerberos、安全与稳定性调优
安全·zookeeper·flink
AI_56786 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
CRzkHbaXTmHw7 小时前
探索Flyback反激式开关电源的Matlab Simulink仿真之旅
大数据
七夜zippoe7 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann
盟接之桥7 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
忆~遂愿7 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
忆~遂愿8 小时前
GE 引擎与算子版本控制:确保前向兼容性与图重写策略的稳定性
大数据·开发语言·docker
米羊1218 小时前
已有安全措施确认(上)
大数据·网络
人道领域9 小时前
AI抢人大战:谁在收割你的红包
大数据·人工智能·算法
qq_124987075310 小时前
基于Hadoop的信贷风险评估的数据可视化分析与预测系统的设计与实现(源码+论文+部署+安装)
大数据·人工智能·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计