flink异步读写外部数据源

异步需要考虑的问题其实很多。所以一般情况下能同步解决的就用同步。

这次是有个数据源QPS太高了。20万以上,同步吞吐跟不上。或者同样的处理速率,同步比异步消耗资源多太多。所以就想到了异步方法。需要外部数据源也支持异步访问。刚好是支持的。

异步IO官方文档:异步 I/O | Apache Flink

核心操作:

复制代码
SingleOutputStreamOperator<ArrayList<UsageToPegasus>> appIdStreamCompute = AsyncDataStream
                .orderedWait(appIdStream,
                        new MapAsynProcessState(clusterName, StatePegasusName, stateTtl),
                        asynTimeout,
                        TimeUnit.MILLISECONDS,
                        asynStateCapacity)
                .uid("uid1")
                .name("name1")
                .returns(arrayListTypeInfo)
                .disableChaining()
                ;

异步方法内部:

复制代码
public class MapAsynProcessState extends RichAsyncFunction<AppIdState, ArrayList<UsageToPegasus>> {


    public void open(Configuration parameters) throws Exception {
        super.open(parameters);
        client = PegasusClientFactory.createClient(properties);
        table = client.openTable(StatePegasusName);
        RuntimeContext runtimeContext = getRuntimeContext();
        OperatorMetricGroup metricGroup = runtimeContext.getMetricGroup();

        // 注册监控指标
        successCounter = metricGroup.counter("xxx1"); //falcon监控用。xxx1为指标名称
        failureCounter = metricGroup.counter("xxx");
        timeoutCounter = metricGroup.counter("xxx");
    }


//核心方法
public void asyncInvoke(AppIdState appState, ResultFuture<ArrayList<UsageToPegasus>> resultFuture) throws Exception {

        table.asyncMultiGet(appState.getHashKey().getBytes(), null, 30000).addListener(
                (PegasusTableInterface.MultiGetListener) future -> {
                    String gaid = appState.getHashKey();
                    if (future.isSuccess()) {
                        PegasusTableInterface.MultiGetResult res = future.get();
                        ConcurrentHashMap<Long, long[]> one_hour_map = new ConcurrentHashMap<>();
                        ConcurrentHashMap<Long, long[]> six_hour_map = new ConcurrentHashMap<>();


                处理逻辑......

                        successCounter.inc();
//                            successRateMeter.markEvent();
//结果回收 (非常重要)                            resultFuture.complete(Collections.singleton(longMapToResult(id, one_hour_map, six_hour_map, useLatest, current15minTimestamp)));
                        } //asyncMultiGet监听到结果处理完成
                        else { //asyncMultiGet监听成功,但没结果
//每条路都要有结果回收 (非常重要)    
//有些异常可以返回空,但是也需要返回resultFuture.complete(Collections.emptyList());
                          resultFuture.complete(Collections.singleton(longMapToResult(id, one_hour_map, six_hour_map, useLatest, current15minTimestamp)));
                            System.out.println("本次查询成功,但是结果为空,这个用户当前尚没有记录");
                        }



}

}

注意结果回收:resultFuture.complete(Collections.singleton(结果对象))

//有些异常可以返回空,但是返回这个动作不能省。 resultFuture.complete(Collections.emptyList());

之前有出现过一个bug。异常情况没有回收,flink程序卡住运行不了。加上回收以后就好了。

写部分:

复制代码
写部分:

{
            Future<Void> setFuture = table.asyncSet(
                    appState.getHashKey().getBytes(),
                    appState.getSortKey().getBytes(),
                    MapSerializeAndDeserialize.serializeHashMap(appState.getAppState()),
                    stateTtl,
                    0);

            setFuture.addListener((PegasusTableInterface.SetListener) future ->{
                if (future.isSuccess()) {
                    stateSetSuccessCounter.inc();
                } else {
                    stateSetFailureCounter.inc();
                    System.err.println("写状态失败的原因是"+future.cause());
                }
            });

另外的示例:

复制代码
inal Future<Void> pegasusResultFuture = this.table.asyncSet(pegasusKey.getBytes(), realtimeSampleSortKey, streamSample.getFeatureRowBytes(), ttl, 10000);

        CompletableFuture.supplyAsync(  // 写Pegasus
                        () -> {
                            try {
                                markEventSync(metricGroup, counterMap, "pegasus_write", ENV);
                                return pegasusResultFuture.get();
                            } catch (Exception e) {
                                markEventSync(metricGroup, counterMap, "pegasus_write_err_1", ENV);
                                LOGGER.error("Pegasus write error: ", e);
                                return null;
                            }
                        })
                .handle(
                        (Void dbResult, Throwable throwable) -> {
                            // 异步查询异常,可进行重试
                            if (throwable != null) {
                                markEventSync(metricGroup, counterMap, "pegasus_write_err_2", ENV);
                                LOGGER.warn("Future complete error: ", throwable);
                                resultFuture.completeExceptionally(throwable);
                                return "fail";
                            }
                            markEventSync(metricGroup, counterMap, "pegasus_write_success", ENV);
                            resultFuture.complete(Collections.singleton(streamSample));
                            return "success";
                        });
    }
相关推荐
AEIC学术交流中心1 小时前
【快速EI检索 | SPIE出版】第六届中国膜计算论坛暨2026年人工智能、大数据与电气自动化国际学术会议(CWMC&AIBDE 2026)
大数据·人工智能·量子计算
历程里程碑2 小时前
二叉树---二叉树的中序遍历
java·大数据·开发语言·elasticsearch·链表·搜索引擎·lua
AC赳赳老秦2 小时前
OpenClaw text-translate技能:多语言批量翻译,解决跨境工作沟通难题
大数据·运维·数据库·人工智能·python·deepseek·openclaw
Elastic 中国社区官方博客3 小时前
使用 Elasticsearch + Jina embeddings 进行无监督文档聚类
大数据·人工智能·elasticsearch·搜索引擎·全文检索·jina
我是章汕呐3 小时前
政策评估的“黄金标准”:DID模型从原理到Stata实操
大数据·人工智能·经验分享·算法·回归
Data-Miner4 小时前
54页可编辑PPT | 数据中台建设方案汇报
大数据·人工智能
皮皮学姐分享-ppx4 小时前
1447上市公司数字化转型速度的计算(2000-2022年)
大数据·人工智能
才盛智能科技5 小时前
麦粒空间和元K聚合平台正式签约,全面启动流量合作
大数据·人工智能·元k聚合·麦粒空间
V搜xhliang02465 小时前
基于¹⁸F-FDG PET/CT的深度学习-影像组学-临床模型预测非小细胞肺癌脉管侵犯的价值
大数据·人工智能·python·深度学习·机器学习·机器人
juniperhan5 小时前
Flink 系列第4篇:Flink 时间系统与 Timer 定时器实战精讲
java·大数据·数据仓库·flink