二、Flink使用异步算子请求高德地图获取位置信息

二、Flink使用异步算子请求高德地图获取位置信息

1、概述
1)Flink异步算子使用介绍
1.异步与同步概述

同步:向数据库发送一个请求然后一直等待,直到收到响应。在许多情况下,等待占据了函数运行的大部分时间。

异步:一个并行函数实例可以并发地处理多个请求和接收多个响应。函数在等待的时间可以发送其他请求和接收其他响应。至少等待的时间可以被多个请求摊分。

异步的优势:异步交互可以大幅度提高流处理的吞吐量。

注意: 仅仅提高算子的并行度(parallelism)在有些情况下也可以提升吞吐量,但是这样做通常会导致非常高的资源消耗:更多的并行 实例意味着更多的 Task、更多的线程、更多的 Flink 内部网络连接、 更多的与数据库的网络连接、更多的缓冲和更多程序内部协调的开销。

2.数据库(或键/值存储)的异步 I/O 交互前提条件

a)需要支持异步请求的数据库客户,许多主流数据库都提供了这样的客户端。

b)如果没有异步客户端,可以通过创建多个客户端并使用线程池处理同步调用的方法,将同步客户端转换为有限并发的客户端。

3.异步 I/O API

Flink 的异步 I/O API 允许用户在流处理中使用异步请求客户端。API 处理与数据流的集成,同时还能处理好顺序、事件时间和容错等。

在具备异步数据库客户端的基础上,实现数据流转换操作与数据库的异步 I/O 交互需要以下三部分:

a)实现分发请求的 AsyncFunction

b)获取数据库交互的结果并发送给 ResultFuture回调 函数

c)将异步 I/O 操作应用于 DataStream 作为 DataStream 的一次转换操作。

java 复制代码
// 这个例子使用 Java 8 的 Future 接口(与 Flink 的 Future 相同)实现了异步请求和回调。

/**
 * 实现 'AsyncFunction' 用于发送请求和设置回调。
 */
class AsyncDatabaseRequest extends RichAsyncFunction<String, Tuple2<String, String>> {

    /** 能够利用回调函数并发发送请求的数据库客户端 */
    private transient DatabaseClient client;

    @Override
    public void open(Configuration parameters) throws Exception {
        client = new DatabaseClient(host, post, credentials);
    }

    @Override
    public void close() throws Exception {
        client.close();
    }

    @Override
    public void asyncInvoke(String key, final ResultFuture<Tuple2<String, String>> resultFuture) throws Exception {

        // 发送异步请求,接收 future 结果
        final Future<String> result = client.query(key);

        // 设置客户端完成请求后要执行的回调函数
        // 回调函数只是简单地把结果发给 future
        CompletableFuture.supplyAsync(new Supplier<String>() {

            @Override
            public String get() {
                try {
                    return result.get();
                } catch (InterruptedException | ExecutionException e) {
                    // 显示地处理异常。
                    return null;
                }
            }
        }).thenAccept( (String dbResult) -> {
            resultFuture.complete(Collections.singleton(new Tuple2<>(key, dbResult)));
        });
    }
}

// 创建初始 DataStream
DataStream<String> stream = ...;

// 应用异步 I/O 转换操作
DataStream<Tuple2<String, String>> resultStream =
    AsyncDataStream.unorderedWait(stream, new AsyncDatabaseRequest(), 1000, TimeUnit.MILLISECONDS, 100);

注意 : 第一次调用 ResultFuture.completeResultFuture 就完成了。 后续的 complete 调用都将被忽略。

下面两个参数控制异步操作:

Timeout: 超时参数定义了异步请求发出多久后未得到响应即被认定为失败。 它可以防止一直等待得不到响应的请求。

Capacity: 容量参数定义了可以同时进行的异步请求数。 即使异步 I/O 通常带来更高的吞吐量,执行异步 I/O 操作的算子仍然可能成为流处理的瓶颈。 限制并发请求的数量可以确保算子不会持续累积待处理的请求进而造成积压,而是在容量耗尽时触发反压。

4.超时处理

当异步 I/O 请求超时的时候,默认会抛出异常并重启作业。 如果你想处理超时,可以重写 AsyncFunction#timeout 方法。

5.结果的顺序

AsyncFunction 发出的并发请求经常以不确定的顺序完成,这取决于请求得到响应的顺序。 Flink 提供两种模式控制结果记录以何种顺序发出。

无序模式 : 异步请求一结束就立刻发出结果记录。 流中记录的顺序在经过异步 I/O 算子之后发生了改变。 当使用 处理时间 作为基本时间特征时,这个模式具有最低的延迟和最少的开销。 此模式使用 AsyncDataStream.unorderedWait(...) 方法。

有序模式 : 这种模式保持了流的顺序。发出结果记录的顺序与触发异步请求的顺序(记录输入算子的顺序)相同。为了实现这一点,算子将缓冲一个结果记录直到这条记录前面的所有记录都发出(或超时)。由于记录或者结果要在 checkpoint 的状态中保存更长的时间,所以与无序模式相比,有序模式通常会带来一些额外的延迟和 checkpoint 开销。此模式使用 AsyncDataStream.orderedWait(...) 方法。

6.事件时间

当流处理应用使用事件时间时,异步 I/O 算子会正确处理 watermark。对于两种顺序模式,这意味着以下内容:

无序模式 : Watermark 既不超前于记录也不落后于记录,即 watermark 建立了顺序的边界。 只有连续两个 watermark 之间的记录是无序发出的。 在一个 watermark 后面生成的记录只会在这个 watermark 发出以后才发出。 在一个 watermark 之前的所有输入的结果记录全部发出以后,才会发出这个 watermark。

这意味着存在 watermark 的情况下,无序模式 会引入一些与有序模式 相同的延迟和管理开销。开销大小取决于 watermark 的频率。

有序模式 : 连续两个 watermark 之间的记录顺序也被保留了。开销与使用处理时间 相比,没有显著的差别。

7.容错保证

异步 I/O 算子提供了完全的精确一次容错保证。它将在途的异步请求的记录保存在 checkpoint 中,在故障恢复时重新触发请求。

8.DirectExecutor

在实现使用 Executor 和回调的 Futures 时,建议使用 DirectExecutor,因为通常回调的工作量很小,DirectExecutor 避免了额外的线程切换开销。回调通常只是把结果发送给 ResultFuture,也就是把它添加进输出缓冲。从这里开始,包括发送记录和与 chenkpoint 交互在内的繁重逻辑都将在专有的线程池中进行处理。

DirectExecutor 可以通过 org.apache.flink.util.concurrent.Executors.directExecutor()com.google.common.util.concurrent.MoreExecutors.directExecutor() 获得。

9.注意

以下情况导致阻塞的 asyncInvoke(...) 函数,从而使异步行为无效

a)使用同步数据库客户端,它的查询方法调用在返回结果前一直被阻塞。

b)在 asyncInvoke(...) 方法内阻塞等待异步客户端返回的 future 类型对象

目前,出于一致性的原因,AsyncFunction 的算子(异步等待算子)必须位于算子链的头部,必须断开异步等待算子的算子链以防止潜在的一致性问题 。需要旧有行为并接受可能违反一致性保证的用户可以实例化并手工将异步等待算子添加到作业图中并将链策略设置回通过异步等待算子的 ChainingStrategy.ALWAYS 方法进行链接。

2)版本说明
名称 版本
jdk 1.8
Flink 1.14.6
fastjson 1.2.83
2、代码实现
java 复制代码
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.AsyncDataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.async.ResultFuture;
import org.apache.flink.streaming.api.functions.async.RichAsyncFunction;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.http.HttpResponse;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.nio.client.CloseableHttpAsyncClient;
import org.apache.http.impl.nio.client.HttpAsyncClients;
import org.apache.http.util.EntityUtils;

import java.util.Collections;
import java.util.concurrent.CompletableFuture;
import java.util.concurrent.Future;
import java.util.concurrent.TimeUnit;
import java.util.function.Supplier;

public class AsyncGaodeMapDemo {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 模拟输入数据
        DataStreamSource<String> data = env.socketTextStream("localhost", 8888);

        // 调用异步算子请求高德API
        AsyncDataStream.unorderedWait(
                data,
                new AstncGaodeMap(),
                30000,
                TimeUnit.MILLISECONDS,
                10).print();

        env.execute();
    }
}

class AstncGaodeMap extends RichAsyncFunction<String, OrderBean> {
    private CloseableHttpAsyncClient httpAsyncClient;
    private String key = "在高德开发者平台申请";
    private String province;
    private String city;

    @Override
    public void open(Configuration parameters) throws Exception {
        //创建异步查询的HTTPClient
        //创建一个异步的HttpClient连接池
        //初始化异步的HttpClient
        RequestConfig requestConfig = RequestConfig.custom()
                .setSocketTimeout(3000)
                .setConnectTimeout(3000)
                .build();

        httpAsyncClient = HttpAsyncClients.custom()
                .setMaxConnTotal(10)
                .setDefaultRequestConfig(requestConfig)
                .build();

        httpAsyncClient.start();
    }

    @Override
    public void asyncInvoke(String input, ResultFuture<OrderBean> resultFuture) throws Exception {
        OrderBean orderBean = JSON.parseObject(input, OrderBean.class);
        String latitude = orderBean.getLatitude();
        String longitude = orderBean.getLongitude();

        //创建异步查询,使用restAPI
        HttpGet httpGet = new HttpGet("https://restapi.amap.com/v3/geocode/regeo?&location=" + longitude + "," + latitude + "&key=" + key);

        //执行查询,返回future
        Future<HttpResponse> future = httpAsyncClient.execute(httpGet, null);

        //从future中获取数据
        CompletableFuture.supplyAsync(new Supplier<OrderBean>() {
            @Override
            public OrderBean get() {
                try {
                    // 同步获取返回结果
                    HttpResponse httpResponse = future.get();

                    // 如果请求成功
                    if (httpResponse.getStatusLine().getStatusCode() == 200) {
                        //获取请求的json字符串
                        String result = EntityUtils.toString(httpResponse.getEntity());

                        System.out.println(result);

                        //转成json对象
                        JSONObject jsonObject = JSON.parseObject(result);

                        //获取位置信息
                        JSONObject regeocode = jsonObject.getJSONObject("regeocode");

                        if (regeocode != null && !regeocode.isEmpty()) {
                            JSONObject address = regeocode.getJSONObject("addressComponent");
                            province = address.getString("province");
                            city = address.getString("city");
                        }
                    }
                    orderBean.setProvince(province);
                    orderBean.setCity(city);
                    return orderBean;
                } catch (Exception e) {
                    e.printStackTrace();
                    return null;
                }
            }
        }).thenAccept((OrderBean result) -> {
            resultFuture.complete(Collections.singleton(result));
        });
    }

    @Override
    public void close() throws Exception {
        httpAsyncClient.close();
    }
}
typescript 复制代码
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.EqualsAndHashCode;
import lombok.NoArgsConstructor;

@Data
@AllArgsConstructor
@NoArgsConstructor
@EqualsAndHashCode
public class OrderBean {
    private String oid;
    private String cid;
    private String money;
    private String longitude;
    private String latitude;
    private String province;
    private String city;
}
3、执行结果

1)启动测试端口:

yaml 复制代码
nc -lk 8888

2)输入测试数据

json 复制代码
{"oid": "o1000", "cid": "c10", "money": 99.99, "longitude": 116.413467, "latitude": 39.908072}

3)高德API返回结果

ruby 复制代码
{"status":"1","regeocode":{"addressComponent":{"city":[],"province":"北京市","adcode":"110101","district":"东城区","towncode":"110101001000","streetNumber":{"number":"4号","location":"116.413426,39.907697","direction":"南","distance":"41.8452","street":"东长安街"},"country":"中国","township":"东华门街道","businessAreas":[{"location":"116.412031,39.913505","name":"王府井","id":"110101"},{"location":"116.416804,39.913479","name":"东单","id":"110101"},{"location":"116.425171,39.929561","name":"东四","id":"110101"}],"building":{"name":[],"type":[]},"neighborhood":{"name":[],"type":[]},"citycode":"010"},"formatted_address":"北京市东城区东华门街道东长安街"},"info":"OK","infocode":"10000"}

4)程序返回结果

ini 复制代码
OrderBean(oid=o1000, cid=c10, money=99.99, longitude=116.413467, latitude=39.908072, province=北京市, city=[])

5)示例截图

相关推荐
宝哥大数据7 小时前
Flink Joins
flink
Java 第一深情10 小时前
零基础入门Flink,掌握基本使用方法
大数据·flink·实时计算
我的K840910 小时前
Flink整合Hudi及使用
linux·服务器·flink
老周聊架构1 天前
聊聊Flink:Flink中的时间语义和Watermark详解
大数据·flink
high20111 天前
【Apache Paimon】-- 5 -- Flink 向 Paimon 表写入数据
linux·flink·apache·paimon
别这么骄傲1 天前
Flink Lookup Join(维表 Join)
大数据·flink·linq
出发行进1 天前
Flink错误:一historyserver无法启动,二存在的文件会报错没有那个文件或目录
大数据·linux·hadoop·flink·虚拟机
袖清暮雨2 天前
3_Flink CDC
大数据·flink
我的K84092 天前
Flink CDC的安装配置
大数据·flink
老周聊架构3 天前
聊聊Flink:Flink的分区机制
大数据·flink