flink多数据类型从Kafka同步到动态HDFS目录

上文中只是处理了JSON数据,参考:juejin.cn/post/732131... 实际使用场景常见的数据除了json之外还有csv等,期望flink程序可以适配这两种数据类型,分别按照事件时间将数据写入到文件系统中。

程序

核心还是实现BucketAssigner接口,这里我们将具体逻辑抽取放到类方法中实现,目的是为了可以正常调用并访问全局配置以及对象。

java 复制代码
.withBucketAssigner(new BucketAssigner<String, String>() {
    @Override
    public String getBucketId(String s, Context context) {
        String bucketId;  //? 定义bucketId变量
        String customBucketId = null;
        try {
        // 获取自定义的bucketId
            customBucketId = kafka2FileSys.getCustomBucketId(s);
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
        //? 构造bucketId并返回
        bucketId = "dtime=" + customBucketId;
        return bucketId;
    }

    @Override
    public SimpleVersionedSerializer<String> getSerializer() {
        return SimpleVersionedStringSerializer.INSTANCE;
    }
})

具体的类方法如下:

java 复制代码
public String getCustomBucketId(String value) throws Exception {
    String dtime;
    // 从配置文件中读取数据类型以及其他配置
    String dataType = getConfigValue("datatype");  // json or text
    String dtField = getConfigValue("datetimefield");  // json datetime field
    int dtIndex = Integer.parseInt(getConfigValue("datetimefieldindex"));  // text datetime index
    String dataPatter = getConfigValue("datapatter");  // text sign
    if(dataType.equalsIgnoreCase("JSON")){
        JSONObject jsonObject = JSON.parseObject(value);
        dtime = jsonObject.getString(dtField);
    } else if (dataType.equalsIgnoreCase("TEXT")) {
        String[] valueList = value.split(dataPatter);
        dtime = valueList[dtIndex];
    }else{
        return null;
    }
    // 解析日期时间数据
    String dtFormat = getConfigValue("datetimeformat");
    DatetimeTool dtTool = new DatetimeTool(dtime, dtFormat);
    return dtTool.getDate("yyyyMMdd");
}

如果是json数据,则从一级的key中获取对应的日期时间数据;如果是csv(按照分隔符分割的文本数据)的话,从配置中加载日期时间的索引以及分隔符,然后进行解析。 然后按照对应的日期时间格式进行解析返回yyyyMMdd的日期时间字符串。 BucketAssigner接口再做前缀的拼接,例如添加dtime=的前缀,组成dtime=20230101的格式。

主要的核心代码就是上述的内容了。这个需求只是做同步,可用于同步到数仓的ODS层。具体的数据处理以及清洗的逻辑没有实现多数据类型的清洗逻辑比较麻烦,可以对各业务的数据情况以及数据类型、格式等做抽象,封装数据解析处理类,在map或者flatmap等算子中创建数据处理解析类实现解析的逻辑,也可以实现自定义的抽象接口等。 其他的工具类就不废话了。

github

GitHub地址:github.com/saberbin/Ka...

gitee地址:gitee.com/saberbin/Ka...

(因为GitHub没法正常访问,所以GitHub目前仓库是空的,gitee有完整的项目代码。)readme文档没有写,因为GitHub无法正常访问,写了也是白写。后面心情好了会写readme,push到GitHub,gitee不会再更新了[种植]。 gitee姑且是设置开源了,不知是否可以正常访问。 最后,快过年了,新春快乐。

相关推荐
专注VB编程开发20年2 分钟前
python图片验证码识别selenium爬虫--超级鹰实现自动登录,滑块,点击
数据库·python·mysql
智商偏低3 分钟前
Postgresql导入几何数据(shp,geojson)的几种方式
数据库·postgresql
weixin_66819 分钟前
GitHub 2026年AI项目热度分析报告-AI分析-分享
人工智能·github
我是Superman丶31 分钟前
在 PostgreSQL 中使用 JSONB 类型并结合 MyBatis-Plus 实现自动注入,主要有以下几种方案
数据库·postgresql·mybatis
五度易链-区域产业数字化管理平台35 分钟前
「五度易链」行业标准信息数据库简介
大数据·数据库
爬山算法37 分钟前
Hibernate(85)如何在持续集成/持续部署(CI/CD)中使用Hibernate?
java·ci/cd·hibernate
霖霖总总1 小时前
[小技巧65]深入 InnoDB 页的逻辑存储结构:16KB 页的逻辑全景解析
数据库·mysql
数研小生1 小时前
关键词搜索京东列表API技术对接指南
大数据·数据库·爬虫
菜鸟233号1 小时前
力扣647 回文子串 java实现
java·数据结构·leetcode·动态规划
qq_12498707531 小时前
基于Java Web的城市花园小区维修管理系统的设计与实现(源码+论文+部署+安装)
java·开发语言·前端·spring boot·spring·毕业设计·计算机毕业设计