Kafka工具类

java 复制代码
package utils;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.kafka.sink.KafkaRecordSerializationSchema;
import org.apache.flink.connector.kafka.sink.KafkaSink;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

/**
 * @Package utils.KafkaUtil
 * @Author xuang
 * @Date 2025/5/13 16:20
 * @description: kafka工具类
 */
public class KafkaUtil {
    public static KafkaSink<String> getKafkaProduct(String servers, String topic) {
        return KafkaSink.<String>builder()
                .setBootstrapServers(servers)
                .setRecordSerializer(KafkaRecordSerializationSchema.builder()
                        .setTopic(topic)
                        .setValueSerializationSchema(new SimpleStringSchema())
                        .build()
                )
                .build();
    }

    public static DataStreamSource<String> getKafkaConsumer(StreamExecutionEnvironment env, String servers, String topic) {
        // 配置 KafkaSource
        KafkaSource<String> source = KafkaSource.<String>builder()
                .setBootstrapServers(servers)
                .setTopics(topic)
                .setGroupId("flink-group")
                .setStartingOffsets(OffsetsInitializer.earliest())
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .build();

        // 将 KafkaSource 添加到作业
        return env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");
    }
}

概述

KafkaUtil 是一个 Apache Flink 工具类,封装了 Kafka 作为数据源(Source)和数据汇(Sink)的常用操作,简化了 Flink 与 Kafka 集成的开发工作。

功能

实现细节

Kafka Sink 配置

Kafka Source 配置

最佳实践

  1. Kafka Sink​ - 将 Flink 数据流写入 Kafka

  2. Kafka Source​ - 从 Kafka 读取数据作为 Flink 数据源

  3. 使用 SimpleStringSchema 作为值的序列化器

  4. 支持多服务器配置

  5. 需要指定目标 topic

  6. 使用 SimpleStringSchema 作为值的反序列化器

  7. 从最早偏移量开始消费(earliest())

  8. 默认消费者组 ID 为 "flink-group"

  9. 不使用 watermark 策略

  10. 消费者组管理

    对于生产环境,建议在调用处自定义消费者组 ID,而不是使用默认的 "flink-group"

  11. 序列化扩展

    对于复杂数据类型,可以扩展此类支持自定义序列化/反序列化器

  12. 容错配置

    生产环境中应考虑添加以下配置:

    • 重试策略

    • 事务配置(精确一次语义)

    • 检查点配置

  13. 安全配置

    如果 Kafka 集群启用了安全认证,需要添加以下配置:

    • SSL/TLS

    • SASL 认证

    • ACL 权限

相关推荐
lifallen1 小时前
Paimon 与 ForSt 场景选型分析
java·大数据·flink
请为小H留灯1 小时前
Kafka详解及实战案例
分布式·kafka·linq·消费
Devin~Y4 小时前
大厂内容社区面试实录:从 Spring Boot 微服务到 AI RAG 问答(附详细解析)
java·spring boot·redis·elasticsearch·spring cloud·微服务·kafka
indexsunny5 小时前
互联网大厂Java求职面试实战:从Spring Boot到Kafka的技术问答解析
java·spring boot·spring cloud·kafka·flyway·hikaricp·microservices
juniperhan5 小时前
Flink 系列第9篇:Flink 重启策略详解
java·大数据·数据仓库·flink
csgo打的菜又爱玩6 小时前
2.Flink RPC通信流程解析
大数据·rpc·flink
大大大大晴天️1 天前
Flink技术实践-Flink SQL 开发中的隐蔽陷阱
大数据·sql·flink
刘~浪地球1 天前
消息队列--Kafka 生产环境最佳实践
分布式·kafka·linq
却话巴山夜雨时i1 天前
互联网大厂Java面试场景:Spring Boot、微服务与Redis实战解析
spring boot·redis·微服务·kafka·prometheus·java面试·电商场景
juniperhan1 天前
Flink 系列第8篇:Flink Checkpoint 全解析(原理+流程+配置+优化)
大数据·分布式·flink