Kafka与Flink的整合 -- sink、source

1、首先导入依赖:
复制代码
        <dependency>

            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka</artifactId>
            <version>1.15.2</version>

        </dependency>
2、 source:Flink从Kafka中读取数据
java 复制代码
public class Demo01KafkaSource {
    public static void main(String[] args) throws Exception{
        //构建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //构建kafka source 环境

        KafkaSource<String> source = KafkaSource.<String>builder()
                //指定broker列表
                .setBootstrapServers("master:9092,node1:9092,node2:9092")
                //指定topic
                .setTopics("bigdata")
                //指定消费组
                .setGroupId("my-group")
                //指定数据的读取的位置,earliest指的是读取最早的数据,latest:指定的读取的是最新的数据
                .setStartingOffsets(OffsetsInitializer.earliest())
                //读取数据格式:
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .build();
                //使用kafka数据源
        DataStreamSource<String> kafkaSourceDS = env.
                fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");

        kafkaSourceDS.print();
        //启动flink
        env.execute();

    }
}
启动生产kafka:
复制代码
kafka-console-producer.sh --broker-list master:9092,node1:9092,node2:9092 --topic bigdata
3、sink:Flink向Kafka中写入数据
java 复制代码
public class Demo02KafkaSink {
    public static void main(String[] args) throws Exception{
        //构建flink的环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //读取数据文件:
        DataStreamSource<String> studentDS = env.readTextFile("flink/data/students.txt");

        //创建kafka sink
        KafkaSink<String> sink = KafkaSink.<String>builder()
                //指定flink broker列表
                .setBootstrapServers("master:9092,node1:9092,node2:9092")
                //指定数据的格式:
                .setRecordSerializer(KafkaRecordSerializationSchema.builder()
                        //指定topic,如果topic不存在就会自动的创建一个分区是1个副本是1个的topic
                        .setTopic("student")
                        //指定数据的格式
                        .setValueSerializationSchema(new SimpleStringSchema())
                        .build()
                )
                //指定数据处理的语义:
                .setDeliverGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)
                .build();
        //执行flink
        studentDS.sinkTo(sink);
        //构建flink环境
        env.execute();
    }
}
启动消费kafka:
java 复制代码
kafka-console-consumer.sh --bootstrap-server  master:9092,node1:9092,node2:9092 --from-beginning --topic student
相关推荐
小马爱打代码3 小时前
Redis 集群方案详解:主从复制、哨兵、脑裂、分片集群和哈希槽
数据库·redis·哈希算法
海南java第二人4 小时前
ClickHouse 稀疏索引深度解析:为什么 OLAP 数据库不用 B-Tree?
数据库·clickhouse
Litluecat4 小时前
信创迁移:Oracle切换海量数据库,慢sql扫描
数据库·sql·oracle·信创·海量
消失在人海中5 小时前
Oracle的CURRENT REDO丢失,数据丢失风险分析
数据库·oracle
喵了几个咪5 小时前
选择第三方IAM还是自建权限体系?中小型后台系统权限架构决策指南
数据库·oracle·架构
暴躁小师兄数据学院6 小时前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
Elastic 中国社区官方博客6 小时前
Kibana:使用 AI Chat 及 MCP 轻松创建 AI 原生仪表板
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·信息可视化
杨云龙UP7 小时前
Oracle Health Check巡检脚本使用SOP V2.0:从HTML原始报告→生成Word专业巡检报告→交付客户_2026-06-03
linux·运维·数据库·sql·oracle·报告·巡检
Database_Cool_7 小时前
Hudi 湖仓一体架构:阿里云 AnalyticDB MySQL 原生集成最佳实践
数据库·mysql·阿里云