Kafka与Flink的整合 -- sink、source

1、首先导入依赖:
复制代码
        <dependency>

            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka</artifactId>
            <version>1.15.2</version>

        </dependency>
2、 source:Flink从Kafka中读取数据
java 复制代码
public class Demo01KafkaSource {
    public static void main(String[] args) throws Exception{
        //构建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //构建kafka source 环境

        KafkaSource<String> source = KafkaSource.<String>builder()
                //指定broker列表
                .setBootstrapServers("master:9092,node1:9092,node2:9092")
                //指定topic
                .setTopics("bigdata")
                //指定消费组
                .setGroupId("my-group")
                //指定数据的读取的位置,earliest指的是读取最早的数据,latest:指定的读取的是最新的数据
                .setStartingOffsets(OffsetsInitializer.earliest())
                //读取数据格式:
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .build();
                //使用kafka数据源
        DataStreamSource<String> kafkaSourceDS = env.
                fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");

        kafkaSourceDS.print();
        //启动flink
        env.execute();

    }
}
启动生产kafka:
复制代码
kafka-console-producer.sh --broker-list master:9092,node1:9092,node2:9092 --topic bigdata
3、sink:Flink向Kafka中写入数据
java 复制代码
public class Demo02KafkaSink {
    public static void main(String[] args) throws Exception{
        //构建flink的环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //读取数据文件:
        DataStreamSource<String> studentDS = env.readTextFile("flink/data/students.txt");

        //创建kafka sink
        KafkaSink<String> sink = KafkaSink.<String>builder()
                //指定flink broker列表
                .setBootstrapServers("master:9092,node1:9092,node2:9092")
                //指定数据的格式:
                .setRecordSerializer(KafkaRecordSerializationSchema.builder()
                        //指定topic,如果topic不存在就会自动的创建一个分区是1个副本是1个的topic
                        .setTopic("student")
                        //指定数据的格式
                        .setValueSerializationSchema(new SimpleStringSchema())
                        .build()
                )
                //指定数据处理的语义:
                .setDeliverGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)
                .build();
        //执行flink
        studentDS.sinkTo(sink);
        //构建flink环境
        env.execute();
    }
}
启动消费kafka:
java 复制代码
kafka-console-consumer.sh --bootstrap-server  master:9092,node1:9092,node2:9092 --from-beginning --topic student
相关推荐
岳麓丹枫00110 分钟前
PostgreSQL 中 pg_wal 目录里的 .ready .done .history 文件的生命周期
数据库·postgresql
陌上丨6 小时前
Redis的Key和Value的设计原则有哪些?
数据库·redis·缓存
Hello.Reader7 小时前
Flink ZooKeeper HA 实战原理、必配项、Kerberos、安全与稳定性调优
安全·zookeeper·flink
AI_56787 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
ccecw7 小时前
Mysql ONLY_FULL_GROUP_BY模式详解、group by非查询字段报错
数据库·mysql
JH30737 小时前
达梦数据库与MySQL的核心差异解析:从特性到实践
数据库·mysql
数据知道7 小时前
PostgreSQL 核心原理:如何利用多核 CPU 加速大数据量扫描(并行查询)
数据库·postgresql
麦聪聊数据8 小时前
Web 原生架构如何重塑企业级数据库协作流?
数据库·sql·低代码·架构
未来之窗软件服务8 小时前
数据库优化提速(四)新加坡房产系统开发数据库表结构—仙盟创梦IDE
数据库·数据库优化·计算机软考
Goat恶霸詹姆斯10 小时前
mysql常用语句
数据库·mysql·oracle