学习笔记 | Kafka

一、概述

定义

1、Kafka传统定义：Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用与大数据实时处理领域。

2、发布/订阅：消息的发送者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接受自己感兴趣的消息。

3、Kafka 最新定义：Kafka是一个开源的分布式事件流平台（Event Streaming Platfrom），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

消息队列的应用场景

传统的消息队列主要应用场景包括：缓存/削峰、解耦和异步通信。

缓存/削峰

所有数据可以全部缓存到消息队列，服务器可以根据自己处理的性能按一定的频率去消息队列中取。

解耦

减少服务之间的直接调用，由消息队列充当中间者。

异步通信

一个业务可以将优化体验（发短信）的动作放到消息队列中，由专门的服务去处理，达到快速响应上游。

消息队列的俩种模式

1）点对点模式

消费者主动拉取数据，消息收到后清除数据。

2）发布/订阅模式

一个队列可以有多个topic主题。（topic对消息进行分类，消费者可以自己需求拿消息）
消费者消费数据之后，不删除数据。
每个消费者相互独立，都可以拿到消费数据。

Kafka的基础架构

1、为方便扩展，并提高吞吐量，一个 Topic 分为多个 partition（分区）

2、配合分区的设计，提出了消费者组的概念，组内每个消费者并行消费，一个分区只能让一个消费者消费。

3、为了提高可用性，为每个 partition 增加诺干副本进行备份（分为leader 和 follower）消费者只找learder，当leader挂掉的时候，follower符合条件时会变成leader。

4、zookerper存储节点信息，有哪些副本。

二、入门

Kafka的基本命令

Topic命令

查看有多少主题

kafka-topics.sh --bootstrap-server 192.168.204.10:9092,192.168.204.10:9093 --list
新增主题

kafka-topics.sh --bootstrap-server 192.168.204.10:9092,192.168.204.10:9093 --topic first --create --partitions 1 --replication-factor 3
查看主题详情

kafka-topics.sh --bootstrap-server 192.168.204.10:9092,192.168.204.10:9093 --topic first --describe
修改主题

只能加不能减

复制代码

kafka-topics.sh --bootstrap-server 192.168.204.10:9092,192.168.204.10:9093 --topic first --alter --partitions 3

命令行操作

创建一个生产者

kafka-console-producer.sh --bootstrap-server 192.168.204.10:9092 --topic second

创建一个消费者

kafka-console-consumer.sh --bootstrap-server 192.168.204.10:9092 --topic second

可以查看到历史数据

复制代码

kafka-console-consumer.sh --bootstrap-server 192.168.204.10:9092 --topic second --from-beginning

三、生产者

原理

在消息发送的过程中，涉及到了俩个线程 -- main 和 Sender。在main线程中创建了一个双端队列 RecordAccumulator 。main线程将消息发送给RecordAccumulator ，Sender 线程不断从RecordAccumulator 中拉取消息发送给Kafka Broker。

异步发送

当main线程发送到RecordAccumulator之后就结束了，不管接下去的操作。

示例代码：

复制代码

//配置参数
Properties properties = new Properties();
properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.204.10:9092,192.168.204.10:9093");
properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

//创建KafkaProducer
KafkaProducer<String, Object> kafkaProducer = new KafkaProducer<>(properties);
kafkaProducer.send(new ProducerRecord<>("second","hello"));

//释放资源
kafkaProducer.close();

回调异步发送

相对于异步发送，就是多了一个发送成功之后处理的函数。

示例代码：

复制代码

//配置
Properties properties = new Properties();
properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.204.10:9092,192.168.204.10:9093");
properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

//创客KafkaProducer
KafkaProducer<String, Object> kafkaProducer = new KafkaProducer<>(properties);
kafkaProducer.send(new ProducerRecord<>("second", "hello"), (recordMetadata, e) -> {
    System.out.println(recordMetadata.toString());
    System.out.println("send success");
});

//释放资源
kafkaProducer.close();

同步发送

同步发送就是main线程需要等sender线程将双端队列中的数据发送出去才能继续往下面操作。

示例代码：

复制代码

//配置参数
Properties properties = new Properties();
properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.204.10:9092,192.168.204.10:9093");
properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

//创建KafkaProducer
KafkaProducer<String, Object> kafkaProducer = new KafkaProducer<>(properties);
try {
    kafkaProducer.send(new ProducerRecord<>("second","hello")).get();
} catch (InterruptedException e) {
    e.printStackTrace();
} catch (ExecutionException e) {
    e.printStackTrace();
}

//释放资源
kafkaProducer.close();

分区

Kafka分区好处

1、便于合理使用存储资源，每个Partition 在一个Broker上存储，可以把海量数据按照分区切割成一块一块存储在多台Broker上。合理控制分区的任务，可以实现负载均衡的效果。

2、提高并行度，生产者可以以分区为单位发送数；消费者可以以分区为单位进行消费数据。

分区策略

自定义分区器

1、定义自己的分区器

复制代码

package cn.swj.kafka;

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;

import java.util.Map;

/**
 * @Author suweijie
 * @Date 2023/8/30 21:40
 * @Description: TODO
 * @Version 1.0
 */
public class MyPartitioner implements Partitioner {

    @Override
    public int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) {
        String msg = o1.toString();

        if(msg.contains("suweijie")) {
            return 1;
        }

        return 0;
    }

    @Override
    public void close() {

    }

    @Override
    public void configure(Map<String, ?> map) {

    }
}

2、添加配置

复制代码

//配置参数
Properties properties = new Properties();
properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.204.10:9092,192.168.204.10:9093");
properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

//自定义分区器
properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,MyPartitioner.class.getName())

//创建KafkaProducer
KafkaProducer<String, Object> kafkaProducer = new KafkaProducer<>(properties);
try {
    kafkaProducer.send(new ProducerRecord<>("second","hello")).get();
} catch (InterruptedException e) {
    e.printStackTrace();
} catch (ExecutionException e) {
    e.printStackTrace();
}

//释放资源
kafkaProducer.close();

提高生产者的吞吐量

batch.size: 批次的大小默认是16k（16384b），但是这个参数要跟linger.ms 配合才有用

linger.ms：等待时间，修改为 5-100ms ，修改这个会造成数据的延迟。

RecordAccumulator：双端队列的缓存区大小，修改为64m （33554432b）

compression.type ：压缩snappy， none（默认）、gzip、snappy（用的比较多）、lz4、zstd

最佳实践：

复制代码

batch.size = 32768
linger.ms = 5
buffer.memory = 33554432
compression.type = snappy

数据可靠性

应答ACKS

0：生产者发过来的数据，不需要等待数据落盘应答。
1：生产者发过来的数据，需要等待Leader收到之后应答。
-1（all）：生产者发过来的数据，需要等Leader+ 和 isr 队列里面所有的节点收齐数据后应答。-1 和 all等价。

spring:
kafka:
bootstrap-servers: 192.168.204.10:9092,192.168.204.10:9093,192.168.204.10:9094
consumer:
group-id: 1
value-deserializer: org.apache.kafka.common.serialization.StringSerializer
key-deserializer: org.apache.kafka.common.serialization.StringSerializer

复制代码

  producer:
    acks: -1  #ack机制  0 1 -1
    batch-size: 32768  #批次大小
    value-serializer: org.apache.kafka.common.serialization.StringSerializer
    key-serializer: org.apache.kafka.common.serialization.StringSerializer
    compression-type: snappy  #数据压缩
    retries: 5  #重试次数
    buffer-memory: 33554432  #双端队列的缓冲区大小
    linger-ms: 5  # sender 等待时间

数据重复

幂等性特性

配置：

复制代码

enable:
	idempotence: true  #开启幂等性  默认开启

但是Kafka挂掉之后会重新生成一个PID，所以也是有可能会产生重复数据。

生产者事务

开启事务、必须得开启幂等性

示例代码：

复制代码

private void transaction() {
        //配置参数
        Properties properties = new Properties();
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.204.10:9092,192.168.204.10:9093");
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.LINGER_MS_CONFIG,5); //sender 发送的等待时间 ，当达到这个时间的时候Sender 会直接发
        properties.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);   //开启幂等性，默认开启
        properties.put(ProducerConfig.BUFFER_MEMORY_CONFIG,33554432); //设置双端队列的大小  64m
        properties.put(ProducerConfig.BATCH_SIZE_CONFIG,32768);  //批次的大小  32k ，当批次达到这个大小的时候，Sender会直接发送
        properties.put(ProducerConfig.COMPRESSION_TYPE_CONFIG,"snappy");  //数据的压缩方式
        properties.put(ProducerConfig.RETRIES_CONFIG,5);   //发送失败的重试次数
        properties.put(ProducerConfig.ACKS_CONFIG,-1); // acks的方式 -1 当leader 收到并且和isr 队列里面所有的节点同步才应答。
        properties.put(ProducerConfig.TRANSACTIONAL_ID_CONFIG,"123");  //事务唯一id
        //自定义分区器
        properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,MyPartitioner.class.getName());

        //创建KafkaProducer
        KafkaProducer<String, Object> kafkaProducer = new KafkaProducer<>(properties);

        kafkaProducer.initTransactions();  //初始化事务

        kafkaProducer.beginTransaction();  //开启事务

        try {
            kafkaProducer.send(new ProducerRecord<>("second","hello"));
            kafkaProducer.commitTransaction();  //事务
        } catch (Exception e) {
            e.printStackTrace();
            kafkaProducer.abortTransaction();
        }

        //释放资源
        kafkaProducer.close();
    }

数据有序

同分区内消费者可以实现数据的有序消费，不同分区内消费者如何实现有序消费？TODO

数据乱序问题

产生的原因：

1、默认 broker 最多缓存5个请求

2、当sender一直在发送数据的时候，当有一条数据发送失败需要返回双端队列进行重发，就会产生数据乱序的问题。

解决方案：

1） kafka 在 1.x 版本之前确保单分区下数据有序需要增加以下配置：

复制代码

max.in.flight.requests.per.connection = 1

1） kafka在 1.x 以及之后的版本确保单分区下的额数据有序，条件如下：

（1）未开启幂等性

max.in.flight.requests.per.connection 设置为1

（2）开启幂等性

max.in.flight.requests.per.connection 设置小于5

原理：在kafka1.x 版本以后，启用幂等性后，kafka broker 会缓存producer 发来的最近5个request 的元数据，如果数据乱序会将乱序的数据保存在内存中，重新排序之后在落盘。

四、Broker

ZK存储

启动zkCli.sh:

复制代码

docker exec -it zookeeper-server bash
#进入之后启动zkCli.sh
bin/zkCli.sh
ls /brokers/ids
get /brokers/topics/second/partitions/0/state 
get /controller

/brokes/ids : 记录有哪些节点

/brokers/topics/主题/patitions/0/state ：记录着leader、isr队列

/controller ：辅助选举leader

Broker工作原理

AR: kafka 分区中所有的副本统称

工作流程：

1） broker 启动会在zk中注册

2） controller 谁注册，谁说了算

3）由选举出来的controller 监听 brokers 节点变化

4） Controller 决定 Leader 的选举

选举规则：

在isr队列中存活为前提，安装ARa中排在最前面的优先。例如 ar[1,0,2]、isr[1,0,2]，那么leader 就会按照1，0，2的顺序轮询。

5）主broker的Controller，会将所有节点的信息上传到zk

6）其他节点的controller 会去从zk同步相关信息下来。

7）假设broker挂了

8）监听到broker节点变化

9）获取isr

10）选举新的leader

11）更新leader 以及 isr

新节点的服役以及退役(没听懂)

新节点服役

复制代码

docker run  -d --name kafka3 \
--network kafka-net \
-p 9095:9095 \
-e  KAFKA_BROKER_ID=3 \
-e KAFKA_ZOOKEEPER_CONNECT=zookeeper-server:2181 \
-e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://192.168.204.10:9095 \
-e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9095 \
-e TZ="Asia/Shanghai" \
wurstmeister/kafka:latest

查看在新节点是否有主题信息(指定这台broker的地址，查看是否有主题信息)

复制代码

kafka-topics.sh --bootstrap-server 192.168.204.10:9094 --topic first --describe

服役新节点、正确退役旧节点

五、Kafka 副本

基本信息

1）Kafka 副本作用：提高数据的可靠性。

2）Kafka默认的副本数为1，生产环境正常配置俩个，保证数据的可靠性；太多副本会增加磁盘的存储空间，增加网络上数据传输，降低效率。

3）Kafka 中副本分为： Leader 和 Follower。Kafka生产者只会把数据发送到Leader，然后Follower 自己去找Leader 同步。

4）Kafka 分区中的所有副本统称为AR（Assigned Replicas）。

AR = ISR + OSR

ISR，表示和 Leader 保持同步的 Follower 集合。如果 Follower 长时间未向 Leader 发送通信请求或同步数据，则该 Follower 将被踢出ISR。该时间闽值由 replica.lagtime.max.ms参数设定，默认 30s。Leader 发生故障之后，就会从ISR 中选举新的 Leader。

OSR，表示 Follower 与 Leader 副本同步时，延迟过多的副本。

学习笔记 | Kafka

一、概述

定义

消息队列的应用场景

缓存/削峰

解耦

异步通信

消息队列的俩种模式

1）点对点模式

2）发布/订阅模式

Kafka的基础架构

二、入门

Kafka的基本命令

Topic命令

命令行操作

三、生产者

原理

异步发送

回调异步发送

同步发送

分区

分区策略

自定义分区器

1、定义自己的分区器

2、添加配置

提高生产者的吞吐量

数据可靠性

数据重复

幂等性特性

生产者事务

数据有序

数据乱序问题

四、Broker

ZK存储

Broker工作原理

新节点的服役以及退役(没听懂)

五、Kafka 副本

基本信息

Leader的选举流程

Follower的故障

Leader的故障