基于Kafka2.1解读Producer原理

文章目录

前言
[一、Kafka Producer是什么？](#一、Kafka Producer是什么？)
二、主要组件
- [1.Kafka Producer](#1.Kafka Producer)
- - [1.1 partitioner](#1.1 partitioner)
  - [1.2 keySerializer](#1.2 keySerializer)
  - [1.3 valueSerializer](#1.3 valueSerializer)
  - [1.4 accumulator](#1.4 accumulator)
  - [1.5 sender](#1.5 sender)
- 2.Sender
- - [2.1 acks](#2.1 acks)
  - [2.2 client](#2.2 client)
  - [2.3 inFlightBatches](#2.3 inFlightBatches)
- [3. Selector](#3. Selector)
- - [3.1 nioSelector](#3.1 nioSelector)
  - [3.2 channels](#3.2 channels)
- [4. 全局总览](#4. 全局总览)
- [5. 一点思考](#5. 一点思考)
总结

前言

相信现在的javer对于Kafka应该都很熟悉了，不管是八股文还是工作中使用。虽然Kafka server是scala写的，但是client是java写的，所以咱们理解client的代码还是比较容易的，今天先来基于源码解读下Kafka Producer的主体流程

一、Kafka Producer是什么？

这个应该不用过多介绍了吧，我们发送消息到MQ就是通过Kafka Producer来实现的。

二、主要组件

1.Kafka Producer

1.1 partitioner

partitioner的作用是用来对发送的消息进行partition选择的，譬如msg要发送某个topic，topic里有多个partition，需要选择发往哪个partition。

如果我们发送消息时设置了partition key，那么就按照partition key进行hash，然后选择发送的partition

如果没有设置partition key，那么就默认使用轮询的方式来选择partition

1.2 keySerializer

顾名思义，就是对key进行序列化的工具类。因为我们的数据需要发送到网络里，所以数据必须序列化成二进制，所以需要进行序列化

1.3 valueSerializer

同上，和keySerializer类似的作用

1.4 accumulator

accumulator是比较重要的一个组件，主要功能包括：

选择/创建需要append数据的batch
把msg添加到该batch里面，获得batch里produceFuture

1.5 sender

sender是真正执行消息发送的组件，主要功能包括：

把可以发送的batch，组装成clientRequest，给底层的nioSelector注册写事件
nioSelector处理读写事件，写事件处理时，将消息发送出去，更新batch的produceFuture让accumulator感知到消息发送结果
以下详细讲讲Sender的流程

2.Sender

2.1 acks

acks是用来描述msg发送要怎样才能确认发送成功。

"-1"：全部副本应答，默认值

"0"：不需要任何应答，这种情况发送完立马认为发送成功

"1"：leader副本应该即认为发送成功

2.2 client

接口是KafkaClient，实现类是NetWorkClient

send：

记录当前发送中的request=》inFlightRequests，
调用Selector进行消息发送
poll：

调用Selector进行写事件处理：发送消息
清理一些数据：处理inFlightRequests
执行回调：handleProduceResponse：producerBatch.complete=》会更新batch里的produceFuture

2.3 inFlightBatches

记录当前当前正在被发送的batch

java 复制代码

Map<TopicPartition, List<ProducerBatch>> inFlightBatches;

可以看到该Map的value是list类型，保证了同一个partition中的batch数据有序性

3. Selector

其实Selector的作用上面已经描述了，就是基于partition的node找到对应的channel，执行写事件注册和真实的消息发送

3.1 nioSelector

这个应该不用详细讲了，学过NIO的同学都知道，java的NIO Selector可以进行读写事件处理，就是通过selector的select方法，找到可处理的keys，然后基于不同的keys，拿到对应的channel，往channel写数据或者从channel读数据

3.2 channels

该channel是Kafka对java的channel进行的封装，得到的KafkaChannel，其实能够实现的功能就是暂存下可发送消息，以及调用java的channel 发送数据。此处是保存partition node和channel的映射关系。

4. 全局总览

5. 一点思考

为什么Producer要分为accumulator和sender这两个重要组件呢？

为啥不像我们写业务代码一样，把消息append到batch里面之后，就直接发送消息？

答案是：功能定位不同，面对的处理对象也不同，所以解耦最合适。

accumulator的功能是追加消息 ；Sender的功能是网络发送消息 ；

追加消息，面对的处理对象是消息；而网络发送消息，面对的处理对象是partition node，也就是创建网络连接的节点。

为了增加消息发送吞吐量，中间引入了batch。

所以把「追加消息」和「网络发送消息」分开让两个不同组件来处理，在功能的实现上进行解耦~

总结

Kafka的消息发送其实就是一个RPC的过程，有自己的网络协议、消息协议、消息序列化方式、数据批量发送（增加吞吐量）、超时处理、底层网络模型。

不过Producer对于batch的复用，其实还是有一定的厉害之处的，等下次有空分析下~