1.acks
- 如果acks=0,生产者在成功写入消息之前不会等待任何来自服务器的响应。
- 缺点:如果当中出现了问题,导致服务器没有收到消息,那么生产者就无从得知,消息就丢失了
- 优点:因为生产者不需要等待服务器的响应,所有他可以以网络能够支持的最大速度发送消息,从而达到很高的吞吐量
- 如果acks=1,只要集群的leader节点收到消息,生产者就会收到一个来自服务器的成功响应
- 如果无法到达首领节点(如leader节点崩溃,新的leader还没有被选举出来),生产者会收到一个错误响应,为避免数据丢失,生产者会重发消息
- 如果acks=all,只有当所有参与复制的节点全部收到消息,生产者才会收到一个来自服务器的成功响应
- 优点:最安全,保证不止一个服务器收到消息,就算有服务器发生崩溃,整个集群仍可以运行
- 缺点:延迟比acks=1更高
2.buffer.memory
- 该参数用来设置生产者内存缓冲区的大小,生产者用它缓冲要发送到服务器的消息。如果应用程序发送消息的速度超过发送到服务器的速度,导致生产者空间不足,send()方法调用要么被阻塞,要么抛出异常
3.compression.type
- 该参数可以设置为snappy、gzip、lz4,指定消息被发送给broker之前使用哪种压缩算法
4.retries
- 决定生产者可以重发消息的次数,如果达到这个次数,生产者会放弃重试,并返回错误
5.batch.size
- 当有多个消息需要被发送到同一个分区时,生产者会把他们放在同一个批次里。该参数指定了一个批次可以使用的内存大小
- 如果设置的很大,也不会造成延迟,半满或者只包含一个消息的批次也有可能被发送
- 设置的太小,生产者需要更频繁地发送消息,会增加一些额外开销
- 指定了生产者在发送批次之前等待更多消息加入批次的时间
- 缺点:增加延迟
- 优点:提升吞吐量
- 服务器会用它来识别消息的来源,还可以用在日志和配额指标
8.max.in.flight.requests.per.connection
- 生产者在收到服务器响应之前可以发送多少个消息。值越高,越占用内存,提升吞吐量
9.max.request.size
- 控制发送者发送的请求大小
10.kafka保证同一个分区里的消息是有序的,消费者会按照生产者的插入顺序进行读取
如果某些场景要求消息是有序的,那么消息是否写入成功是很关键的,不要把retries设为0,可以把max.in.flight.requests.per.connection设为1,这样生产者尝试发送第一批消息时,就不会有其他的消息发送给broker
缺点:严重影响生产者的吞吐量
优点:消息严格有序