生产者和消费者是Kafka的核心概念之一,它们在客户端被创建和使用,并且包含了许多与Kafka性能和机制相关的配置。虽然Kafka提供的命令行工具能够执行许多基本操作,但它无法实现所有可能的性能优化。相比之下,使用Java API可以充分利用编程语言的灵活性,对生产者和消费者进行更精细的性能调优。对于大多数中间件,熟悉服务器的命令行操作可能足以帮助学习其API的使用。然而,Kafka则不同,要全面掌握Kafka的所有特性,必须系统地学习和理解其Java API。
1. 基础消费流程
在javaApi中可以通过创建一个Kafka生产者和消费者的配置对象,在new生产者或消费者的类时将配置对象传入,然后生产者实例通过调用send方法发送数据,消费者通过poll方法消费数据,数据需要通过ProducerRecords类封装key和value,并在生产者和消费者配置中为key和value指定序列化和反序列化类(key可以传null,key是在日志回收策略中发挥作用)。经过这样一套操作,消息就可以成功从生产者发往消费者。
java
package com.kafak.testkafka;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import java.time.Duration;
import java.util.Properties;
@SpringBootTest
class TestKafkaApplicationTests {
//预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建
KafkaProducer<String, String> kafkaProducer;
//创建生产者
public KafkaProducer<String, String> getKafkaProducer() {
//创建生产者配置
Properties props = new Properties();
//配置Kafka集群地址
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置序列化
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
//返回生产者
return new KafkaProducer<String, String>(props);
}
//创建消费者
public KafkaConsumer<String, String> getKafkaConsumer() {
//创建消费者配置
Properties props = new Properties();
//配置Kafka集群地址
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置消费者组id
props.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");
//配置反序列化
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
//返回消费者
return new KafkaConsumer<>(props);
}
//通过生产者生产一百条数据
@Test
void kafkaProducerTest() {
//获取生产者
kafkaProducer = getKafkaProducer();
//发送消息
for (int i = 0; i < 100; i++) {
kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i));
}
}
//通过消费者消费消息
@Test
void kafkaConsumerTest() {
//创建消费者,由于消费者是线程不安全,所以使用一次实例化一次,可以方式出现线程安全问题
KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer();
//接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息
ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));
// 处理消息
for (ConsumerRecord<String, String> record : records) {
System.out.printf("Consumed message with key %s, value %s, from partition %d with offset %d%n",
record.key(), record.value(), record.partition(), record.offset());
}
}
}
2. 消息确认
消息确认的原理性知识可以通过下面这篇文章学习,这里主要讲实操。
生产者端
生产者端的消息确认策略由acks配置项控制,其由三种配置方式,其中我在下面这篇文章中详细讲述了相关知识。我们可以通过javaApi配置acks来控制确认策略。
生产者端的消息确认有同步和异步两种方式。
- 同步消息确认: 同步消息确认是生产者实例在调用send方法后紧接着调用get方法,该方法会阻塞线程的继续执行,等待消息发送结果。当消息发送失败时,如果配置了重试机制(通过设置
retries
属性),生产者会自动重试指定的次数。如果在所有重试尝试后仍然失败,最终会抛出异常,通知调用方消息发送失败。 - **异步消息确认:**异步消息确认通过生产者实例调用send方法时传入,第二个回调函数的参数。在成功或失败响应时,执行回调函数,异步消息确认不会阻塞代码,也不会触发自动重试。
消费者端
消费者消费成功在客户端的体现是成功获取到了数据,这本没有什么好说的,不过消费者不仅需要响应客户端数据,还要讲偏移量发送给Kafka,在这一过程中,消费者提供了手动提交和自动提交两种方式。启动自动提交是默认开启的,而手动提交则需要配置enable.auto.commit为false,然后通过创建分区和偏移量的映射关系,通过消费者的commit方法提交偏移量。
代码实现
下面代码中,我创建了四个测试单元,其中前两个测试单元,分别是生产者同步提交和异步提交,而后两个测试单元分别时消费者的自动提交和手动提交。
java
package com.kafak.testkafka;
import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import org.apache.kafka.common.TopicPartition;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import java.time.Duration;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;
@SpringBootTest
class TestKafkaApplicationTests {
//预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建
KafkaProducer<String, String> kafkaProducer;
//创建生产者
public KafkaProducer<String, String> getKafkaProducer() {
//创建生产者配置
Properties props = new Properties();
//配置消息确认策略
props.put(ProducerConfig.ACKS_CONFIG, "all");
//配置重试次数
props.put(ProducerConfig.RETRIES_CONFIG,3);
//配置Kafka集群地址
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置序列化
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
//返回生产者
return new KafkaProducer<String, String>(props);
}
//创建消费者
public KafkaConsumer<String, String> getKafkaConsumer(Boolean isAutoCommit) {
//创建消费者配置
Properties props = new Properties();
//配置Kafka集群地址
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置消费者组id
props.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");
//配置反序列化
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
//判断当前消费者是否开启自动提交
if (!isAutoCommit) {
//关闭自动提交
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);
}else{
//设置自动提交间隔时间1s
props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");
}
//返回消费者
return new KafkaConsumer<>(props);
}
//生产者同步确认
@Test
void kafkaProducerGetTest() {
if(kafkaProducer == null) {
kafkaProducer = getKafkaProducer();
}
//同步确认消息是否发送成功
for (int i = 0; i < 100; i++) {
try{
RecordMetadata topicJava = kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i)).get();
}catch (Exception e) {
e.printStackTrace();
}
}
kafkaProducer.close();
}
//生产者异步确认
@Test
void kafkaProduceSyncTest() {
if(kafkaProducer == null) {
kafkaProducer = getKafkaProducer();
}
//异步确认是否发送成功
for (int i = 0; i < 100; i++) {
kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i), (metadata, exception) -> {
if (exception == null) {
System.out.printf("发送消息成功, metadata=%s%n", metadata);
} else {
System.err.printf("发送消息失败, exception=%s%n", exception.getMessage());
}
});
}
kafkaProducer.close();
}
//消费者自动提交
@Test
void kafkaAutoCommitConsumerTest() {
//创建消费者开启自动提交
KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer(true);
//消费数据流程中无需负责偏移量提交
while (true) {
//接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息
ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));
//处理消息
for (ConsumerRecord<String, String> record : records) {
System.out.printf("消息消费成功, key=%s, value=%s, partition=%d, offset=%d%n",
record.key(), record.value(), record.partition(), record.offset());
}
}
}
//消费者手动提交
@Test
void kafkaSyncCommitConsumerTest() {
//创建消费者关闭自动提交
KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer(false);
//消费数据流程中需要在消费数据后,提交偏移量
while (true) {
//接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息
ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));
// 处理消息
for (ConsumerRecord<String, String> record : records) {
System.out.printf("消息消费成功, key=%s, value=%s, partition=%d, offset=%d%n",
record.key(), record.value(), record.partition(), record.offset());
//创建分区和偏移量的映射类
Map<TopicPartition, OffsetAndMetadata> offsets = new HashMap<>();
//讲分区和偏移量的数据存入映射类
offsets.put(new TopicPartition(record.topic(), record.partition()),
new OffsetAndMetadata(record.offset() + 1));
//偏移量提交
kafkaConsumer.commitSync(offsets);
}
}
}
}
3. 批处理
批处理在生产者端,和消费者端也有不同的实现。我在Kakfa基本概念一文中清楚的讲解了批处理的概念,文章如下
Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501
生产者
在生产者端,生产者实例的send方法会发送消息到缓冲区中,而缓冲区消息何时发送给Kafka集群,则是通过配置batch.size和linger.ms配置,来实现当缓冲区存入多少消息,和距离上一次发送消息多久后,来发送这一轮缓冲区的消息到Kafka集群,代码实现如下
java
//创建生产者
public KafkaProducer<String, String> getKafkaProducer() {
//创建生产者配置
Properties props = new Properties();
//配置生产者批处理
//缓冲区大小最大为16384比特
props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
//距离上次发送消息时间隔3s
props.put(ProducerConfig.LINGER_MS_CONFIG,"3000");
//配置消息确认策略
props.put(ProducerConfig.ACKS_CONFIG, "all");
//配置重试次数
props.put(ProducerConfig.RETRIES_CONFIG,3);
//配置Kafka集群地址
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置序列化
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
//返回生产者
return new KafkaProducer<String, String>(props);
}
消费者
消费者端批处理,消费者在拉去消息时,会在fetch.max.bytes,max.partition.fetch.bytes和max.poll.records三个配置项,以及传入poll方法的超时时间参数的限制下,尽可能多的拉取更多消息。
- **fetch.max.bytes:**fetch.max.bytes 是指 Kafka 消费者单次从服务器拉取数据时能够获取的最大字节数。这是全局的上限,控制每次 poll() 操作可以拉取的数据量总和。 默认值:50MB(即 52428800 字节)。
- **max.partition.fetch.bytes:**max.partition.fetch.bytes 是指 Kafka 消费者从单个分区拉取消息时能获取的最大字节数,当消费者数量少于主题分区数量时,一个消费者可能会负责多个分区。默认值:1MB(即 1048576 字节)。
- **max.poll.records:**max.poll.records 是指 Kafka 消费者每次调用 poll() 方法时能够拉取的最大消息条数。 默认值:500 条消息。
代码实现如下
java
//创建消费者
public KafkaConsumer<String, String> getKafkaConsumer(Boolean isAutoCommit) {
//创建消费者配置
Properties props = new Properties();
//消费者批处理相关配置
//消费缓冲区大小,也就是一次消费最多能消费多少比特消息
props.put(ConsumerConfig.FETCH_MAX_BYTES_CONFIG,16384);
//一次消费一个分区最多能消费多少比特
props.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG,8192);
//一次消费最多能消费多少条数据
props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG,1000);
//配置Kafka集群地址
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置消费者组id
props.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");
//配置反序列化
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
//判断当前消费者是否开启自动提交
if (!isAutoCommit) {
//关闭自动提交
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);
}else{
//设置自动提交间隔时间1s
props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");
}
//返回消费者
return new KafkaConsumer<>(props);
}
4. 事务操作
Kafka驱动支持事务操作,允许许生产者在多个主题和分区上以原子方式写入消息。这意味着你可以确保一组消息要么全部成功写入Kafka,要么全部失败。
事务操作首先通过生产者实例调用生产者实例的initTransactions方法,向kafka集群申请一个映射当前生产者的事务Id,然后就可以通过调用生产者实例的beginTransaction方法,开启一个事务,进行消息发送,最终通过调用commitTransaction方法完成事务的提交,如果中途发生异常则通过abortTransaction对当前事务进行回滚,代码实例如下
java
package com.kafak.testkafka;
import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import org.apache.kafka.common.TopicPartition;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import java.time.Duration;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;
@SpringBootTest
class TestKafkaApplicationTests {
//预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建
KafkaProducer<String, String> kafkaProducer;
//创建生产者
public KafkaProducer<String, String> getKafkaProducer() {
//创建生产者配置
Properties props = new Properties();
//配置生产者批处理
//缓冲区大小最大为16384比特
props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
//距离上次发送消息时间隔3s
props.put(ProducerConfig.LINGER_MS_CONFIG,"3000");
//配置消息确认策略
props.put(ProducerConfig.ACKS_CONFIG, "all");
//配置重试次数
props.put(ProducerConfig.RETRIES_CONFIG,3);
//配置Kafka集群地址
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置序列化
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
//返回生产者
return new KafkaProducer<String, String>(props);
}
//测试事务
@Test
void kafkaProducerTransactionTest() {
if(kafkaProducer == null) {
kafkaProducer = getKafkaProducer();
}
kafkaProducer.initTransactions();
try{
kafkaProducer.beginTransaction();
//消息发送相关操作
for (int i = 0; i < 100; i++) {
try{
RecordMetadata topicJava = kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i)).get();
}catch (Exception e) {
e.printStackTrace();
}
}
kafkaProducer.commitTransaction();
}catch (Exception e) {
e.printStackTrace();
kafkaProducer.abortTransaction();
}
kafkaProducer.close();
}
}
5. 自定义分区器
Kafka允许用户自定义分区器,实现特定的分区策略。可以通过实现Partitioner接口来创建自定义分区器。实现Partitioner接口需要实现三个方法,分别是partition,configure,close。
partition方法
partition方法是实现分区逻辑其的主要方法,其接受六个参数,分别是
- **String topic:**消息要发送到的Kafka主题名称
- **Object key:**消息的 key,可能为 null。
- **byte[] keyBytes:**序列化后的 key,可能为 null
- **Object value:**消息的 value,可以为任意对象
- **byte[] valueBytes:**序列化后的 value,可能为 null。
- **Cluster cluster:**Kafka集群的元数据信息,包括主题的分区数、每个分区的领导者等
partition方法的返回值则是发送分区的编号,通过这个机制可以实现不同逻辑的分区器。
configure方法
configuer方法在自定义分区类初始化时调用,当设计一些复杂操作,比如在发送消息前要和数据库交互时,可以在configure中完成数据库的连接。
close方法
close在分区逻辑执行完后调用,和configure一样,在复杂操作时,用于关闭分区逻辑中创建的连接,或一些内存资源等
假设我有一个三主机集群,其中30主机性能最好,31其次,32最差,我要通过自定义分区,将消息发送到三个分区的比例为3:2:1,通过Partitioner接口,可以简单的通过如下方式实现
java
package com.kafak.testkafka;
import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.Node;
import org.apache.kafka.common.PartitionInfo;
import java.util.List;
import java.util.Map;
public class CustomPartitioner implements Partitioner {
@Override
public int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) {
//获取分区元数据
List<PartitionInfo> partitionInfos = cluster.partitionsForTopic(s);
//创建一个0-100的随机数
double num = Math.random() * 100;
//默认传递分区号
Integer finalPartition = 0;
for (PartitionInfo partitionInfo : partitionInfos) {
//获取分区的leader
Node leader = partitionInfo.leader();
//获取分区leader的ip和端口
String leaderAddress = leader.host() + ":" + leader.port(); // 生成 "host:port" 格式的字符串
//如果随机数在0-50之间,发送消息至192.168.142.30:9092
if (num < 50 && leaderAddress.equals("192.168.142.30:9092")) {
finalPartition = partitionInfo.partition();
break;
//如果随机数在50-82之间,发送消息至192.168.142.31:9092
} else if (num < 82 && num >= 50 && leaderAddress.equals("192.168.142.31:9092")) {
finalPartition = partitionInfo.partition();
break;
//如果随机数在82-100之间,发送消息至192.168.142.32:9092
} else if (num < 100 && num >= 82 && leaderAddress.equals("192.168.142.32:9092")) {
finalPartition = partitionInfo.partition();
break;
}
}
//返回最终分区号
return finalPartition;
}
@Override
public void close() {
}
@Override
public void configure(Map<String, ?> map) {
}
}
在生产者配置中通过partitioner_class配置自定义分区器,代码如下
java
public KafkaProducer<String, String> getKafkaProducer() {
//创建生产者配置
Properties props = new Properties();
//启用自定义分区器
props.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,"com.kafak.testkafka.CustomPartitioner");
//配置生产者批处理
//缓冲区大小最大为16384比特
props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
//距离上次发送消息时间隔3s
props.put(ProducerConfig.LINGER_MS_CONFIG,"3000");
//配置消息确认策略
props.put(ProducerConfig.ACKS_CONFIG, "all");
//配置重试次数
props.put(ProducerConfig.RETRIES_CONFIG,3);
//配置Kafka集群地址
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
//配置序列化
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
//返回生产者
return new KafkaProducer<String, String>(props);
}
如此,便可以实现一个自定义分区策略。