Kafka快速入门

讲一下什么是Kafka

首先引入这样一个场景:A服务可以发送200qps(Queries Per Second,是指每秒查询率),而B服务可以处理100qps。很显然,B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息,没有什么是不能通过一层中间件解决的,如果有,那就再加一层。

开始很容易想到,可以在B服务中增加一个队列,其实就是个链表,B服务根据自己的消费能力,消费链表中的消息。每个节点用Offset记录,消费过程不断更新自己的Offset值。但就会出现来不及处理的消息都堆积到内存中,如果B重启,就会丢失消息。

所以可以把队列挪出来,变成一个单独的进程。也就成了简陋的消息队列。像A这样生产消息的为生产者,B消费消息的为消费者。但这太简陋了,高性能高可用高扩展,他都不沾边。

高性能

对于高性能,由于B消费能力有限,消息队列会堆积消息,就可以通过扩张多个消费者来加快消费,同理可以扩展多个生产者加快生产消息。但他们都同时竞争同一个消息队列,就会导致其他人等待浪费时间。

就可以分为多个消息队列,引出topic概念,将消息进行分类。生产者和消费者都去对应其中的topic。

但消息队列可能还是有点长,就可以分段,进行分区partition的概念诞生,每个消费者负责一个partition。

高扩展

对于高扩展,由于分区变多,都放在同一台机器,就会导致内存和cpu过高,影响整体系统性能,就可以引入多台机器,每个机器代表一个Broker。将分区分散部署到各个Broker中,就可以缓解单台服务器压力。

高可用

对于高可用,由于分区可能挂了,就会导致数据丢失,所以可以进行数据备份,主从复制,Leader负责和消费者生产者读写请求,follower负责同步Leader数据。这样就算Leader挂了,也可以顶替上去。

持久化和过期策略

也有可能所有Broker都挂了,就需要将数据放入内存,持久化到磁盘中。即使全部Broker都挂了,数据也不会丢失。但磁盘内存有限,就需要加个保留策略,retention policy(比如磁盘超过一定数据,或消息放置超过一定时间,就会被清理掉)

consumer group

到这里,这个消息队列好像就挺完美了。但其实还有个问题,按现在的消费方式,每次新增的消费者只能跟着最新的消费 Offset 接着消费。 可以给消息队列加入消费者组(consumer group)的概念,B 和 C 服务各自是一个独立的消费者组,不同消费者组维护自己的消费进度也就是Offset值,互不打搅。

基础架构

Producer(生产者):产生消息的一方

Consumer(消费者):消费消息的一方

Consumer Group(消费者组):一组存在多个消费者,消费者组间互不影响,所有消费者都可能属于某个消费者组,算一个逻辑订阅者。分区中的消息只能被一个消费者消费

Broker(代理,经纪人):一台Kafka服务器就算一个Broker,多个Broker组成Kafka Cluster(集群)

Topic(主题):生产者消费者都面向一个主题

Partition(分区):为了实现扩展性,一个Topic可能分布到多个Broker,一个Topic可以分为多个Partition,每个Partition相当于有序队列。

  • Replica :副本Replication,为保证集群中某个节点发生故障,节点上的Partition数据不丢失,Kafka可以正常的工作,Kafka提供了副本机制,一个Topic的每个分区有若干个副本,一个Leader和多个Follower

  • Leader :每个分区多个副本的主角色,生产者发送数据 的对象,以及消费者消费数据的对象都是Leader。

  • Follower :每个分区多个副本的从角色,实时的从Leader中同步数据,保持和Leader数据的同步,Leader发生故障的时候,某个Follower会成为新的Leader。

也可以看看FGuide哥的

代码实现

1、引入kafka的依赖

复制代码
         <dependency>
             <groupId>org.springframework.cloud</groupId>
             <artifactId>spring-cloud-starter-stream-kafka</artifactId>
         </dependency>

2、配置kafka

复制代码
 spring:
   kafka:
     bootstrap-servers: 156.65.20.76:9092,156.65.20.77:9092,156.65.20.78:9092 #指定Kafka集群的地址,这里有三个地址,用逗号分隔。
     listener:
       ack-mode: manual_immediate #设置消费者的确认模式为manual_immediate,表示消费者在接收到消息后立即手动确认。
       concurrency: 3  #设置消费者的并发数为5
       missing-topics-fatal: false  #设置为false,表示如果消费者订阅的主题不存在,不会抛出异常。
     producer:
       key-serializer: org.apache.kafka.common.serialization.StringSerializer  # 设置消息键的序列化器
       value-serializer: org.apache.kafka.common.serialization.StringSerializer #设置消息值的序列化器
       acks: 1  #一般就是选择1,兼顾可靠性和吞吐量 ,如果想要更高的吞吐量设置为0,如果要求更高的可靠性就设置为-1
     consumer:
       auto-offset-reset: earliest #设置为"earliest"表示将从最早的可用消息开始消费,即从分区的起始位置开始读取消息。
       enable-auto-commit: false #禁用了自动提交偏移量的功能,为了避免出现重复数据和数据丢失,一般都是手动提交
       key-deserializer: org.apache.kafka.common.serialization.StringDeserializer  # 设置消息键的反序列化器
       value-deserializer: org.apache.kafka.common.serialization.StringDeserializer #设置消息值的反序列化器

3、创建主题

  • 自动创建(不推荐)

    复制代码
     在kafka的安装目录conf目录下找到该配置文件server.properties,添加如下配置:
     num.partitions=3 #默认3个分区
     auto.create.topics.enable=true #开启自动创建主题
     default.replication.factor=3 #默认3个副本
  • 手动创建

复制代码
 在kafka的安装目录bin目录下,执行如下命令:
 //创建一个有三个分区和三个副本,名为zhuoye的主题
 ./kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 3 --partitions 3  --topic zhuoye

4、生产者代码

复制代码
 @Slf4j
 @Component
 public class ALiYunServiceImpl implents IALiYunService {
     @Autowired
     private KafkaTemplate kafkaTemplate;
     @Autowired
     private ExecutorService executorService;
     String topicName = "zhuoye";
     @Override
     public void queryECSMetricInfo() {
         //发送到kafka的消息集合,因为使用了多线程,并且在多线程中往该集合进行添加操作,所以需要线程安全的
         List<Message> messages = Collections.synchronizedList(new ArrayList<>());
         boolean flag = true;
         //获取上次查询时间
         Long startTime = Long.valueOf(queryTimeRecordMapper.selectTimeByBelongId(3)) * 1000;
         Long endTime = System.currentTimeMillis();
         try {
             //查询出所有的运行中的实例
             List<CloudInstanceAssetDto> cloudInstances = cloudInstanceAssetMapper.queryAllRunningInstance(1, "Running");
             if (CollectionUtils.isEmpty(cloudInstances)) {
                 return;
             }
             //定义计数器
             CountDownLatch latch = new CountDownLatch(cloudInstances.size());
             //遍历查询
             for (CloudInstanceAssetDto instance : cloudInstances) {
                 executorService.submit(() -> {
                     try {
                         //获取内网流出带宽,并将结果封装到消息集合中
                         dealMetricDataToMessage(ALiYunConstant.ECS_INTRANET_OUT_RATE, ALiYunConstant.INTRANET_OUT_RATE_NAME, ALiYunConstant.LW_INTRANET_OUT_RATE_CODE,
                                 startTime, endTime, instance, messages);
                     } catch (Exception e) {
                         log.error("获取ECS的指标数据-多线程处理任务异常!", e);
                     } finally {
                         latch.countDown();
                     }
 ​
                 });
             }
             //等待任务执行完毕
             latch.await();
             //将最终的消息集合发送到kafka
             if (CollectionUtils.isNotEmpty(messages)) {
                 for (int i = 0; i < messages.size(); i++) {
                     if (StringUtils.isNotBlank(messages.get(i).getValue())
                             && "noSuchInstance".equals(messages.get(i).getValue())) {
                         continue;
                     }
                   kafkaTemplate.send(topicName,  messages.get(i));
                 }
             }
         } catch (Exception e) {
             flag = false;
             log.error("获取ECS的指标数据失败", e);
         }
         //更新记录上次查询时间
         if (flag) {
             QueryTimeRecord queryTimeRecord = new QueryTimeRecord();
             queryTimeRecord.setBelongId(3).setLastQueryTime(String.valueOf((endTime - 1000 * 60 * 1) / 1000)); //开始时间往前推1分钟
             queryTimeRecordMapper.updateByBelongId(queryTimeRecord);
         }
     }

这个时候,如果你想看有没有把消息发送到kafka的指定主题可以使用如下命令:

复制代码
 kafka-console-consumer.sh --bootstrap-server localhost:9093 --topic zhuoye

5、消费者代码

复制代码
 @Slf4j
 @Component
 public class KafkaConsumer {
     // 消费监听
     @KafkaListener(topics = "zhuoye",groupId ="zhuoye-aliyunmetric")
     public void consumeExtractorChangeMessage(ConsumerRecord<String, String> record, Acknowledgment ack){
         try {
             String value = record.value();
             //处理数据,存入openTsDb
             .................
             ................
             ack.acknowledge();//手动提交
         }catch (Exception e){
             log.error("kafa-topic【zhuoye】消费阿里云指标源消息【失败】");
             log.error(e.getMessage());
         }
 ​
     }
 }

6、常用Kafka的命令

复制代码
 //创建主题
 ./kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 3 --partitions 3  --topic zhuoye
 //查看kafka是否接收对应的消息
  kafka-console-consumer.sh --bootstrap-server localhost:9093 --topic zhuoye
 // 修改kafka-topic分区数
 ./kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 6 --topic zhuoye
 // 查看topic分区数
 ./kafka-topics.sh --zookeeper localhost:2181 --describe --topic zhuoye
 // 查看用户组消费情况
 ./kafka-consumer-groups.sh --bootstrap-server localhost:9092 --group zhuoye-aliyunmetric --describe

借鉴B站:Mic,小白debug,拙野

相关推荐
楚疏笃17 分钟前
鸿蒙学习自由流转与分布式运行环境-跨端迁移(2)
分布式·学习·harmonyos
哼了个哈2 小时前
daos源码编译
分布式
Lostgreen2 小时前
分布式查询处理优化之数据分片
大数据·笔记·分布式
孙克旭_4 小时前
第五章 RabbitMQ高级
分布式·rabbitmq
Mr.Demo.5 小时前
[RabbitMQ] 保证消息可靠性的三大机制------消息确认,持久化,发送方确认
分布式·rabbitmq
小扳6 小时前
微服务篇-深入了解使用 RestTemplate 远程调用、Nacos 注册中心基本原理与使用、OpenFeign 的基本使用
java·运维·分布式·后端·spring·微服务·架构
LightOfNight6 小时前
Redis设计与实现第14章 -- 服务器 总结(命令执行器 serverCron函数 初始化)
服务器·数据库·redis·分布式·后端·缓存·中间件
cnsxjean15 小时前
SpringBoot集成Minio实现上传凭证、分片上传、秒传和断点续传
java·前端·spring boot·分布式·后端·中间件·架构
桃园码工21 小时前
3-测试go-redis+redsync实现分布式锁 --开源项目obtain_data测试
redis·分布式·golang
sx_170621 小时前
Spark面试题
大数据·分布式·spark