Kafka基本概念介绍

一、概念和初识

1、简介和特征

2、应用场景：

采集用户在网站中的动作流数据；

物联网设备采样信息；

3、作用：

数据缓冲

异步通讯

架构解耦

消息订阅发布

4、Message Queue的两种工作模式

（1）至多一次：生产者写入数据，由消费者去拉取数据，一旦消息被消费，消息服务器删除数据，保证不重复消费；

（2）没有限制：生产者写入消息，消费者可能被多个消费者消费，消消费消息的偏移量，消息可以长时间保息服务器仅仅是保存消费者存，每个消费者之间互不影响，在大数据场景使用多

二、kafka的基础架构

1、一般情况下Kafka是以集群的形式搭建的，即有多个kafka的broker，由Zookeeper来协调选举leader节点，其他的是fllower节点；

2、以topic模式负责分类集群的中record，topic可以理解为一种通讯模式，在逻辑上属于一类消息；实际kafka会根据topic的配置将消息发送到topic下的partition里面；

3、理解几个概念：

zookeeper：分布式协调框架

broker：服务节点

product：生产者

consume：消费者

topic：主题

partition：分区

record：消息记录，日志默认保存168小时，7天；

leader：主节点，负责读写

follower：从节点，主要是备份

4、kafka的逻辑架构：

（1）kafka从整体上分为生产者、消费者和kafka集群（一般情况下都是集群）；

（2）生产者和消费者都属于客户端（client），kafka集群属于服务端（server）；

（3）kafka集群主要由2个部分，zookeeper分布式协调框架和多个broker节点，其中zk负责监控和leader选举，选举出来的leader节点负责消息的读写操作，follower节点负责数据备份；

（4）当消息从生产者发送到kafka集群的时候，会根据指定topic，将消息发送到server端；

（5）一条消息（record）包含三个部分：key：唯一id，value：消息内容，timestamp：消息产生的系统时间；

（6）一个topic下，可能有多个pattition分区；当消息发送到toipc时，默认情况下，hash（key）% 分区个数=消息将存在topic的哪个分区；也可以采用轮询的方式进行消息发送到分区；

（7）同时，每个partition会根据服务器节点，生成多个副本，消息（record）除了存储在leader节点上，还会将副本消息存储到每一个follower节点上；

（8）当zk监控到leader节点发生故障不可用时，会在剩下的follower节点上选举出新的leader，并且将副本上的消息进行恢复，重新对外提供读写服务

（9）存在问题：当zk进行leader选举时，会出现消息丢失或者数据不同步的问题；

存储逻辑说明：

当生产者发送消息01，根据key计算出partition为1，则kafka会将消息存入broker-01号节点的partition1，并将该节点设置为消息01的主节点；同时将消息同步给broker-02里面的partition2和broker-03里面的partition3作为该消息的副本；
当生产者再次发送消息02，根据key计算出partition为2时，则kafka会将消息存入broker-02号节点的partion1，并将该节点设置为消息02的主节点；同时将消息同步给broker-01里面的partition2和broker-03里面的partition2作为该消息的副本；
当生产者再次发送消息03，根据key计算出partition为3时，则kafka会将消息存入broker-03号节点的partion1，并将该节点设置为消息03的主节点；同时将消息同步给broker-01里面的partition3和broker-02里面的partition3作为该消息的副本；

三、分区：topic是以分区组的形式来存储数据的

虽然kafka牺牲了topic的顺序，但增加了分区，加大了topic的并发，以及单个topic的数据存储量；

1、消费者在消费数据时，会维护本次消费对应的分区偏移量，然后批量向kafka提交这些偏移量，也就是说，这个偏移量完全右消费者控制，消费者之间相互独立；

2、实现分区的目的：

这种分区设计使得kafka服务器既可充当某些分区的leader，也可以是follower，使得负载得到很好的平衡；

日志的扩展得到最大程度的发挥；加大并发量和存储海量数据，分区越多，能存储越多的数据

四、消费者和消费组

一个消费者必须属于一个消费组；
消费者使用Consumer Group名称来标记自己；
kafka会将消息发送给ConsumerGroup，具体ConsumerGroup根据什么原则去将消息分配给消费者实例，由Group的分配原则决定；
ConsumerGroup可以理解为逻辑的订阅者，有多个消费者实例，
可以实现消费端性能伸缩性（可扩展），也可以实现容错（一个消费者挂了可以有其他的实例来消费）；
同一个消费组内的实例对同一个topic的partition是均分实现的，也就是说topic1下的partition1只会把消费发送到ConsumerGroup下的消费者实例1，不会把消息既发送给ConsumerGroup1下的消费者实例1，又发送给消费者实例2；在消费组内不会存在消息重复消费；
但是不同的消费组是广播模式，比如ConsumerGroup2也订阅了topic1，则Topic1下的partition1也会将消息发送给ConsumerGroup2下的消费者实例1；