【面试】Kafka基础知识

定义

Kafka是一个分布式基于发布/订阅模式的消息队列

优点

  • 解耦:上下游之间依赖解耦。
  • 缓冲/削峰:生产消息的速度和消费消息的速度不一致时,可以起到缓冲作用。
  • 异步:天然的异步处理机制,生产者把消息(任务)放进队列,消费者把消息(任务)从队列中拿出。

关键名词

  • 生产者(Producer):消息生产者,负责给Kafka Broker发消息。
  • 消费者(Consumer):消息消费者,负责从Kafka Broker中取消息。
  • 消费者组(Consumer Group, CG):消费者组,由多个消费者组成。
  • 代理者(Broker):Kafka集群中的服务器。
  • 主题(Topic):生产者和消费者面向的队列。
  • 分区(Partition):Topic分布在多个Broker中,Topic分为多个Partition,每个Partition自己是有序的队列。
  • 消息位移(Consumer Offset):代表消费者当前消费的进度,每个消费者会维护自己的消费者唯一。
  • 副本(Replica):
    • 提高可靠性和容错能力:Kafka副本可以提高数据的可靠性和容错能力。如果某个Broker宕机,Leader副本失效,此时Follower副本会自动切换为Leader副本,确保数据的可靠性和服务的可用性。
    • 提高读取性能:Kafka读取速度非常快,部分原因是因为副本机制的支持。读取请求可以被分发到多个副本中,从而提高读取性能。
    • 提高吞吐量:Kafka可以在多个Broker之间进行数据分片,支持并行处理,从而提高吞吐量。同时,副本机制也支持并行处理,提高了吞吐量。
    • 支持数据的备份和恢复:Kafka副本机制可以支持数据备份和恢复。
  • 重平衡(Rebalance):当消费者组增加或者减少消费者的时候,其他消费者实例重新分配订阅主题分区的过程,Rebalance也是Kafka确保高可用的手段之一。

核心API

  • 生产者API:面向生产者的API,简单理解为生产者通过调用该API方法发送(发布)消息
  • 消费者API:面向消费者的API,简单理解为消费者通过调用该API方法获取(订阅)消息
  • Streams API:在一下流处理场景可以使用的API
  • Connector API:

应用场景

  • 上下游数据同步
  • 日志收集

常见面试问题

Kafka是如何保证每个消费者不多消费也不少消费?

Kafka 使用的是一种叫做 "分区 rebalance" 的机制来保证每个消费者不会多消费或少消费。具体来说,每个 Kafka 主题都会分为多个不同的分区,每个消费者在加入组时会被分配到一个或多个分区。当消费者加入组时,Kafka 会为每个消费者分配一定数量的分区。如果一个消费者失败或离开组,Kafka 会重新分配其分区给其他消费者。这就是所谓的 "分区 Rebalance",可以保证每个消费者都只消费自己被分配的分区。此外,Kafka 还会跟踪每个消费者消费的偏移量,以确保每个消费者都从正确的位置开始读取消息。这可以通过 Kafka 的消费者组协议来实现,例如,基于偏移量提交和跟踪来确保每个消费者消费正确的偏移量。

可参考知乎:Kafka如何保证不丢失不重复消费 - 知乎

Kafka实现高可用的方法?

  1. 分布式:Kafka集群是由多个Broker组成的,通常这些Broker会分布在不同的机器上。这种分散布置的好处是当集群中的某台机器出现故障时,其他机器上的Broker仍然能够提供服务,确保了系统的高可用性。
  2. 备份机制:其实思路很简单,就是将相同的数据拷贝到多台机子上,副本分为Leader Replica(主副本)和Follower Replica(从副本),Leader Replica对外提供服务,Follower Replica追随Leader Replica,并不对外提供服务。生产者向Leader Replica写消息,消费者从Leader Replica读消息,而Follower Replica主动向Leader Replica发请求让Leader Replica将最新的数据发送给他,Follower Replica接收到后进行持久化,Follower Replica唯一需要做的就是与Leader Replica保持同步,当Leader Replica数据出现问题时,Follower Replica可以顶上。
  3. 重平衡:当消费者组增加或者减少消费者的时候,其他消费者实例重新分配订阅主题分区的过程。

Kafka Broker是如何持久化数据的?

Kafka使用消息日志(Log)来存储数据,并且通过日志段机制(Log Segment)将日志细分成多个日志段,新的消息会被追加到最新的日志段中,如果当前日志段写满,则会自动切分初一个新的日志段,并且将辽的日志段保存。Kafka还有定时任务定期定理老的日志段。

相关推荐
豹哥学前端2 分钟前
别再背“var 提升,let/const 不提升”了:揭开暂时性死区的真实面目
前端·面试
何陋轩1 小时前
【重磅】悟空来了:国产AI编程助手深度测评,能否吊打Copilot?
人工智能·算法·面试
小研说技术2 小时前
实时通信对比,一场MCP协议的技术革命
前端·后端·面试
山栀shanzhi3 小时前
C/C++之:构造函数为什么不能设置为虚函数?
开发语言·c++·面试
我叫黑大帅4 小时前
受保护的海报图片读取方案 - 在不公开静态资源目录下如何获取静态资源
后端·python·面试
逻辑驱动的ken4 小时前
Java高频面试考点场景题11
java·深度学习·面试·职场和发展·高效学习
Rabitebla5 小时前
【数据结构】动态顺序表实现详解:从原理到接口设计(面试视角)
c语言·开发语言·数据结构·c++·面试·职场和发展
cjzcjl6 小时前
一次面试遇到的问题:灯泡与开关
面试·思考模式
永远不会的CC7 小时前
研0上岸找实习面试经历
python·算法·面试
东北甜妹7 小时前
TCP/IP和VLAN
网络协议·tcp/ip·面试