kafka夺命连环三十问（16-22）

16、kafka是如何做到高效读写

1，kafka本身是分布式集群，可以采用分区技术，并行度高

2，读数据采用稀疏索引，可以快速定位要消费的数据

3，顺写磁盘

4，页缓存+零拷贝技术

17、Kafka集群中数据的存储是按照什么方式存储的？

Kafka使用自己的文件存储系统来存储消息。每个分区的数据被存储在一系列文件中，这些文件被称为segment。每个segment包含一个.log文件和一个.index文件。.log文件存储消息的二进制数据，而.index文件存储消息的索引信息，用于快速定位消息。

18、kafka中是如何快速定位到一个offset的。

在kafka中要快速定位一个offset主要依赖于其稀疏索引机制，当需要读取特定offset的数据时，先通过稀疏索引确定数据所在的segment范围，然后在该segment内进一步查找

19、简述kafka中的数据清理策略。

1，基于时间的数据清理

2，基于大小的数据清理

3，日志清理策略

kafka提供了两种日志清理策略：delete和compact

一种是基于时间的，另外一种是基于大小

1，delete它会删除所有过期的数据，如果segment中既有过期数据也有未过期数据，kafka会保留未过期的数据，删除过期的部分，这样可以保证数据的完整性

2，compact 日志压缩(合并的意思，不是真的压缩)

compact日志压缩：对于相同key的不同value值，只保留最后一个版本。

4，日志清理的触发

20、消费者组和分区数之间的关系是怎样的？

消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费

21、kafka如何知道哪个消费者消费哪个分区？

groupld对五十取模，看最后结果是哪个分区节点，假如是1分区，那么1分区的协调器就是本次消费者组的老大，消费者向该协调器注册，协调器从中随机选择一个消费者作为本次消费的leader，然后让leader制作计划，哪个消费者消费哪个分区

22、kafka消费者的消费分区策略有哪些，默认是个？

kafka有四种主流的分区分配策略：Range、RoundRobin（轮询）、Sticky（粘性）、CooperativeSticky（配合的粘性）。

默认情况下，Kafka使用的分区分配策略是RangeAssignor，即范围分配策略。