批量发送消息

Kafka 采用了批量发送消息的方式，通过将多条消息按照分区进行分组，然后每次发送一个消息集合，看似很平常的一个手段，其实它大大提升了 Kafka 的吞吐量。

消息压缩

消息压缩的目的是为了进一步减少网络传输带宽。而对于压缩算法来说，通常是数据量越大，压缩效果才会越好。

因为有了批量发送这个前期，从而使得 Kafka 的消息压缩机制能真正发挥出它的威力。对比压缩单条消息，同时对多条消息进行压缩，能大幅减少数据量，从而更大程度提高网络传输率。

多分区

Kafka 使用的是多分区策略，消息被组织成一个一个的主题（topic），而主题可以划分为多个分区（partition）。每个分区都是一个有序、持久化的日志，而 Kafka 通过分区来实现消息的水平扩展和负载均衡。

每个分区内的消息有一个唯一的偏移量（offset），消费者可以根据偏移量读取消息。一个主题可以有多个分区，而消费者可以并行地消费不同分区的消息。

Kafka 使用分区的副本机制来实现数据的冗余备份，而每个主题的分区可以配置多个副本，其中一个副本为 leader（领导者），其他副本为 follower（跟随者）。所有写入操作都由 leader 处理，而 follower 会定期从 leader 同步数据，保持与 leader 数据的一致性。

当 leader 节点故障时，Kafka 会自动从剩余的 follower 中选举新的 leader，确保数据的可用性。

顺序写入

Kafka 的特性之一就是高吞吐率，但是 Kafka 的消息是保存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，但是 Kafka 即使是普通的服务器，Kafka 也可以轻松支持每秒百万级的写入请求，超过了大部分的消息中间件，这种特性也使得 Kafka 在日志处理等海量数据场景广泛应用。

Kafka 为防止丢失数据，会把收到的消息都写入到硬盘中。为了优化写入速度 Kafka 采用了两个技术：顺序写入和 MMFile。

因为硬盘是机械结构，每次读写都会寻址->写入，其中寻址是一个"机械动作"，它是最耗时的。所以硬盘最讨厌随机I/O，最喜欢顺序I/O。为了提高读写硬盘的速度，Kafka就是使用顺序I/O。这样省去了大量的内存开销以及节省了IO寻址的时间。

即便是顺序写入硬盘，硬盘的访问速度还是不可能追上内存。所以 Kafka 的写入性能也不可能和内存进行对比，因此 Kafka 的数据并不是实时的写入硬盘中，它充分利用了现代操作系统分页存储（Page Cache）来利用内存提高 I/O 效率。

Memory Mapped Files

Memory Mapped Files(MMAP或MMFile)也称内存映射文件，在64位操作系统中一般可以表示20G的数据文件，它的工作原理是直接利用操作系统的 Page 实现文件到物理内存的直接映射。完成 MMAP 映射后，用户对内存的所有操作会被操作系统自动的刷新到磁盘上，极大地降低了 IO 使用率。

常规的文件操作为了提高读写性能，使用了 Page Cache 机制，但是由于页缓存处在内核空间中，不能被用户进程直接寻址，所以读文件时还需要通过系统调用，将页缓存中的数据再次拷贝到用户空间中。而采用 mmap 后，它将磁盘文件与进程虚拟地址做了映射，并不会招致系统调用，以及额外的内存 copy 开销，从而提高了文件读取效率。