Kafka（消息队列）--简介

新手小农2023-11-09 16:27

是一个高吞吐的分布式消息系统，与Hdfs比较相似，但是与hdfs的区别是在于hdfs是存储的是历史的、海量的数据，然而kafka存储的是实时的、最新的数据。

指的是在Kafka中的数据队列。可以存放数据在峰值的时候的数据，因为在数据峰值的时候，此时的数据量比较大，对于消费者没有办法及时的消费，为了防止反压的现象，此时的数据就可以在消息队列中等待。

生产者：生产者负责产生数据

消费者：消费者负责消费数据

峰值压力缓冲的应用在Flink中：

当数据某一时刻的产生的速度要是大于Flink的处理的速度，可以通过提高并行度来增加数据处理的速度，但是Flink是7*24小时的工作机制，就会导致资源的浪费，此时可以通过kafka来做峰值压力缓冲，就是在Flink高峰期的时候，将没办法及时处理的数据缓存在队列中，减轻Flink的压力。

1、消息系统的模型：生存者消费者模型，FIFO模型

2、高性能：单节点支持上千个客户端

3、持久性：消息直接持久化在磁盘上且性能比较好

4、分布式：数据副本冗余，流量负载均衡，可扩展

5、很灵活：消息长时间持久化+client维护消费状态

1、kafka写磁盘是顺序写的

2、采用了sendFile的0拷贝的技术，提高速度

3、还采用了批量写入，一批一批的写入数据，64k为一个单位。

1、组件：

1、broker：使用存放数据的，也是多节点的

2、Zookeeper：负责存储kafka的元数据