Kafka学习

  • Kafka的消息通过主题(topic)进行分类

  • 主题可以被分为若干个分区(partition),一个分区就是一个提交日志,通过分区来实现数据冗余和伸缩性

  • 消息以追加的方式写入分区,然后以先入先出(FIFO)的顺序读取

  • 无法在整个主题范围内保证消息的顺序,可以保证消息在单个分区内的顺序

  • 生产者(发布者,写入者)创建消息

  • 一般情况下,一个消息会被发布到一个特定的主题上,生产者在默认情况下把消息均衡发不到主题的所有分区上,并不关心特定消息会被写入哪个分区。

  • 特殊情况下,生产者会把消息直接写到指定的分区,通过分区器来实现,分区器为键生成一个散列值,并将其映射到指定分区上,从而保证同一个键的消息会被写到同一个分区上

  • 消费者(订阅者,读者)读取消息

  • 消费者订阅一个或多个主题,并按照消息生成的顺序进行读取

  • 消费者通过检查消息的偏移量来区分已经读取过的消息

  • 偏移量是一个不断递增的整数值,在创建消息时,kafka会把它添加到消息里

  • 同一个分区,每个消息的偏移量都是唯一的

  • 消费者把每个分区最后读取的消息偏移量保存在Zookeeper或Kafka上,如果消费者关闭或重启,读取状态不会丢失

  • 一个或多个消费者共同读取一个主题,群组保证每个分区只能被一个消费者使用

  • 一个独立的Kafka服务器被称为broker

  • broker接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘保存

主要硬件指标

  • 磁盘吞吐量:磁盘写入速度越快,生成消息的延迟就越低,优先选择固态硬盘(SSD)

  • 磁盘容量:需要多大的磁盘容量取决于需要保留的消息数量。如果每天收到1TB的消息,并且保留7天,那就需要7TB的存储空间,还有其他文件至少10%,还要考虑流量增长和波动

  • 内存:一些情况下,消费者读取的消息会直接存放在系统的页面缓存里,这比从磁盘上重新读取要快得多

  • 网络吞吐量:决定了Kafka能够处理的最大数据流量

  • 保留消息是Kafka的一个重要特性

  • 保留策略:天数或者消息大小

  • broker会往拥有最少数目分区的路径新增分区,而不是往拥有最小磁盘空间的路径新增分区

相关推荐
云栈开源日记17 分钟前
Python 开发技术栈梳理:从数据库、爬虫到 Django 与机器学习
数据库·爬虫·python·学习·机器学习·django
青衫码上行18 分钟前
【Java Web学习 | 第15篇】jQuery(万字长文警告)
java·开发语言·前端·学习·jquery
必胜的思想钢印5 小时前
修改主频&睡眠模式&停机模式&待机模式
笔记·stm32·单片机·嵌入式硬件·学习
沧海寄馀生6 小时前
Apache Hadoop生态组件部署分享-Hadoop
大数据·hadoop·分布式·apache
毕设源码-朱学姐6 小时前
【开题答辩全过程】以 基于Hadoop的豆瓣电影数据分析系统设计与实现为例,包含答辩的问题和答案
大数据·hadoop·分布式
brave and determined8 小时前
可编程逻辑器件学习(day30):数字电路设计中的流水线技术:原理、实现与优化
学习·fpga开发·verilog·fpga·数字电路·硬件设计·嵌入式设计
Radan小哥8 小时前
Docker学习笔记—day007
笔记·学习·docker
ZePingPingZe8 小时前
分布式、Spring Boot微服务、垂直拆分、水平拆分、分库分表详解及关系梳理
分布式·架构
PyAIGCMaster9 小时前
如何编译一个apk,我是新手
深度学习·学习
立志成为大牛的小牛9 小时前
数据结构——四十四、平衡二叉树的删除操作(王道408)
数据结构·学习·程序人生·考研·算法