消息队列-kafka-服务端处理架构(架构,Topic文件结构,服务端数据的一致性)

服务端处理架构

资料来源于网络

网络线程池:

接受请求,num.network.threads,默认为 3,专门处理客户的发送的请求。

IO 线程池:

num.io.threads,默认为 8,专门处理业务请求。也就是它不负责发送响应,发送响应还是由网络线程池处理。

当遇到性能瓶颈的时候可以适当的调整这两个参数

服务端消息存储文件布局

1 Topic 文件结构

Segment 文件结构

命名规则:一个 segment 的名称其实是当前 segment 第一条消息的偏移量,也就是说一个segement如果写不下了就会生成新的segment。
查找机制

  • 将所有的 segment 文件名进行生序排列然后找到偏移量最后落在哪个 segment 对象上(采用二分,因为文件名是有序的)。
  • 继续从这个 segment 里面的 .index 文件找到消息的物理偏移量,也就是对应图中的.index偏移量,最后拿着物理偏移量去 .log 文件找到最终的实体消息,非常的迅速。
    删除机制
    按照时间过期多少删(默认7天)、按照大小来删

服务端数据的一致性

其实也就是分区和副本之前的一致性。比如说我们P0有9条消息,因为每个节点同步数据(网络,IO等原因)所以导致R0 和 R3 之间的数据并不一致。

HW:高水位,消费者消费最高的位置,其实也就是木桶原理,所以只能到下面图中的第四条消息。

LEO:log写文件的最后一个位置。

ISR:也就是一个分区和备份节点的队列。比如P0,R0,R3.

如果我们的备份节点挂掉了:

1 首先它会从ISR中剔除,当恢复正常的时候,会向主分片获取 HW 高水位线,与自己的 LEO 比对,如果自己的 LEO 超过 HW 则干掉超过的部分,小于的话就从主分片复制数据过来。

2 复制的时候,如果复制之后的 LEO 与 HW 持平的话,那么就会重新加入到 ISR 同步队列中

如果我们的主分区挂掉了:

1 从ISR中剔除,选择数据最多的数据为主分片。

2 活过来的时候,发现已经有顶替的 leader 角色(主分片)了,那么就跟随,也就是向 leader 获取 HW 高水位线,与自己的 LEO 比对,大于 LEO 则删除,小于 LEO 则从 leader 这边复制数据过去。

3 复制数据的进度如果赶上了主分片的 HW 的话,那么就继续加入到 ISR 队列中。
但是我们主分片数据最多,为什么要把后面的数据干掉呢,这样不是会丢失消息吗?

这样其实是保证了数据的一致性,也就是保证分区和备份节点的都是同样的进度。

数据不丢失问题是由Producer来保证的,也就是有重试机制,如果没有发送成功的话,就会从新发送,但是消费者一侧一定要做幂等。

相关推荐
会周易的程序员2 小时前
microLog 的本地日志读取接口 log_reader — 本地日志文件读取工具开发指南
linux·物联网·架构·嵌入式·日志·iot·aiot
无心水3 小时前
【全域智能营销实战】2、Spring AI 模块化架构深度解读:从 1.0 到 2.0 的演进与最佳实践
人工智能·spring·架构·harness·顶尖架构师·全域智能营销·harmess
HavenlonLabs3 小时前
Havenlon 对抗性完整(十七):安全不是“防住攻击”,而是控制失败方式
网络·人工智能·架构·安全威胁分析·安全架构·havenlon
doiito(Do It Together)3 小时前
media_agent 进化之路:把 Gliding Horse 的 Agent 超能力注入 ComfyUI,让图片生成自己“学会”优化
人工智能·架构·rust·knowledge graph
触底反弹4 小时前
🔥 从点积到 Transformer:我终于搞懂大模型是怎么"猜"出下一个词的了
人工智能·机器学习·架构
2601_962502904 小时前
服装点胶点钻设备的算法架构与工艺适配分析
架构
-dzk-6 小时前
【系统架构设计师】案例分析篇
开发语言·数据结构·python·算法·架构·系统架构·架构设计
凡泰AI6 小时前
从个人用AI到企业用AI,如何为企业部署一套私有化Agent智能体运行时,将AI变成企业的基础设施
人工智能·ai·架构·agent·cio
柒和远方7 小时前
Phase 7.4 学习博客:为什么多 API 项目需要 Swagger / OpenAPI
前端·后端·架构
mONESY7 小时前
AI Loop 自动化工程实践,放弃手工调 Prompt,循环才是标准答案!
架构