首先,Kafka无法保证消息的全局有序性,这是因为Kafka的设计中允许多个生产者并行地向同一个主题写入消息。而且,一个主题可能会被划分为多个分区,每个分区都可以在独立的生产者和消费者之间进行并行处理。因此,生产者将消息写入各自的分区,而这些分区可能会在不同的时间接收到消息,从而导致消息在整个主题中的顺序不确定。
实际上的发布订阅模型可能是这样子的
保证有序性有两种方式:全局有序和局部有效
全局有序
如果要保证消息的全局有序,首先只能由一个生产者往 Topic 发送消息,并且一个 Topic 内部只能有 一个队列(分区)。消费者也必须是单线程消费这个队列。这样的消息就是全局有序的! 不过一般情况下我们都不需要全局有序,即使是同步 MySQL Binlog 也只需要保证单表消息有序即可。
部分有序
因此绝大部分的有序需求是部分有序,部分有序我们就可以将 Topic 内部划分成我们需要的队列数,把 消息通过特定的策略发往固定的队列中,然后每个队列对应一个单线程处理的消费者。这样即完成了部 分有序的需求,又可以通过队列数量的并发来提高消息处理效率。
只要保证了同类的数据发送到同一个队列就可以实现局部有序