ActiveMQ 源码剖析：消息存储与通信协议实现（一）

一、引言

在当今分布式系统和微服务架构盛行的时代，消息中间件作为实现系统间异步通信、解耦和削峰填谷的关键组件，其重要性不言而喻。ActiveMQ 作为一款广泛应用的开源消息中间件，凭借其对多种消息协议的支持、灵活的部署方式以及丰富的功能特性，在众多企业级应用中扮演着核心角色。

深入剖析 ActiveMQ 的消息存储与通信协议实现，不仅有助于我们更好地理解其内部工作机制，还能在实际应用中根据业务需求进行性能优化、故障排查和架构设计。通过对消息存储机制的研究，我们可以掌握如何高效地持久化和管理消息，确保数据的可靠性和一致性；而对通信协议的分析，则能帮助我们优化网络传输、提高消息传递的效率和稳定性。接下来，就让我们一同深入探索 ActiveMQ 的消息存储与通信协议实现的奥秘。

二、ActiveMQ 消息存储机制概览

消息存储是 ActiveMQ 作为消息中间件的核心功能之一，其重要性不言而喻。在分布式系统中，消息往往需要在不同的节点之间传递，并且要保证在各种异常情况下（如服务器宕机、网络故障等）消息不丢失，这就依赖于可靠的消息存储机制。消息存储不仅确保了消息的持久性，还为消息的顺序性、事务性等特性提供了支持，是实现可靠消息传递的关键环节。

ActiveMQ 提供了多种灵活的消息存储方式，以满足不同场景和需求下的应用。以下是几种常见的消息存储方式：

AMQ：这是一种基于文件的存储方式，适用于 ActiveMQ 5.3 之前的版本。它具有写入速度快和容易恢复的特点。消息存储在一个个文件中，文件的默认大小为 32M ，当一个文件中的消息已经全部被消费，那么这个文件将被标识为可删除，在下一个清除阶段，这个文件会被删除。但由于其为每个索引使用了两个分隔文件，且每个目的地都有一个索引，在每个代理拥有成百上千个队列的情况下，不太适用。并且当 ActiveMQ 代理没有被完全关闭时，索引的覆盖会很慢，因为所有的索引都需要被重建。

KahaDB：从 ActiveMQ 5.4 版本开始，KahaDB 成为默认的消息存储引擎。它是一种基于文件的消息存储机制，为了提高消息存储的可靠性和可恢复性，整合了一个事务日志。KahaDB 拥有高性能和可扩展性等特点，由于使用的是基于文件的存储，所以不需要使用第三方数据库。在存储目录下，会生成db-.log（存储消息内容，默认大小 32M ，数据顺序写入）、db.data（存储db-.log的索引数据，是 B 树结构）、db.redo（用于出现故障时消息恢复）和lock（在集群环境下，获得锁的 broker 才有权限对 kahadb 进行读写操作）这几个文件。

LevelDB：基于文件的本地数据库形式存储，性能高于 KahaDB。它是能够处理十亿级别规模 Key - Value 型数据持久性存储的 C++ 程序库，由 Google 发起并开源。LevelDB 的核心设计算法是跳跃表（Skip List），核心操作策略是对磁盘上的数据日志结构进行归并（LSM）。当 LevelDB 收到新的消息时，会同步写两个地方：内存中的 MemTable 区域和磁盘上的 Log 文件。直接写 Log 文件是为了在系统异常退出并重启时，能够将 LevelDB 恢复到退出前的结构；同时将消息写入内存的 MemTable 区域，MemTable 区域的数据组织结构是跳跃表，这样可以在读取内存中信息时快速完成信息定位。不过，目前官方不再支持或推荐使用。

JDBC：这种方式将数据持久化到数据库中，数据库会自动创建三个表。activemq_msgs用于存储 queue 和 topic 的消息；activemq_acks用于存储持久订阅的信息和最后一个持久订阅接收的消息 ID；activemq_lock在集群环境下才有用，确保只有一个 Broker 可以访问，称为 Master Broker。使用 JDBC 存储需要在activemq.xml中进行相关配置，并添加数据库驱动包到 lib 目录下。其优点是可以利用成熟的数据库管理系统的特性，如事务处理、数据备份与恢复等，但缺点是数据库的 I/O 操作可能会成为性能瓶颈，尤其是在高并发场景下。

这些不同的消息存储方式各有优劣，在实际应用中，我们需要根据业务场景的需求（如性能要求、数据可靠性要求、成本等）来选择合适的存储方式。例如，对于对性能要求极高、数据量不是特别大且允许一定程度数据丢失的场景，可以考虑使用 AMQ 存储；对于大多数需要可靠消息存储和较高性能的通用场景，KahaDB 是一个不错的默认选择；而对于已经有成熟的数据库基础设施，且对数据的一致性和事务处理要求严格的场景，JDBC 存储则更为合适。在后续的章节中，我们将深入分析 KahaDB 和 LevelDB 这两种典型的消息存储实现机制，揭示其内部工作原理和性能特点。

三、AMQ 消息存储实现细节

（一）存储结构剖析

以 KahaDB 为例，其存储结构主要由 Data Log、Btree indexes（消息索引，在 AMQ 中为 Reference store indexes ）和 Cache 等部分组成。

Data Log：KahaDB 中的 Data Log 以日志文件（db-*.log）的形式存在，消息按顺序追加写入其中，这种顺序写入的方式充分利用了磁盘的顺序 I/O 特性，大大提高了写入性能。每个日志文件有默认大小限制（通常为 32MB），当一个日志文件写满时，会创建新的日志文件继续写入。例如，在一个高并发的消息写入场景中，大量消息会快速地顺序写入 Data Log，即使在短时间内有海量消息，也能高效地完成写入操作。当日志文件中的所有消息都被成功消费后，该日志文件会被标记，以便后续进行删除或归档操作，从而释放磁盘空间。

Btree indexes（消息索引）/Reference store indexes：在 KahaDB 中，Btree indexes 以 B 树结构存储在db.data文件中，它通过消息 ID 建立对 Data Log 中消息的引用，能够快速定位到消息在日志文件中的位置，从而实现高效的消息检索。在 AMQ 中，Reference store indexes 用于引用 datalogs 中的消息，通过 message ID 关联，同样起到快速定位消息的作用。例如，当消费者需要获取某条特定 ID 的消息时，系统可以通过索引快速找到该消息在 Data Log 中的存储位置，大大提高了消息读取的速度。

Cache：Cache 用于缓存部分消息和索引信息，减少磁盘 I/O 操作。在有活动消费者时，消息会先被发送给消费者，同时被安排存储，如果消息及时被确认，就不需要写入磁盘，而是暂时缓存在 Cache 中。例如，在一个消费者频繁读取消息的场景中，很多消息可能会被多次读取，将这些消息缓存在 Cache 中，下次读取时就可以直接从内存中获取，避免了重复的磁盘读取操作，显著提高了消息读取的效率。

这三者之间的协作关系紧密。当生产者发送消息时，消息首先被写入 Data Log，同时在 Btree indexes（或 Reference store indexes ）中创建对应的索引，以便后续能够快速查找。如果有活动消费者，消息会同时被发送给消费者并暂存在 Cache 中，如果消息及时被确认，就无需写入磁盘，减少了磁盘 I/O。当消费者需要读取消息时，首先会在 Cache 中查找，如果未找到，则通过 Btree indexes（或 Reference store indexes ）定位到 Data Log 中的消息位置进行读取。

（二）关键配置解读

在conf/activemq.xml中，与 KahaDB 存储相关的重要配置项有很多，以下为你详细解读：

directory：指定 KahaDB 存储数据的目录，默认值为${activemq.data}/kahadb。例如，如果将其修改为/data/activemq/kahadb，则 KahaDB 的数据文件（如db-*.log、db.data、db.redo等）都会存储在这个指定的目录下。这个配置对于合理规划磁盘空间和数据管理非常重要，比如在磁盘空间紧张的情况下，可以将其设置到有足够空间的磁盘分区上。

maxFileLength/journalMaxFileLength：设置每个 Data Log 文件的最大大小，KahaDB 中默认是 32MB 。如果将其设置为64mb，则每个日志文件可以存储更多的消息，减少日志文件的切换频率，在消息量较大的场景下，可以减少文件系统的开销，但也可能导致单个文件过大，在文件清理或恢复时花费更多时间。

syncOnWrite/enableJournalDiskSyncs：KahaDB 中enableJournalDiskSyncs用于设置是否保证每个没有事务的内容被同步写入磁盘，JMS 持久化的时候需要，默认为 true。在 AMQ 中syncOnWrite表示是否同步写文件到磁盘，默认值为 false 。如果将enableJournalDiskSyncs或syncOnWrite设置为 false，写入性能会有所提升，因为减少了磁盘同步的操作，但在系统崩溃等异常情况下，可能会导致数据丢失。例如，在一些对数据一致性要求不是特别高，但对性能要求较高的场景中，可以考虑将其设置为 false 以提高写入性能。

indexWriteBatchSize：KahaDB 中该配置表示批量写入磁盘的索引 page 数量，默认值为 1000。较大的indexWriteBatchSize值可以减少磁盘 I/O 次数，提高索引写入性能，但也会增加内存的占用。比如在一个索引写入频繁的场景中，如果将indexWriteBatchSize适当调大，可以显著提高索引写入的效率，但需要确保系统有足够的内存来支持。

indexCacheSize：KahaDB 中此配置为内存中缓存索引 page 的数量，默认值 10000。较大的indexCacheSize可以提高索引查找的命中率，减少磁盘 I/O，但同样会占用更多内存。例如，在消息读取频繁的场景中，适当增大indexCacheSize可以加快消息检索速度，但要注意内存的合理分配，避免内存溢出。