概述
Pulsar 是一个多租户、高性能的服务器到服务器消息传递解决方案。Pulsar 最初由 Yahoo 开发,由 Apache 软件基金会管理。
特点
Pulsar 的主要功能如下:
- 原生支持 Pulsar 实例中的多个集群,可跨集群无缝地复制消息。
- 非常低的发布和端到端延迟。
- 无缝扩展到超过一百万个主题。
- 一个简单的客户端 API,具有 Java、Go、Python 和 C++ 的绑定。
- 主题的多种订阅类型(独占、共享和故障转移)。
- 使用 Apache BookKeeper 提供的持久消息存储保证消息传递。 Pulsar Functions 是一个无服务器的轻量级计算框架,提供流原生数据处理能力。
- 基于 Pulsar Functions 构建的无服务器连接器框架 Pulsar IO 可以更轻松地将数据移入和移出 Apache Pulsar。
- 当数据老化时,分层存储将数据从热/热存储卸载到冷/长期存储(例如 S3 和 GCS)。
消息
Pulsar 建立在 publish-subscribe 模式(通常缩写为 pub-sub)之上。在此模式中,生产者将消息发布到主题;使用者订阅这些主题,处理传入的消息,并在处理完成后向代理发送确认。
创建订阅时,Pulsar 会保留所有消息,即使使用者已断开连接。只有当使用者确认所有这些消息都已成功处理时,才会丢弃保留的消息。
如果消息的使用失败,并且您希望再次使用此消息,那么可以启用消息重新传递机制以请求代理重新发送此消息。
主题
Pulsar 主题是一种存储单元,用于将消息组织到流中。与其他 pub-sub 系统一样,Pulsar 中的主题是命名通道,用于将消息从生产者传递给消费者。
不需要在 Pulsar 中显式创建主题。如果客户端尝试向尚不存在的主题写入或接收消息,Pulsar 会自动在主题名称中提供的命名空间下创建该主题。
命名空间
Pulsar 命名空间是主题的逻辑分组,也是租户中的逻辑命名法。租户通过管理 API 创建命名空间。
订阅
Pulsar 订阅是一个命名的配置规则,用于确定消息如何传递给消费者。这是由一群消费者建立的主题的租约。Pulsar 中有四种订阅类型:
- exclusive:独占类型是仅允许单个使用者附加到订阅的订阅类型。如果多个消费者使用同一个订阅订阅一个主题,则会发生错误。请注意,如果主题已分区,则所有分区将由允许连接到订阅的单个使用者使用。
- shared:Pulsar 中的共享订阅类型允许多个消费者附加到同一个订阅。消息在使用者之间以循环分布方式传递,并且任何给定的消息都只传递给一个使用者。当使用者断开连接时,将重新安排发送给它但未确认的所有消息,以发送给其余使用者。
- failover:故障转移类型是多个使用者可以附加到同一订阅的订阅类型。为非分区主题或分区主题的每个分区选取主使用者并接收消息。当主使用者断开连接时,所有(未确认和后续)消息都将传递给下一个使用者。
- key_shared:Pulsar 中的Key_Shared订阅类型允许多个消费者附加到同一个订阅。但与 Shared 类型不同的是,Key_Shared类型的消息在使用者之间分发,并且具有相同键或相同排序键的消息仅传递给一个使用者。无论消息被重新传递多少次,它都会传递给同一个使用者。
架构
Pulsar 集群主要由三个核心组件构成,它们分别是:
-
ZooKeeper 集群:负责元数据存储、集群配置和协调工作。Pulsar 使用 Apache Zookeeper 来保存租户、命名空间以及其他全局一致的配置项。每个 Pulsar 集群通常都会有自己独立的 ZooKeeper 集群来保持内部配置和协调信息,如归属信息、Broker 负载报告以及 BookKeeper ledger 信息等。
-
Bookkeeper 集群(也称为 Bookie 集群):提供持久化消息存储机制,确保消息的可靠传递。BookKeeper 是 Pulsar 用来持久化消息的核心组件,它通过 ledger 信息来跟踪消息的存储状态。
-
Broker 集群:由 Pulsar 节点组成,是 Pulsar 系统的自身实例。Broker 负责处理客户端的连接请求,执行消息的发布和订阅操作。在 Pulsar 架构中,Broker 承担着消息路由和分发的关键角色。
元数据存储
Pulsar 元数据存储用于维护 Pulsar 集群的所有元数据,例如主题元数据、schema、broker 加载数据等。Pulsar 使用 Apache ZooKeeper 进行元数据存储、集群配置和协调。
配置存储
配置存储是一个 ZooKeeper 仲裁,用于特定于配置的任务,它维护 Pulsar 实例的所有配置,例如集群、租户、命名空间、分区主题相关配置等。
持久性存储
Pulsar 通过Apache BookKeeper提供的持久化消息存储机制来保证消息传递。这种机制确保了未确认的消息能够持久化存储,直至它们被消费者确认。
在 Pulsar 中,所有消息都有 N 个副本存储在磁盘上并且进行同步,以确保消息的持久性和可靠性。这样的设计使得 Pulsar 能够在发生故障时仍然保持数据的完整性和一致性。
此外,Pulsar 还引入了 Retention 机制,允许用户配置消息持久化的策略,从而避免消息无限期地占用存储空间。这些策略可以根据业务需求进行调整,以实现成本和性能之间的平衡。
部署Pulsar服务
1.版本依赖jdk版本要求
- pulsar 版本 > 2.10
组件 | Java 版本 |
---|---|
Broker | 17 |
Functions / IO | 17 |
CLI | 17 |
Java Client | 8 or 11 or 17 |
- 2.8 <= pulsar 版本 <= 2.10
组件 | Java 版本 |
---|---|
Broker | 11 |
Functions / IO | 11 |
CLI | 8 or 11 |
Java Client | 8 or 11 |
- pulsar 版本 < 2.8
组件 | Java 版本 |
---|---|
All | 8 or 11 |
2.下载安装包
下载安装包,可直接复制地址下载,命令如下:
bash
wget https://archive.apache.org/dist/pulsar/pulsar-3.2.0/apache-pulsar-3.2.0-bin.tar.gz
上传到服务器,并解压,命令如下:
bash
tar xvfz apache-pulsar-3.2.0-bin.tar.gz
进入pulsar文件夹:
bash
cd apache-pulsar-3.2.0
目录如下:
目录名 | 介绍 |
---|---|
bin | 启动脚本和许多其他命令行工具 |
conf | 配置文件,包括broker.conf |
lib | Pulsar 使用的 JAR |
examples | 示例 |
instances | Pulsar函数 |
3.启动 Pulsar 独立集群
运行以下命令以启动独立的 Pulsar 集群:
bash
bin/pulsar standalone
当 Pulsar 集群启动时,会创建以下目录:
目录 | 描述 |
---|---|
data | BookKeeper 和 RocksDB 创建的所有数据 |
logs | 所有服务器端日志 |
4.创建主题
要创建新主题,请运行以下命令:
bash
bin/pulsar-admin topics create persistent://public/default/my-topic
5.写入消息
运行以下命令以生成消息:
bash
bin/pulsar-client produce my-topic --messages 'Hello Pulsar!'
6.消费消息
运行以下命令以启动使用者并读回这些消息:
bash
bin/pulsar-client consume my-topic -s 'my-subscription' -p Earliest -n 0
Earliest:意味着从最早的未使用消息开始使用。
-n 0:表示永久消耗