云消息队列 Kafka 版 V3 系列荣获信通院“云原生技术创新标杆案例”

2024 年 12 月 24 日,由中国信息通信研究院(以下简称"中国信通院")主办的"2025 中国信通院深度观察报告会:算力互联网分论坛",在北京隆重召开。本次论坛以"算力互联网 新质生产力"为主题,全面展示中国信通院在算力互联网产业领域的研究、实践与业界共识,与产业先行者共同探索算力互联网产业未来发展的方向。

会议公布了"2024 年度云原生与应用现代化标杆案例"评选结果, "云消息队列 Kafka 版 V3 系列"荣获"云原生技术创新标杆案例"。

云消息队列 Kafka 版 V3 系列技术创新

云消息队列 Kafka 版 V3 系列基于阿里云强大的基础设施,对 Apache Kafka 进行了深度重构和优化,从而构建了端到端的竞争力。 其核心技术创新点包括:

  1. 利用先进的容器服务技术,显著提升了容器部署的密度和效率,大幅降低了运维成本。
  2. 依托于阿里云飞天盘古读写强一致的高性能分布式文件系统,实现了存算分离架构下 RTO(恢复时间目标)的理论最优值。
  3. 基于弹性 RDMA 网络,相较于传统的 TCP/IP 协议栈,结合 SMC-R 和 eRDMA,实现最高约 30% 的时延减少和最高约 5% 的 CPU 资源节省。
  4. 基于 AJDK 分代无暂停 GC 和 synchronized 兼容的协程,大幅度降低了长尾延迟。
  5. 基于 Alibaba Cloud Linux 3 操作系统中的 Page Cache(文件缓存)限制功能,解决了因 Page Cache无限制使用而导致的稳定性问题。

云消息队列 Kafka 版 V3 系列核心优势

经济 - 成本效益

云消息队列 Kafka 版在成本上具有显著的竞争优势,与 Apache Kafka 相比,其定价平均低约 30%,在某些特定场景下,成本降幅可达 80%。如此显著的经济效益,得益于云消息队列 Kafka 版在架构层面一系列的关键优化和创新。

  • 细粒度按量计费: 云消息队列 Kafka 版 Serverless 系列提供了细粒度的计费模式,支持完全按使用量付费,而不是以云服务器 ECS 实例的粒度进行计费。
  • 计算单副本架构: 云消息队列 Kafka 版基于高性能分布式文件系统提供的分布式强一致性读写语义,实现了 Kafka 计算层的一写多读能力,Leader 写入数据,Follower 强一致可读,计算层无需多副本复制就能实现系统高可用。减少 60% 的复制流量同时也降低 CPU 使用率,大幅提升计算节点利用率。
  • 存储智能分层架构: 闪存介质支持低延迟、高吞吐,微妙级 IO 延迟,磁盘介质支持低成本,温数据高性价比存储,OSS 支持海量数据长期归档存储。通过全链路 CRC 校验保证数据不丢不错,通过纠删码/多副本保证可靠性,通过软硬件协同优化发挥效能,持续释放技术红利。
  • 使用成本优化: 云消息队列 Kafka 团队有长时间研发和运维经历,积累了大量的实战经验。结合客户的业务模型,提供 Kafka 最佳实践,客户端和服务端都有 50% 的成本优化,避免不必要的开支。同时制定容灾方案以防止数据丢失或服务中断,帮忙客户用好、用深产品。

稳定 - 稳定可靠

云消息队列 Kafka 版的稳定性是其在数据流处理等场景中备受信赖的核心优势,这得益于其强大的架构设计和管理体系,为高效、安全的数据流处理提供了坚实的保障。

  • 高可用 HA: 存算分离架构下,计算层不再需要 ISR 这样重量级的副本复制协议,我们设计了一种轻量 HA 方案,优化了元数据管理机制、降低了系统复杂度。Follower Replica 仅作为计算资源的热备存在,只保有少量必要的元数据,仅需要处理少量的元数据变化请求,进一步提高计算层的处理效率。这种架构下,新节点能够快速接管数据并提供服务,为极致弹性打下扎实基础。
  • 多可用区容灾: 云消息队列 Kafka 版支持多可用区容灾体系,并达到了秒级 RTO(恢复时间目标)和零 RPO(恢复点目标)的高标准。即使发生整个可用区不可用级别的灾难性故障,系统也能在不丢失数据的情况下秒级恢复,确保数据的持续可用性和业务的连续性。
  • 自动化巡检: 云消息队列 Kafka 版的自动化巡检系统支持秒级巡检系统运行状态,及时发现异常情况。自动化运维手段减少了人为操作的错误概率,提高了系统的敏捷性和响应速度。
  • 报警机制: 云消息队列 Kafka 版具备完善的报警功能,涵盖多种潜在的故障类型和性能问题。无论是数据积压、节点故障,还是流量异常,报警系统都能迅速通知运维人员,使其能够及时采取措施,从而进一步增强了系统的稳健性和可靠性。

性能 - 高吞吐、低延时

云消息队列 Kafka 版基于阿里自研高性能分布式文件系统、高性能 RDMA 网络和操作系统等对 Apache Kafka 存储引擎进行深度重构,实现了高吞吐、低延迟的核心竞争力。

  • 高吞吐: 飞天盘古是阿里云自研的高性能分布式文件系统,解决了超大规模下数据不丢不错和高可用的难题,兼顾更加稳定可靠的存储能力、更大的容量和更高的性能等优点,广泛部署在全球数十个大型数据中心,服务阿里云上数百万的客户,覆盖互联网、政企、金融、制造等全行业。飞天盘古是阿里云关键的创新技术之一,满足数字经济对海量存储、快速存储和稳定存储的需求,并入选世界互联网领先科技成果。
  • 低延时: 存储低延时,用户态协议栈、闪存介质和高性能 RDMA 网络支持百微秒级平均延迟,毫秒级长尾延迟。计算低延时,针对平均延迟计算层无复制流量可以充分降低网络吞吐以避免拥塞,针对长尾延迟,使用主流编程语言领域最顶尖的内存管理技术,即新一代分代无暂停 GC(generational pauseless GC),大大降低了系统长尾延时。网络低延时,基于 SMC-R 技术(Alibaba Cloud Linux 3 提供的一套完全兼容 Socket API、基于 eRDMA 的共享内存实现的高性能内核网络协议栈),Kafka 无需代码改造即可享受到 eRDMA 技术带来的网络性能红利。相较于传统 TCP/IP 协议栈,云消息队列 Kafka 版使用 SMC-R + eRDMA,能带来最高约 30% 的时延减少和最高约 5% 的 CPU 资源节省。

弹性 - 灵活弹性

云消息队列 Kafka 版 Serverless 系列以其卓越的弹性能力,为企业提供了高效的资源管理和业务连续性保障。

  • 容器化部署: 阿里云容器服务通过硬件结构体系、操作系统、分布式调度配合,实现了面向 SLO 的资源精细化管理和弹性调度:VPA,弹性,超卖等调度技术,提升了资源弹性能力和资源的利用率。节点资源自动弹性结合调度能力提供了丰富的资源弹性能力:块资源弹性,resource limit 阈值弹性,定时弹性等。通过调度和节点弹性技术大幅度提升了容器部署密度和部署效率。
  • 自适应弹性: 云消息队列 Kafka 版 Serverless 系列在 20 MB/s - 1 GB/s 支持无感弹性;1 GB/s - 3 GB/s 支持秒级弹性;3 GB/s 以上支持分钟级弹性。客户可以依据业务流量的趋势,通过弹性能力极致地平衡成本与性能,从容且高效地应对突发流量高峰。
  • 秒级定时弹性: 对于超大规模集群,云消息队列 Kafka 版 Serverless 系列支持脉冲的定时弹性,允许预设弹性策略,在流量高峰期预留足够资源确保关键业务的持续性和稳定性,在低峰期则减少资源使用以节约成本,不仅提升了资源利用率,还降低了运维复杂度。

云消息队列 Kafka 版 V3 系列应用案例

云消息队列 Kafka 版已服务数万家企业,广泛应用于互联网、金融、汽车/出行、在线教育等 20 多个行业领域。以下是两个具有代表性的案例,展示了云消息队列 Kafka 版 V3 系列在实际业务中的应用价值。

曹操出行借助 ApsaraMQ for Kafka Serverless 提升效率,成本节省超 20%

曹操出行作为中国领先的共享出行平台,致力于将互联网、车联网、自动驾驶等先进技术应用于共享出行领域。随着业务规模的不断扩大,曹操出行面临以下挑战:业务流量波动明显,突增高流量对现有技术架构造成压力;数据来源广泛,并且这些数据需要被采集、缓存、分发给不同的数据系统进行处理。

为了应对上述挑战,曹操出行选择与阿里云合作,将 Kafka 迁移上阿里云,采用 ApsaraMQ for Kafka Serverless 系列,凭借其秒级弹性扩展和按需付费的优势,在实现灵活扩缩容的同时,保证了服务的敏捷性和稳定性,并节省了超过 20% 的成本。

更多详情请查看:

曹操出行借助 ApsaraMQ for Kafka Serverless 提升效率,成本节省超 20

道旅科技借助云消息队列 Kafka 版加速旅游大数据创新发展

道旅科技作为以科技驱动的全球酒店资源批发商,需要高效管理和深入分析海量旅游数据,以便更好地把握市场动态、满足客户需求、提升业务效率和优化用户体验。因此,道旅科技打造了先进的大数据平台,并选择 Kafka 作为数据流处理的核心组件,期望其能够提供实时数据处理、高并发高吞吐的消息传递、数据持久化和可靠性、高效管理成本和资源等关键价值。

云消息队列 Kafka 版凭借高吞吐与分布式架构,满足了道旅科技的实时数据收集、传输和高并发消息传递的需求。通过持久化能力与副本机制,进一步确保了数据可靠性和业务连续性。即使在高负载情况下也能稳定传递消息,防止数据丢失,维护数据完整性,从而保障旅游大数据平台的高效运行。 云消息队列 Kafka 版 Serverless 系列采用存算分离架构,并结合动态资源调整策略,能够根据实时业务负载自动进行弹性伸缩,实现按量付费,无需预先估算和配置实例规格。不仅降低了运维工作的复杂度,还显著降低了使用成本。

更多详情请查看:

道旅科技借助云消息队列 Kafka 版加速旅游大数据创新发展

欢迎点击此处了解关于云消息队列 Kafka 版产品的更多信息~

相关推荐
淡黄的Cherry15 分钟前
微服务网关,如何选择?
云原生
DEARM LINER40 分钟前
redis 分布式重入锁
数据库·redis·分布式
言之。2 小时前
【k8s面试题2025】2、练气初期
云原生·容器·kubernetes
小马爱打代码2 小时前
Kafka消息轨迹方案设计与实现
kafka
docsz2 小时前
Shell控监Kafka积压
kafka
银氨溶液2 小时前
RabbitMQ实现延迟消息发送——实战篇
java·spring boot·分布式·后端·职场和发展·rabbitmq·延迟消息
佛州小李哥3 小时前
如何在亚马逊云科技上消除无服务器网页应用冷启动时间(下篇)
科技·云原生·serverless·云计算·开发·aws·亚马逊云科技
codeBrute4 小时前
WebSocket实现分布式的不同方案对比
分布式·websocket·网络协议
安科瑞蒋静5 小时前
浅谈安科瑞电能质量监测和治理产品在分布式光伏电站的应用-安科瑞 蒋静
分布式