Lambda架构的三层 批处理层 加速层 服务层

Lambda架构是一种大数据处理架构,由Nathan Marz提出,它旨在处理大规模数据的批处理和实时处理问题。Lambda架构试图提供一种既能处理大量数据,又能提供低延迟查询和视图的系统。它主要由以下三层组成:

1. 批处理层(Batch Layer)

批处理层的目的是处理大量的历史数据。这一层负责存储和管理原始数据的不变性版本,并运行预定义的批处理作业来预计算结果。这些批处理作业通常是高延迟的(可能需要几分钟到几小时不等),但可以处理非常大的数据集,并确保数据的完整性和准确性。

批处理层通常使用分布式文件系统(如HDFS)来存储数据,并使用大数据处理框架(如Hadoop MapReduce或Apache Spark)来进行计算。

2. 加速层(Speed Layer)

速度层的主要目的是处理实时数据流,以便系统能够提供低延迟的数据视图。由于批处理层有较高的延迟,速度层补充了这一点,通过实时处理最近的数据更新来提供近乎实时的视图。速度层的输出通常是不完整的,并且只代表自上一次批处理作业以来发生的数据。

这一层通常使用流处理技术(如Apache Storm、Apache Flink或Kafka Streams)来处理即时数据流。

3. 服务层(Serving Layer)

服务层的作用是为用户查询提供响应。它将批处理层预计算的结果与速度层实时计算的结果合并,以提供一个全面的数据视图。服务层需要能够快速更新和查询,因此通常使用如NoSQL数据库(如Apache HBase或Cassandra)来支持这种需求。

在查询时,服务层会同时访问批处理层的预计算视图和速度层的实时视图,并将两者的结果合并以提供最终的查询结果。

Lambda架构的挑战

尽管Lambda架构在处理大规模数据系统的同时提供了批处理和实时处理的能力,但它也带来了一些挑战,如:

  • 复杂性:维护两套逻辑(批处理和实时处理)增加了系统的复杂性。
  • 数据延迟:批处理层可能会导致数据处理的延迟。
  • 资源消耗:运行两个系统(批处理和实时处理)需要更多的资源。

为了解决这些挑战,出现了一些替代架构,如Kappa架构,它只使用一个处理系统来处理实时数据流,同时也用于生成历史数据视图,从而减少了复杂性和资源消耗。

相关推荐
木斯佳3 小时前
前端八股文面经大全:腾讯WXG技术架构前端面试(2025-11-19)·面经深度解析
前端·面试·架构
up_dong4 小时前
24天,一人成军:我是如何用 AI 撸出一个工业级低代码算法平台 (Spring Boot 3 + LiteFlow + TDengine)
架构
前端不太难4 小时前
AI 如何改变传统 鸿蒙App 的信息架构
人工智能·架构·harmonyos
无心水4 小时前
6、合纵连横:开源快速开发平台全解析与自建平台架构实战【终篇】
java·后端·科技·spring·面试·架构·开源
乾元4 小时前
模型提取:黑盒环境下如何窃取对手的 AI 模型参数
网络·人工智能·安全·web安全·机器学习·架构·系统架构
不吃鱼的猫7485 小时前
【ffplay 源码解析系列】01-开篇-ffplay整体架构与启动流程
c++·架构·ffmpeg·音视频
郝学胜-神的一滴8 小时前
当AI遇见架构:Vibe Coding时代的设计模式复兴
开发语言·数据结构·人工智能·算法·设计模式·架构
芭拉拉小魔仙13 小时前
企业级Vue项目的状态管理:从原理到实战架构
前端·vue.js·架构
马士兵教育17 小时前
程序员简历如何编写才能凸显出差异化,才能拿到更多面试机会?
开发语言·后端·面试·职场和发展·架构
SailingCoder17 小时前
【 从“打补丁“到“换思路“ 】一次企业级 AI Agent 的架构拐点
大数据·前端·人工智能·面试·架构·agent