Lambda架构的三层 批处理层 加速层 服务层

Lambda架构是一种大数据处理架构,由Nathan Marz提出,它旨在处理大规模数据的批处理和实时处理问题。Lambda架构试图提供一种既能处理大量数据,又能提供低延迟查询和视图的系统。它主要由以下三层组成:

1. 批处理层(Batch Layer)

批处理层的目的是处理大量的历史数据。这一层负责存储和管理原始数据的不变性版本,并运行预定义的批处理作业来预计算结果。这些批处理作业通常是高延迟的(可能需要几分钟到几小时不等),但可以处理非常大的数据集,并确保数据的完整性和准确性。

批处理层通常使用分布式文件系统(如HDFS)来存储数据,并使用大数据处理框架(如Hadoop MapReduce或Apache Spark)来进行计算。

2. 加速层(Speed Layer)

速度层的主要目的是处理实时数据流,以便系统能够提供低延迟的数据视图。由于批处理层有较高的延迟,速度层补充了这一点,通过实时处理最近的数据更新来提供近乎实时的视图。速度层的输出通常是不完整的,并且只代表自上一次批处理作业以来发生的数据。

这一层通常使用流处理技术(如Apache Storm、Apache Flink或Kafka Streams)来处理即时数据流。

3. 服务层(Serving Layer)

服务层的作用是为用户查询提供响应。它将批处理层预计算的结果与速度层实时计算的结果合并,以提供一个全面的数据视图。服务层需要能够快速更新和查询,因此通常使用如NoSQL数据库(如Apache HBase或Cassandra)来支持这种需求。

在查询时,服务层会同时访问批处理层的预计算视图和速度层的实时视图,并将两者的结果合并以提供最终的查询结果。

Lambda架构的挑战

尽管Lambda架构在处理大规模数据系统的同时提供了批处理和实时处理的能力,但它也带来了一些挑战,如:

  • 复杂性:维护两套逻辑(批处理和实时处理)增加了系统的复杂性。
  • 数据延迟:批处理层可能会导致数据处理的延迟。
  • 资源消耗:运行两个系统(批处理和实时处理)需要更多的资源。

为了解决这些挑战,出现了一些替代架构,如Kappa架构,它只使用一个处理系统来处理实时数据流,同时也用于生成历史数据视图,从而减少了复杂性和资源消耗。

相关推荐
一个骇客13 分钟前
弱隔离级别:一场关于“同时干架”的混乱调解指南
架构
没有bug.的程序员17 分钟前
低代码平台后端引擎:元数据驱动架构、插件化内核与 Java 扩展机制
java·低代码·架构·插件化·元数据·扩展机制
jrlong17 分钟前
多模态前沿-第二章 视觉问答-原生统一架构
架构
敢敢のwings26 分钟前
OpenClaw 高级用法深度解析:从 Token 经济学到生产级 Agent 架构
架构
一个无名的炼丹师40 分钟前
从零构建工业级 AI Agent 操作系统:本地优先记忆网络与动态 Skills 架构详解
网络·人工智能·架构·大模型·openclow
HyperAI超神经41 分钟前
物理信息机器学习新突破!新型GNN架构可对复杂多体动力系统进行准确预测,赋能机器人/航空航天/材料科学
人工智能·深度学习·机器学习·架构·机器人·cpu·物理
写bug的小屁孩1 小时前
Langfuse 查询慢到崩溃?我用二级缓存 + 预热架构把响应时间干到 4ms
架构
TDengine (老段)1 小时前
煤机设备每天 TB 级数据,天地奔牛用 TDengine 把查询提速到“秒级”
大数据·运维·数据库·struts·架构·时序数据库·tdengine
Jackson_Li1 小时前
你知道什么是 Prompt Caching 吗
人工智能·架构
中杯可乐多加冰1 小时前
【一点浅思】Transformer架构是否已经触及性能天花板?未来架构突破的方向在哪里?
深度学习·架构·transformer