Lambda架构的三层 批处理层 加速层 服务层

Lambda架构是一种大数据处理架构,由Nathan Marz提出,它旨在处理大规模数据的批处理和实时处理问题。Lambda架构试图提供一种既能处理大量数据,又能提供低延迟查询和视图的系统。它主要由以下三层组成:

1. 批处理层(Batch Layer)

批处理层的目的是处理大量的历史数据。这一层负责存储和管理原始数据的不变性版本,并运行预定义的批处理作业来预计算结果。这些批处理作业通常是高延迟的(可能需要几分钟到几小时不等),但可以处理非常大的数据集,并确保数据的完整性和准确性。

批处理层通常使用分布式文件系统(如HDFS)来存储数据,并使用大数据处理框架(如Hadoop MapReduce或Apache Spark)来进行计算。

2. 加速层(Speed Layer)

速度层的主要目的是处理实时数据流,以便系统能够提供低延迟的数据视图。由于批处理层有较高的延迟,速度层补充了这一点,通过实时处理最近的数据更新来提供近乎实时的视图。速度层的输出通常是不完整的,并且只代表自上一次批处理作业以来发生的数据。

这一层通常使用流处理技术(如Apache Storm、Apache Flink或Kafka Streams)来处理即时数据流。

3. 服务层(Serving Layer)

服务层的作用是为用户查询提供响应。它将批处理层预计算的结果与速度层实时计算的结果合并,以提供一个全面的数据视图。服务层需要能够快速更新和查询,因此通常使用如NoSQL数据库(如Apache HBase或Cassandra)来支持这种需求。

在查询时,服务层会同时访问批处理层的预计算视图和速度层的实时视图,并将两者的结果合并以提供最终的查询结果。

Lambda架构的挑战

尽管Lambda架构在处理大规模数据系统的同时提供了批处理和实时处理的能力,但它也带来了一些挑战,如:

  • 复杂性:维护两套逻辑(批处理和实时处理)增加了系统的复杂性。
  • 数据延迟:批处理层可能会导致数据处理的延迟。
  • 资源消耗:运行两个系统(批处理和实时处理)需要更多的资源。

为了解决这些挑战,出现了一些替代架构,如Kappa架构,它只使用一个处理系统来处理实时数据流,同时也用于生成历史数据视图,从而减少了复杂性和资源消耗。

相关推荐
安思派Anspire42 分钟前
LangGraph + MCP + Ollama:构建强大代理 AI 的关键(一)
前端·深度学习·架构
radient1 小时前
Golang-GMP 万字洗髓经
后端·架构
Code季风1 小时前
Gin Web 层集成 Viper 配置文件和 Zap 日志文件指南(下)
前端·微服务·架构·go·gin
鹏程十八少2 小时前
9.Android 设计模式 模板方法 在项目中的实战
架构
程序员JerrySUN4 小时前
RK3588 Android SDK 实战全解析 —— 架构、原理与开发关键点
android·架构
ai小鬼头14 小时前
AIStarter如何助力用户与创作者?Stable Diffusion一键管理教程!
后端·架构·github
掘金-我是哪吒17 小时前
分布式微服务系统架构第156集:JavaPlus技术文档平台日更-Java线程池使用指南
java·分布式·微服务·云原生·架构
国服第二切图仔17 小时前
文心开源大模型ERNIE-4.5-0.3B-Paddle私有化部署保姆级教程及技术架构探索
百度·架构·开源·文心大模型·paddle·gitcode
SelectDB18 小时前
SelectDB 在 AWS Graviton ARM 架构下相比 x86 实现 36% 性价比提升
大数据·架构·aws
weixin_4373982119 小时前
转Go学习笔记(2)进阶
服务器·笔记·后端·学习·架构·golang