系统架构-大数据架构设计

基础介绍

三大挑战:

  1. 如何处理非结构化和半结构化数据
  2. 如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模
  3. 数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

架构特征:

  1. 鲁棒性(稳定性)和容错性
  2. 低延迟读取和更新能力
  3. 横向扩容
  4. 通用性
  5. 延展性
  6. 即席查询能力(高效的用户查询)
  7. 最少维护能力
  8. 可调试性

Lambda架构

设计目的在于提供一个能满足大数据系统关键性的架构,整合了离线计算与实时计算。

Lambda架构分解为三层:批处理层、加速层和服务层

批处理层(离线):产生批处理结果视图,结果认为是精准且全量的,但处理时延较高

加速层:处理最近的增量数据流。在接收到新的数据后会不断更新视图

服务层:合并批处理层产出的视图和加速层产出的实时视图,最终得到数据集,响应用户的查询请求

优点:容错性好、查询灵活度高、易伸缩、易扩展,读写分离

缺点:全场景覆盖带来的编码开销,针对具体场景的离线处理开销很大

事件溯源与Lambda架构:

  • 整个系统以事件为驱动
  • 事件是核心,事件保存在某种存储上
  • 业务数据 只是一些由事件产生的视图

Kappa架构

在lambda架构的基础上进行优化,删除了Batch Layer(批处理层),将数据通道以消息队列进行替代。当需要进行离线分析或再次计算时,则将数据湖的数据再次经过消息队列重播一次。

优点:将实时和离线代码统一起来,避免了Lambda架构中与离线数据合并的问题

缺点:消息中间件缓存的数据量和回溯数据有性能瓶颈;非常依赖实时计算系统的能力;抛弃了离线计算更加稳定可靠的特定

Kappa+架构:让流计算框架Spark直接读取HDFS(Hadoop)里的数据仓库数据(历史/离线数据),一并实现实时计算和历史数据计算。

相关推荐
清 晨2 分钟前
YouTube自动AI标签上线后跨境内容团队如何调整素材审核流程
大数据·人工智能·新媒体运营·内容营销·跨境
五度易链-区域产业数字化管理平台30 分钟前
专精特新“小巨人”动态追踪(5月22日-28日)
大数据·人工智能
卋罖7501 小时前
从采购到生产出库:拆解 ERP+MES+WMS+EQMS 全链路业务流程
系统架构
念恒123061 小时前
计算机系统概述
大数据
RD_daoyi1 小时前
Google SEO第三周:网站站内基础优化——决定排名快慢的核心基建
大数据·人工智能·学习·搜索引擎·百度·googlecloud
路人蛃2 小时前
【深入理解计算机系统】第二章第一节(信息存储)笔记
服务器·网络·笔记·计算机网络·系统架构
段一凡-华北理工大学2 小时前
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
可乐ea2 小时前
【知识获取与分享社区项目 | 项目日记第 20 天】search_after 游标分页:解决 Elasticsearch 深分页稳定性问题
java·大数据·elasticsearch·搜索引擎·全文检索
zhongerzixunshi2 小时前
标准化能源管控,赋能企业双碳落地
大数据·人工智能·能源
智慧景区与市集主理人3 小时前
巨有科技联营分账系统|多业态统一管控,破解景区分账结算难题
大数据·人工智能·科技