【大数据】Hadoop生态未来发展的一些看法

大数据的起源

谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Google File System》介绍了Google如何对大规模数据进行存储和分析。这三篇论文开启了工业界的大数据时代,被称为Google的三驾马车

大数据的价值

而算来大数据已经快发展到20年,而在近几年吹的比较热的数据中台也在慢慢变得去中台化,从Gartner发布的技术成熟度曲线图来看,数据中台未成熟即面临淘汰

Hadoop生态成功的核心价值还是在一个中心化的平台上实现跨业务的数据分析、挖掘工作,依托海量数据找到以前不可能做到的规律和相关性,为业务提供有价值的数据分析结果。

当越来越多的人意识到这种价值的时候,就有了开源和商业分析平台的出现,开源以Hadoop生态以主,而国外商业公司以Cloudera和Hortonworks为主,而在2018年,这两家公司的合并宣告着整个分析工具平台的统一

整个Hadoop的关注度也在降低,一个原因是技术已经相对比较成熟,另外市场覆盖度也比较大了,类似十几年前的操作系统,慢慢这些组件都会成为下一个操作系统或操作系统内核,提供了成熟、稳定的版本更新

后hadoop时代的一些看法

存储系统:
  1. 数据的多化性需求导致了对象存储系统的爆发,如MinIO、SeaweedFS和基于HDFS的Zone等系统,还有一批融合了结构化与非结构化数据存储的数据湖系统
  2. 人工智能的爆发导致对于存储的时延、带宽要求越来越高,催生出了一批为高性能数据处理场景设计的系统,如JuiceFS、Alluxio等系统
调度系统:
  1. 人工智能的发展催生了除CPU外的GPU、NPU等异构资源的管理,包括Yarn和K8s的功能也越来越接近,越来越一致,也会逐步吃掉原来属于高性能计算调度引擎Slurm的部分市场
  2. 调度系统也支持不同的计算框架,如Spark、Flink、Pytorch、Tensorflow等
计算系统:
  1. 随着处理实效的要求越来越高,计算会从批处理向实时处理方向发展,或者统一到实时处理框架,如Spark或Flink等
  2. 随时人工智能的发展,人工智能计算框架也会逐步融入到大数据的体系中

整体来看,随着后Hadoop时代,大数据生态技术慢慢会成为像操作系统一样的稳定软件,公司的普及率也会越来越大,不管是使用公有云提供的服务,还是使用成熟的商业化产品,所带来的企业使用成本也会相对降低,也推动企业数字化转型的速度和力度,所以未来我们应该更关注在使用这些工具能给业务带来的价值,类似我们在一个成熟的操作系统上能开发出多少能真正给企业、人个产生价值的App,这些才能我们未来需要关注的点。

相关推荐
WX187021128731 小时前
在分布式光伏电站如何进行电能质量的治理?
分布式
Qspace丨轻空间2 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客3 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata4 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
不能再留遗憾了4 小时前
RabbitMQ 高级特性——消息分发
分布式·rabbitmq·ruby
水豚AI课代表4 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
茶馆大橘4 小时前
微服务系列六:分布式事务与seata
分布式·docker·微服务·nacos·seata·springcloud
材料苦逼不会梦到计算机白富美7 小时前
golang分布式缓存项目 Day 1
分布式·缓存·golang
拓端研究室TRL7 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据
黄焖鸡能干四碗7 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书