【大数据】Hadoop生态未来发展的一些看法

大数据的起源

谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Google File System》介绍了Google如何对大规模数据进行存储和分析。这三篇论文开启了工业界的大数据时代,被称为Google的三驾马车

大数据的价值

而算来大数据已经快发展到20年,而在近几年吹的比较热的数据中台也在慢慢变得去中台化,从Gartner发布的技术成熟度曲线图来看,数据中台未成熟即面临淘汰

Hadoop生态成功的核心价值还是在一个中心化的平台上实现跨业务的数据分析、挖掘工作,依托海量数据找到以前不可能做到的规律和相关性,为业务提供有价值的数据分析结果。

当越来越多的人意识到这种价值的时候,就有了开源和商业分析平台的出现,开源以Hadoop生态以主,而国外商业公司以Cloudera和Hortonworks为主,而在2018年,这两家公司的合并宣告着整个分析工具平台的统一

整个Hadoop的关注度也在降低,一个原因是技术已经相对比较成熟,另外市场覆盖度也比较大了,类似十几年前的操作系统,慢慢这些组件都会成为下一个操作系统或操作系统内核,提供了成熟、稳定的版本更新

后hadoop时代的一些看法

存储系统:
  1. 数据的多化性需求导致了对象存储系统的爆发,如MinIO、SeaweedFS和基于HDFS的Zone等系统,还有一批融合了结构化与非结构化数据存储的数据湖系统
  2. 人工智能的爆发导致对于存储的时延、带宽要求越来越高,催生出了一批为高性能数据处理场景设计的系统,如JuiceFS、Alluxio等系统
调度系统:
  1. 人工智能的发展催生了除CPU外的GPU、NPU等异构资源的管理,包括Yarn和K8s的功能也越来越接近,越来越一致,也会逐步吃掉原来属于高性能计算调度引擎Slurm的部分市场
  2. 调度系统也支持不同的计算框架,如Spark、Flink、Pytorch、Tensorflow等
计算系统:
  1. 随着处理实效的要求越来越高,计算会从批处理向实时处理方向发展,或者统一到实时处理框架,如Spark或Flink等
  2. 随时人工智能的发展,人工智能计算框架也会逐步融入到大数据的体系中

整体来看,随着后Hadoop时代,大数据生态技术慢慢会成为像操作系统一样的稳定软件,公司的普及率也会越来越大,不管是使用公有云提供的服务,还是使用成熟的商业化产品,所带来的企业使用成本也会相对降低,也推动企业数字化转型的速度和力度,所以未来我们应该更关注在使用这些工具能给业务带来的价值,类似我们在一个成熟的操作系统上能开发出多少能真正给企业、人个产生价值的App,这些才能我们未来需要关注的点。

相关推荐
AEIC学术交流中心2 小时前
【快速EI检索 | SPIE出版】第六届中国膜计算论坛暨2026年人工智能、大数据与电气自动化国际学术会议(CWMC&AIBDE 2026)
大数据·人工智能·量子计算
历程里程碑2 小时前
二叉树---二叉树的中序遍历
java·大数据·开发语言·elasticsearch·链表·搜索引擎·lua
凌乱的豆包2 小时前
Spring Cloud Alibaba Nacos 服务注册发现和分布式配置中心
分布式
AC赳赳老秦2 小时前
OpenClaw text-translate技能:多语言批量翻译,解决跨境工作沟通难题
大数据·运维·数据库·人工智能·python·deepseek·openclaw
Elastic 中国社区官方博客3 小时前
使用 Elasticsearch + Jina embeddings 进行无监督文档聚类
大数据·人工智能·elasticsearch·搜索引擎·全文检索·jina
我是章汕呐4 小时前
政策评估的“黄金标准”:DID模型从原理到Stata实操
大数据·人工智能·经验分享·算法·回归
独隅4 小时前
PyTorch 分布式训练完整指南:策略、实现与模型选型
人工智能·pytorch·分布式
Data-Miner4 小时前
54页可编辑PPT | 数据中台建设方案汇报
大数据·人工智能
皮皮学姐分享-ppx4 小时前
1447上市公司数字化转型速度的计算(2000-2022年)
大数据·人工智能
才盛智能科技5 小时前
麦粒空间和元K聚合平台正式签约,全面启动流量合作
大数据·人工智能·元k聚合·麦粒空间