【大数据】Hadoop生态未来发展的一些看法

大数据的起源

谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Google File System》介绍了Google如何对大规模数据进行存储和分析。这三篇论文开启了工业界的大数据时代,被称为Google的三驾马车

大数据的价值

而算来大数据已经快发展到20年,而在近几年吹的比较热的数据中台也在慢慢变得去中台化,从Gartner发布的技术成熟度曲线图来看,数据中台未成熟即面临淘汰

Hadoop生态成功的核心价值还是在一个中心化的平台上实现跨业务的数据分析、挖掘工作,依托海量数据找到以前不可能做到的规律和相关性,为业务提供有价值的数据分析结果。

当越来越多的人意识到这种价值的时候,就有了开源和商业分析平台的出现,开源以Hadoop生态以主,而国外商业公司以Cloudera和Hortonworks为主,而在2018年,这两家公司的合并宣告着整个分析工具平台的统一

整个Hadoop的关注度也在降低,一个原因是技术已经相对比较成熟,另外市场覆盖度也比较大了,类似十几年前的操作系统,慢慢这些组件都会成为下一个操作系统或操作系统内核,提供了成熟、稳定的版本更新

后hadoop时代的一些看法

存储系统:
  1. 数据的多化性需求导致了对象存储系统的爆发,如MinIO、SeaweedFS和基于HDFS的Zone等系统,还有一批融合了结构化与非结构化数据存储的数据湖系统
  2. 人工智能的爆发导致对于存储的时延、带宽要求越来越高,催生出了一批为高性能数据处理场景设计的系统,如JuiceFS、Alluxio等系统
调度系统:
  1. 人工智能的发展催生了除CPU外的GPU、NPU等异构资源的管理,包括Yarn和K8s的功能也越来越接近,越来越一致,也会逐步吃掉原来属于高性能计算调度引擎Slurm的部分市场
  2. 调度系统也支持不同的计算框架,如Spark、Flink、Pytorch、Tensorflow等
计算系统:
  1. 随着处理实效的要求越来越高,计算会从批处理向实时处理方向发展,或者统一到实时处理框架,如Spark或Flink等
  2. 随时人工智能的发展,人工智能计算框架也会逐步融入到大数据的体系中

整体来看,随着后Hadoop时代,大数据生态技术慢慢会成为像操作系统一样的稳定软件,公司的普及率也会越来越大,不管是使用公有云提供的服务,还是使用成熟的商业化产品,所带来的企业使用成本也会相对降低,也推动企业数字化转型的速度和力度,所以未来我们应该更关注在使用这些工具能给业务带来的价值,类似我们在一个成熟的操作系统上能开发出多少能真正给企业、人个产生价值的App,这些才能我们未来需要关注的点。

相关推荐
桂成林1 小时前
Hive UDF 开发实战:MD5 哈希函数实现
hive·hadoop·哈希算法
Edingbrugh.南空1 小时前
Flink Postgres CDC 环境配置与验证
大数据·flink
isNotNullX2 小时前
什么是数据分析?常见方法全解析
大数据·数据库·数据仓库·人工智能·数据分析
小袁拒绝摆烂2 小时前
ElasticSearch快速入门-1
大数据·elasticsearch·搜索引擎
一路向北North3 小时前
使用reactor-rabbitmq库监听Rabbitmq
分布式·rabbitmq·ruby
点控云3 小时前
智能私域运营中枢:从客户视角看 SCRM 的体验革新与价值重构
大数据·人工智能·科技·重构·外呼系统·呼叫中心
zkmall4 小时前
企业电商解决方案哪家好?ZKmall模块商城全渠道支持 + 定制化服务更省心
大数据·运维·重构·架构·开源
随缘而动,随遇而安8 小时前
第八十八篇 大数据中的递归算法:从俄罗斯套娃到分布式计算的奇妙之旅
大数据·数据结构·算法
Amy187021118238 小时前
赋能低压分布式光伏“四可”建设,筑牢电网安全新防线
分布式
GISer_Jing9 小时前
Git协作开发:feature分支、拉取最新并合并
大数据·git·elasticsearch