Cloudera:大数据的弄潮儿
1、Cloudera发展史
说起Cloudera,就不得不提起Hadoop,Cloudera的过去就是Hadoop时代中的一个缩影。作为全球第一家也是最大一家Hadoop商业化公司,Cloudera一直是Hadoop生态的领导者
1.1、Hadoop之父与Cloudera之父
2006年,计算机科学家Doug Cutting和Mike Cafarella创建了Apache Nutch项目并带着项目加入了雅虎,希望能在雅虎的帮助下为世界提供一个开源、可靠、可扩展的计算框架,于是成立了一个新项目Hadoop,Doug Cutting也认识了当时的雅虎副总裁Amr Awadallah
Amr当时正在研究如何让雅虎搜索更智能,也碰到很多性能、成本与弹性的问题。在Doug Cutting的建议下,他开始尝试Hadoop
在随后的两年里,Amr基于Hadoop改造了之前的数据处理系统,结果出乎意料的好。新系统成本不仅是之前的十分之一,更重要是还能完成之前根本无法想象的事情,这让Amr大为惊喜
他敏锐地觉察到Hadoop这种革命性的数据处理能力里蕴含着巨大商机。于是他萌生了再度创业的想法。这并不是Amr的第一次创业,实际上他在很早之前就创立了一家叫做VivaSmart的公司,2000年被雅虎收购,他也随之加入雅虎
2008年,Amr召集了几位来自谷歌、Facebook和Oracle的志同道合的伙伴,一起在硅谷创立了Cloudera,自己担任CTO。一年后,Hadoop的创始人Doug Cutting也加Cloudera,成为新的CTO,之后他很快被选为Apache基金会主席
天时、地利、人和,独角兽的羽翼丰满,只等风来
1.2、Hadoop势不可挡,Cloudera乘风破浪
Hadoop一问世便以燎原之势蔓延,不仅席卷了硅谷,也燃烧到了大洋彼岸的淘宝和百度等巨型互联网公司,很快就成了Apache的顶级项目
接下来的几年里,Hadoop成为大数据时代的宠儿,只要搜索"Hadoop is",自动填充就会显示"future"。所有人都关注着它,生怕错过什么
2009年到2013年是Hadoop的繁盛时期,也是Cloudera的快速发展的时期
Cloudera先后与Oracle、Intel、微软等IT巨头达成战略合作。2013年,Cloudera表示已经找到了在Hadoop上成功的商业模式。那时的Cloudera作为大数据领域最耀眼的明星,同样也是资本的宠儿。5年内拿到三笔投资,在2015年华尔街日报的独角兽排名Cloudera排名21,超越了大众点评,而且是唯一上榜的大数据公司
2017年,Cloudera成功上市
1.3、Hadoop风光不再,Cloudera绝地重生
随着大数据技术的发展,Hadoop最赖以成名的HDFS和MapReduce技术逐渐被新的技术取代。被Hadoop深刻影响了十几年的IT界感受到了这个时代的落幕
于是有人开始宣称Hadoop已死,如果这时你搜索"Hadoop is",自动填充就会显示"dead"。尤其到了2019年,往日的Hadoop三巨头的日子都不太好过。MapR裁员,然后卖给了HPE。Cloudera也与Hortonworks合并,合并后股价连续下跌,CEO离职
Cloudera意识到Hadoop的红利时代已经过去,真正的Cloud Era(云纪元)已经开启,需要开发下一代数据产品以拥抱企业云计算
2019年,合并之后的Cloudera推出了全新一代的大数据平台产品CDP,这是世界上第一款企业数据云平台产品。最大化地整合了Cloudera原来的产品CDH和Hortonworks原来的产品HDP,把这两条产品线里最优势的部分进行整合,并对已有技术提供了增强功能
2022年,原有的CDH和HDP用户均可升级到CDP。Cloudera新一代CDP的数据架构,意味着数据管理方式向混合云的方向转变。CDP可以跨多个主流公有云平台以及私有云平台进行数据管理。无论数据位于何处,企业都能跨多个云处理复杂的数据流程,管理数据并实现多功能分析。对于企业来说,也可以摆脱被单一云平台供应商锁定的风险
2021年Cloudera宣布与阿里云达成合作。CDP将正式入驻阿里云,成为阿里云中的企业数据云,方便国内的企业能更有效地运用数据赋能业务
Cloudera在过去十几年之间的沉沉浮浮让人唏嘘不已,宛如一颗流星划过天空。但有一点Cloudera做的非常明智,那就是审时度势,紧跟技术趋势持续革新,拿得起放得下方显英雄本色
2、透过Cloudera看清大数据时代的转变
2.1、Hadoop大数据时代
2021年10月8日,大数据行业的一个标志性事件发生:Cloudera正式宣布完成了从纳斯达克摘牌和私有化退市
这家曾在开源Hadoop大数据生态下风光一时的开源商业化公司,面对那条再无波澜的价格曲线,想来应是无奈且不甘的
无奈的是,退市当日Cloudera市值只剩47亿美元,才与2014年Intel投资时的估值相当,七年南柯一梦。更不甘的是,和2020年刚上市的另外一家大数据公司SnowFlake市值相比,差了近20倍,凭什么?
要知道在当初,言大数据必言Hadoop。Hadoop大数据时代里,Hadoop也依然没能让Cloudera走向辉煌,仅如一颗流星划过行业的天空,空留一声惆怅。到底问题出在哪里?
让我们先来简单回顾一下Cloudera在过去的十几年经过的一番挣扎
Cloudera成立于2008年,次年便推出了首个Hadoop发行版CDH。CDH产品以企业版收费和开源版免费的方式拓展业务。2014年获得了Intel公司7.4亿美元的投资,估值高达41亿美元。就在同一年,Hadoop体系下的另一家完全开源的软件,以服务收费的Hortonworks成功上市,市值达20亿美元。Cloudera在此轮融资中以41亿美元的估值牢牢坐稳了Hadoop发行商的头把交椅,成为了Hadoop生态的历史高光时刻。Cloudera共计为Hadoop贡献了五六十个组件
但随后的形势转变却让整个行业大跌眼镜,Hortonworks的股价一路下跌,而Cloudera则在2017年经历了一场称为流血的上市。上市估值为19亿美元,远低于Intel三年前投资的估值,近乎腰斩。这一切说明不管大数据多火,但这两家公司事实上的业务增长却如此无力
仅一年后的2018年,这对难兄难弟就宣布合并以试图挽回发展的颓势,合并时的总市值为52亿美元,仅比2014年的高光时刻高出约10亿美元
到了Cloudera宣布完成退市时的市值仅剩47亿美元,这其中还包含了合并Hortonworks的市值,也才仅仅和七年前Intel投资时的那个Cloudera估值相近。这真是一场游戏一场梦,游戏结束了,梦却还在原地打转
而Hadoop生态体系里一度曾经出现过三家商业化公司。除了Cloudera和Hortonworks之外,还有一家公司叫MapR。但MapR也没能逃过经营惨淡的命运,因为无法融到资金,早在2019年就经历了一系列裁员后不得不卖身于HPE而收场
对于这三家公司的惨淡命运,我们不禁想问:问题到底出在哪里?
2.2、云计算与云服务时代
让我们先来看看Hadoop体系:它是一个开源组件生态系统,一套技术工具集的总称。最初改变了企业存储、处理和分析数据的方式,主要包含分布式文件存储(HDFS)、分布式计算(MapReduce)和资源调度(Yarn)等功能,随着技术的演进,组件也随后越来越多,变得相当复杂
如果仅从技术的角度来看,Hadoop让Cloudera身处尴尬的境地,应当说还是存在一定的责任的,主要是技术的局限性和生态的复杂性
-
Hadoop的技术局限性
成本节约和分析性能是Hadoop最吸引人的两个点。但随着企业需求的变化,面对复杂的业务、数据结构及数据源,这两个优势转变成制约企业发展的因素。本地硬件扩容虽然可以满足高峰期的使用需求,但大多数时间这些资源都会被闲置。本地Hadoop环境中无法将存储和计算分离,因此成本也会随着数据集的增加而增加。此时,云成了企业们的首选
-
Hadoop开源生态的复杂性
作为一项开源技术,虽然免费下载,但Hadoop本身却很复杂,对于许多有大数据处理需求的公司来说,让IT部门基于Hadoop进行开发的成本太高,难度也太大。一个Hadoop生态里的开源项目多达几十个,这对于开源社区治理的挑战无疑是巨大的
对于一项生意来说,如果要保证商业上的成功,技术确实是重要的,但技术却绝不是唯一重要的
我们观察到,依赖于Hadoop开源生态的Cloudera遭遇的困境,除了技术之外,更有其业务模式上的致命弱点
开源是一种哲学,但开源并不能保证你能获得足够多的资金来发展和维持你的产品。开源如何发展生意,让企业能盈利,基本上有两条路可选:服务型公司或软件型公司。但还得找到一个可以让用户付费的方式:可持续的技术服务费或软件订阅费
然而不得不承认,没有弹性资源供给、扩展成本快速增加等问题已经成为企业发展的主要矛盾,但Hadoop无法完全解决,而云计算可以很好的解决
2016年,Cloudera试图转型成云计算大数据服务提供商,但由于资金等问题未能实现
2019年,Cloudera与Hortonworks合并后彻底完成了转型。Cloudera果断宣布,对CDH和HDP两条产品线将仅支持到2022年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台CDP(Cloudera Data Platform)。2022年后,原CDH和HDP的用户会被转移到CDP上
2019年,Cloudera推出了CDP公有云平台,2020年又推出了CDP私有云平台。Cloudera希望通过统一的平台界面,对数据进行整个生命周期管理,并提供一致的安全和治理服务
但在此过程中,大数据已不再是过去的大数据,它已经经历了从Hadoop时代演变成云时代。由于业务模式没有及时而坚决地向云转型而错失了宝贵的机会,另外,面临公有云产商的竞争时,Cloudera也没有有效利用许可证模式来狙击云厂商
随着云服务的崛起,基于云的大数据解决方案越来越多,并一定程度上体现了更高的效率。可以说,云计算的侵蚀是让Cloudera陷入困境的主要原因
虽然Cloudera自第一天上市时就意识到了它的竞争对手来自AWS云服务和Microsoft Azure这样的公有云巨头,但其自身在转型的过程中却拖泥带水。而当面临那些云巨头的竞争时,由于Hadoop的开源许可证采用Apache的开源许可证,导致它不能像MongoDB那样的开源数据库公司在同样面临云厂商的竞争时可以更容易修改开源许可证以阻击公有云厂商的竞争
现在,Cloudera在做选择时会更加倾向开放的生态
目前,CDP总共引入了三十多个开源组件,这些组件构成了CDP的五大模块:
- 数据仓库(CDW,Cloudera Data Warehouse):计算引擎包括Hive、Impala等。
- 机器学习(CML - Cloudera Machine Learning):CDP集成了Spark 3.0的RAPIDS加速器,加速数据管道并大幅提升数据和机器学习工作流
- 数据工程(CDE,Cloudera Data Engineering):主要包括Spark等在数据工程方面能力很强的组件。其中Spark是Cloudera的重点项目,但在方向上会做一些调整
- 数据流式处理(CDF,Cloudera Data Flow):主要包括Kafka来保证数据加工传输,Flink做流式数据计算,Nifi在边缘(Edge)节点上做加工处理
- 操作型数据库(COD,Cloudera Operational Database):主要是HBase负责历史数据海量存储和查询。目前HBase支持Phoenix二级索引等功能
此外,在存储上,CDP公有云上支持对象存储S3和ADSL;私有云上支持传统的Kudu、HDFS、HBase和对象存储Ozone
针对安全问题,Cloudera提出了SDX(Shared Data Experience)框架
云原生是一个不能回避的话题,Cloudera将拥抱云原生,把云原生支持做的更好
3、参考文章
1)https://zhuanlan.zhihu.com/p/530076039