文章目录
网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多,不是一般人还真的看不懂。
下面我以简单的语言总结概括一下:
一、数据湖概念
1、企业对数据的困扰
数据孤岛
:数据分散度过高,无法集中利用(解决方案:可以通过ETL等程序将各个数据孤岛的数据抽取到数仓,进行集中分析)
数据价值的提升
:数据增长太快,导致原本遗忘在角落中的数据慢慢有了价值
非结构化数据分析
:数仓只适合处理结构化数据,不适合处理非结构化数据
想要海量保留原始数据
:由于大规模存储的成本以及大数据技术尚未发展起来的原因,造成企业对于数据的存储都是精简的,无法大量长期保存原始数据
企业的要求:
1、数据的集中存储,可以解决数据孤岛
2、成本可控、维护简单
3、可以存储任意结构的数据
4、能够支持大多数框架(比如:spark,flink等)
而为了迎合这种需求,提出了数据湖的概念
2、什么是数据湖
一句话总结:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)
切记!!!!!数据湖不是框架,也不是技术的实现,只是一种思想,一种方案!!!!
3、数据中台、数据湖、数据仓库、数据集市的区别
具体区别,看下面一张图即可:
写时模式
:数据写入前已经定义好Schema,更改Schema成本高
读时模式
:数据在利用的时候再定义Schema,灵活方便(比如:SparkSQL)
所以在数据湖的实现方案中,SparkSQL占了很大份额
以AWS(亚马逊旗下的一个平台)为例,简单说明一下数据中台和数据仓库的区别: