数据湖的概念（包含数据中台、数据湖、数据仓库、数据集市的区别）--了解数据湖，这一篇就够了

lzhlizihang2024-11-28 11:55

网上看了好多有关数据湖的帖子，还有数据中台、数据湖、数据仓库、数据集市的区别的帖子，发现帖子写的都很多，而且专业名词很多，不是一般人还真的看不懂。

下面我以简单的语言总结概括一下：

一、数据湖概念

数据孤岛：数据分散度过高，无法集中利用（解决方案：可以通过ETL等程序将各个数据孤岛的数据抽取到数仓，进行集中分析）

数据价值的提升：数据增长太快，导致原本遗忘在角落中的数据慢慢有了价值

非结构化数据分析：数仓只适合处理结构化数据，不适合处理非结构化数据

想要海量保留原始数据：由于大规模存储的成本以及大数据技术尚未发展起来的原因，造成企业对于数据的存储都是精简的，无法大量长期保存原始数据

企业的要求：

1、数据的集中存储，可以解决数据孤岛

2、成本可控、维护简单

3、可以存储任意结构的数据

4、能够支持大多数框架（比如：spark，flink等）

而为了迎合这种需求，提出了数据湖的概念

一句话总结：一种能够满足海量存储和海量分析的系统架构方案（不是数据库，也不是技术架构，是一种概念、一种方案和思路）

切记！！！！！数据湖不是框架，也不是技术的实现，只是一种思想，一种方案！！！！

具体区别，看下面一张图即可：

写时模式：数据写入前已经定义好Schema，更改Schema成本高

读时模式：数据在利用的时候再定义Schema，灵活方便（比如：SparkSQL）

所以在数据湖的实现方案中，SparkSQL占了很大份额

以AWS（亚马逊旗下的一个平台）为例，简单说明一下数据中台和数据仓库的区别：