数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

文章目录


网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多,不是一般人还真的看不懂。

下面我以简单的语言总结概括一下:

一、数据湖概念

1、企业对数据的困扰

数据孤岛:数据分散度过高,无法集中利用(解决方案:可以通过ETL等程序将各个数据孤岛的数据抽取到数仓,进行集中分析)

数据价值的提升:数据增长太快,导致原本遗忘在角落中的数据慢慢有了价值

非结构化数据分析:数仓只适合处理结构化数据,不适合处理非结构化数据

想要海量保留原始数据:由于大规模存储的成本以及大数据技术尚未发展起来的原因,造成企业对于数据的存储都是精简的,无法大量长期保存原始数据

企业的要求:

1、数据的集中存储,可以解决数据孤岛

2、成本可控、维护简单

3、可以存储任意结构的数据

4、能够支持大多数框架(比如:spark,flink等)

而为了迎合这种需求,提出了数据湖的概念

2、什么是数据湖

一句话总结:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)

切记!!!!!数据湖不是框架,也不是技术的实现,只是一种思想,一种方案!!!!

3、数据中台、数据湖、数据仓库、数据集市的区别

具体区别,看下面一张图即可:

写时模式:数据写入前已经定义好Schema,更改Schema成本高

读时模式:数据在利用的时候再定义Schema,灵活方便(比如:SparkSQL)

所以在数据湖的实现方案中,SparkSQL占了很大份额

以AWS(亚马逊旗下的一个平台)为例,简单说明一下数据中台和数据仓库的区别:

相关推荐
chimchim665 小时前
hive开窗函数边界值ROWS BETWEEN 和 RANGE BETWEEN区别
数据仓库·hive·hadoop
千叶真尹5 小时前
通过Hive小文件合并(CombineHiveInputFormat)减少80%的Map任务数
数据仓库·hive·hadoop
先睡11 小时前
Spring MVC配置文件
数据仓库·hive·hadoop
yuanbenshidiaos1 天前
【数据挖掘】数据仓库
数据仓库·笔记·数据挖掘
不剪发的Tony老师2 天前
Apache Hop:开源版本的Kettle
数据仓库·etl
专注API从业者3 天前
分布式电商系统中的API网关架构设计
大数据·数据仓库·分布式·架构
我要用代码向我喜欢的女孩表白3 天前
hive迁移补数脚本细粒度 表名-分区唯一键
数据仓库·hive·hadoop
人类群星闪耀时4 天前
数据湖与数据仓库:初学者的指南
大数据·数据仓库·spark
python资深爱好者4 天前
Hive中的分区和桶的概念及其作用
数据仓库·hive·hadoop
我要用代码向我喜欢的女孩表白5 天前
hive(hdfs)补数脚本
数据仓库·hive·hadoop