数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

文章目录


网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多,不是一般人还真的看不懂。

下面我以简单的语言总结概括一下:

一、数据湖概念

1、企业对数据的困扰

数据孤岛:数据分散度过高,无法集中利用(解决方案:可以通过ETL等程序将各个数据孤岛的数据抽取到数仓,进行集中分析)

数据价值的提升:数据增长太快,导致原本遗忘在角落中的数据慢慢有了价值

非结构化数据分析:数仓只适合处理结构化数据,不适合处理非结构化数据

想要海量保留原始数据:由于大规模存储的成本以及大数据技术尚未发展起来的原因,造成企业对于数据的存储都是精简的,无法大量长期保存原始数据

企业的要求:

1、数据的集中存储,可以解决数据孤岛

2、成本可控、维护简单

3、可以存储任意结构的数据

4、能够支持大多数框架(比如:spark,flink等)

而为了迎合这种需求,提出了数据湖的概念

2、什么是数据湖

一句话总结:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)

切记!!!!!数据湖不是框架,也不是技术的实现,只是一种思想,一种方案!!!!

3、数据中台、数据湖、数据仓库、数据集市的区别

具体区别,看下面一张图即可:

写时模式:数据写入前已经定义好Schema,更改Schema成本高

读时模式:数据在利用的时候再定义Schema,灵活方便(比如:SparkSQL)

所以在数据湖的实现方案中,SparkSQL占了很大份额

以AWS(亚马逊旗下的一个平台)为例,简单说明一下数据中台和数据仓库的区别:

相关推荐
AAA建材批发王师傅6 小时前
Hive 序列化与反序列化:数据的 “打包“ 与 “拆箱“ 艺术
数据仓库·hive·hadoop
Faith_xzc11 小时前
Apache Doris FE 问题排查与故障分析全景指南
大数据·数据仓库·apache·doris
zh_199951 天前
Spark面试精讲(上)
java·大数据·数据仓库·python·spark·数据库开发·数据库架构
※尘1 天前
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
数据仓库·hive·hadoop
ahhhhaaaa-1 天前
【AI图像生成网站&Golang】部署图像生成服务(阿里云ACK+GPU实例)
开发语言·数据仓库·人工智能·后端·阿里云·golang
DolphinScheduler社区2 天前
传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探
大数据·数据库·数据仓库·人工智能·开源·白鲸开源
江畔独步2 天前
Doris与DS结合实现MySQL侧的Upsert功能
数据仓库·mysql·doris·upsert
安审若无3 天前
Hive的索引使用如何优化?
数据仓库·hive·hadoop
青春之我_XP3 天前
【基于阿里云搭建数据仓库(离线)】使用UDTF时出现报错“FlatEventUDTF cannot be resolved”
数据仓库·sql·阿里云·云计算·dataworks·maxcompute
weixin_307779135 天前
Clickhouse统计指定表中各字段的空值、空字符串或零值比例
运维·数据仓库·clickhouse