数据仓库与数据湖的区别以及数据入湖方式

数据仓库与数据湖的区别

1)从使用对象来看,数据仓库主要是给 BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是 BI.

2)从数据处理的过程来看,数据仓库是ETL,抽取-清洗加载而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载

3)从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

4)从存储的数据类型来看,数据仓库存储的主要是结构化数据而数据湖存储的是结构化,半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据。

5)数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

数据批量入湖的方式有:

  1. 通过ETL(提取、转换和加载)工具进行数据导入;
  2. 通过API和SDK进行数据导入;
  3. 通过文件系统进行数据导入;
  4. 通过数据库进行数据导入;
  5. 通过数据湖管理平台进行数据导入。
相关推荐
阿里云大数据AI技术6 小时前
StarRocks 助力数禾科技构建实时数仓:从数据孤岛到智能决策
大数据
Lx35211 小时前
Hadoop数据处理优化:减少Shuffle阶段的性能损耗
大数据·hadoop
武子康15 小时前
大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流
大数据·后端·spark
阿里云大数据AI技术1 天前
大数据公有云市场第一,阿里云占比47%!
大数据
Lx3521 天前
Hadoop容错机制深度解析:保障作业稳定运行
大数据·hadoop
T06205142 天前
工具变量-5G试点城市DID数据(2014-2025年
大数据
向往鹰的翱翔2 天前
BKY莱德因:5大黑科技逆转时光
大数据·人工智能·科技·生活·健康医疗
鸿乃江边鸟2 天前
向量化和列式存储
大数据·sql·向量化
IT毕设梦工厂2 天前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata