数据仓库与数据湖的区别以及数据入湖方式

数据仓库与数据湖的区别

1)从使用对象来看,数据仓库主要是给 BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是 BI.

2)从数据处理的过程来看,数据仓库是ETL,抽取-清洗加载而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载

3)从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

4)从存储的数据类型来看,数据仓库存储的主要是结构化数据而数据湖存储的是结构化,半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据。

5)数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

数据批量入湖的方式有:

  1. 通过ETL(提取、转换和加载)工具进行数据导入;
  2. 通过API和SDK进行数据导入;
  3. 通过文件系统进行数据导入;
  4. 通过数据库进行数据导入;
  5. 通过数据湖管理平台进行数据导入。
相关推荐
莫叫石榴姐15 分钟前
一份热乎的阿里25届数据分析面试题
数据库·数据仓库·sql·算法·数据挖掘·数据分析
Kika写代码35 分钟前
【Linux】【Hadoop】大数据基础实验一
大数据·linux·hadoop
梦想画家2 小时前
dbt compile 命令及应用
数据仓库·数据转换·分析工程
新加坡内哥谈技术2 小时前
微软AI核电计划
大数据·人工智能·语言模型·自然语言处理
isNotNullX2 小时前
ETL架构类型有哪些?怎么选择?
数据仓库·架构·etl
科爷出击3 小时前
ElasticSearch学习笔记
大数据·后端
檀越剑指大厂4 小时前
【Elasticsearch系列十九】评分机制详解
大数据·elasticsearch·搜索引擎
武子康4 小时前
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解
java·大数据·clickhouse·flink·spark·scala
Hello.Reader4 小时前
深入解析 Apache Doris架构、应用场景与最佳实践
大数据·架构·数据分析·apache
wangye114225 小时前
大舍传媒:尼日利亚传统新闻媒体宣传助力新兴行业蓬勃发展
大数据·人工智能