数据仓库与数据湖的区别以及数据入湖方式

数据仓库与数据湖的区别

1)从使用对象来看,数据仓库主要是给 BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是 BI.

2)从数据处理的过程来看,数据仓库是ETL,抽取-清洗加载而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载

3)从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

4)从存储的数据类型来看,数据仓库存储的主要是结构化数据而数据湖存储的是结构化,半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据。

5)数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

数据批量入湖的方式有:

  1. 通过ETL(提取、转换和加载)工具进行数据导入;
  2. 通过API和SDK进行数据导入;
  3. 通过文件系统进行数据导入;
  4. 通过数据库进行数据导入;
  5. 通过数据湖管理平台进行数据导入。
相关推荐
TDengine (老段)3 小时前
TDengine 数学函数 DEGRESS 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine
TDengine (老段)3 小时前
TDengine 数学函数 GREATEST 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
想ai抽4 小时前
深入starrocks-多列联合统计一致性探查与策略(YY一下)
java·数据库·数据仓库
字节数据平台5 小时前
火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
大数据·人工智能·火山引擎
铭毅天下7 小时前
Elasticsearch 到 Easysearch 数据迁移 5 种方案选型实战总结
大数据·elasticsearch·搜索引擎·全文检索
跨境小新7 小时前
Facebook广告投放:地域定向流量不精准?x个优化指南
大数据·facebook
ZKNOW甄知科技8 小时前
客户案例 | 派克新材x甄知科技,构建全场景智能IT运维体系
大数据·运维·人工智能·科技·低代码·微服务·制造
币须赢9 小时前
688758赛分科技 阴上阴形态 洗盘上涨?
大数据
学掌门9 小时前
大数据知识合集之预处理方法
大数据
D明明就是我9 小时前
Hive 拉链表
数据仓库·hive·hadoop