数据仓库与数据湖的区别以及数据入湖方式

数据仓库与数据湖的区别

1)从使用对象来看,数据仓库主要是给 BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是 BI.

2)从数据处理的过程来看,数据仓库是ETL,抽取-清洗加载而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载

3)从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

4)从存储的数据类型来看,数据仓库存储的主要是结构化数据而数据湖存储的是结构化,半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据。

5)数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

数据批量入湖的方式有:

  1. 通过ETL(提取、转换和加载)工具进行数据导入;
  2. 通过API和SDK进行数据导入;
  3. 通过文件系统进行数据导入;
  4. 通过数据库进行数据导入;
  5. 通过数据湖管理平台进行数据导入。
相关推荐
tian_jiangnan4 分钟前
flink大数据15天速成教程
大数据·flink
一休哥※32 分钟前
ClawTeam 完整使用教程:用 AI 多智能体团队自动完成复杂任务
大数据·人工智能·elasticsearch
yitian_hm43 分钟前
HBase 原理深度剖析:从数据模型到存储机制
大数据·数据库·hbase
鹧鸪云光伏2 小时前
微电网设计系统及经济收益计算
大数据·人工智能·光伏·储能设计方案
国冶机电安装2 小时前
其他弱电系统安装:从方案设计到落地施工的完整指南
大数据·运维·网络
蓝天守卫者联盟12 小时前
玩具喷涂废气治理厂家:行业现状、技术路径与选型指南
大数据·运维·人工智能·python
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-03-30
大数据·数据库·人工智能·经验分享·搜索引擎
源码之家3 小时前
计算机毕业设计:Python智慧交通大数据分析平台 Flask框架 requests爬虫 出行速度预测 拥堵预测(建议收藏)✅
大数据·hadoop·爬虫·python·数据分析·flask·课程设计
云境筑桃源哇3 小时前
navigare登上中国时装周 「质」造无界,焕新航海风尚
大数据·人工智能
北京软秦科技有限公司3 小时前
AI报告文档审核助力食品飞检常态化应对:IACheck下的风险防控与质量管控重构
大数据·人工智能·重构