数据湖 (特点+与数据仓库和数据沼泽的对比讲解)

数据湖 就像一个"数据水库",把企业所有原始数据(结构化的表格、半结构化的日志、非结构化的图片/视频)原样存储 ,供后续按需分析。

对比传统数据仓库

数据仓库 数据湖
数据 清洗后的结构化数据(如Excel表格) 原始数据(日志、图片、CSV、JSON)
模式 先定义结构再存数据(Schema-on-Write) 先存数据再按需定义结构(Schema-on-Read)
用途 固定报表、BI分析 机器学习、探索性分析、灵活挖掘

数据湖的3大核心特点

  1. 存一切原始数据
    • 例子:电商公司把用户点击日志、客服录音、商品图片都丢进数据湖。
  2. 低成本存储
    • 技术:用Hadoop HDFS、Amazon S3、阿里云OSS等分布式存储,1TB月费仅5美元。
  3. 按需分析
    • 工具:SQL查询(Hive、Presto)、机器学习(Spark ML)、可视化(Tableau)。

数据湖典型架构(3层设计)

  1. 存储层:原始数据直接存储(如AWS S3)。
  2. 处理层:清洗、转换数据(用Spark、Flink)。
  3. 服务层:供分析师、数据科学家按需使用(如用Jupyter Notebook分析)。

数据湖 vs 数据沼泽

  • 成功的数据湖:有元数据管理(知道存了什么)、访问权限控制、数据目录。
  • 失败的数据沼泽 :数据乱堆不放标签,找数据像"大海捞针"。
    关键工具
  • 元数据管理:Apache Atlas、AWS Glue Data Catalog。
  • 数据治理:Collibra、Alation。

数据湖的3个实际应用

  1. 用户行为分析
    • 案例:抖音把每个用户的点击、播放、停留时间存入数据湖,训练推荐算法。
  2. 物联网(IoT)
    • 案例:特斯拉将车辆传感器数据实时写入数据湖,分析电池健康状态。
  3. 金融风控
    • 案例:支付宝用数据湖存储交易记录、地理位置、设备信息,实时检测欺诈交易。

一句话总结

数据湖 = "原始数据仓库",存一切数据,不预设用途,需配合治理工具避免成"数据垃圾场"。

相关推荐
2501_927283581 天前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
孤雪心殇1 天前
快速上手数仓基础知识
数据仓库·hive·spark
渣渣盟1 天前
数据仓库 vs 数据湖 vs 湖仓一体:架构演进与选型
数据仓库·架构
juniperhan2 天前
Flink 系列第22篇:Flink SQL 参数配置与性能调优指南:从 Checkpoint 到聚合优化
大数据·数据仓库·分布式·sql·flink
juniperhan2 天前
Flink 系列第21篇:Flink SQL 函数与 UDF 全解读:类型推导、开发要点与 Module 扩展
java·大数据·数据仓库·分布式·sql·flink
地球资源数据云2 天前
1960年-2024年中国棉花产量数据集
大数据·数据结构·数据仓库·人工智能
i建模3 天前
在数据仓库(数仓)中,给数据打标签(Tagging)
数据仓库
地球资源数据云3 天前
1900-2023年中国物种分布点位矢量数据集
大数据·数据结构·数据库·数据仓库·人工智能
Leo.yuan3 天前
数据仓库是什么?数据仓库和大数据平台、数据湖、数据中台、湖仓一体有什么区别?
大数据·数据仓库·spark
哥本哈士奇4 天前
数据仓库笔记 第六篇:PSA 层 SCD2 处理方式
数据仓库