hive数仓分层

目录

  • 1.hive数仓分层,一般分几个层级,每层的作用是什么
    • [1.1 常见分层及作用](#1.1 常见分层及作用)
      • [(1)ODS 层(Operational Data Store,原始数据层)](#(1)ODS 层(Operational Data Store,原始数据层))
      • [(2)DWD 层(Data Warehouse Detail,明细数据层)](#(2)DWD 层(Data Warehouse Detail,明细数据层))
      • [(3)DWS 层(Data Warehouse Summary,汇总数据层)](#(3)DWS 层(Data Warehouse Summary,汇总数据层))
      • [(4)ADS 层(Application Data Store,应用数据层)](#(4)ADS 层(Application Data Store,应用数据层))
      • [(5)DIM 维度层和其他](#(5)DIM 维度层和其他)
    • [1.2 典型分层结构(示意图)](#1.2 典型分层结构(示意图))
    • [1.3 总结表格](#1.3 总结表格)

1.hive数仓分层,一般分几个层级,每层的作用是什么

Hive 数仓分层是构建数据仓库的经典方法论,其目的是规范数据流转过程,提升数据复用、易运维性和数据治理能力。通常,Hive 数仓分层主要分为 ODS(操作数据层)、DWD(明细数据层)、DWS(汇总数据层)、ADS(应用数据层),有的企业也会增加 DIM(维度层)、DML(中间层)、DMB(宽表层)等。下面详细说明:

1.1 常见分层及作用

(1)ODS 层(Operational Data Store,原始数据层)

  • 作用:存放从业务系统同步过来的原始数据,通常为业务表的全量或增量快照,最大化还原数据原貌。
  • 特点:与数据源表结构一致,未做复杂处理。
  • 数据来源:来自 OLTP 系统(如 MySQL、Oracle 等),一般通过定时同步(如 Sqoop、DataX)。
  • 用途:为后续数仓层清洗、加工提供数据保障。

(2)DWD 层(Data Warehouse Detail,明细数据层)

  • 作用:对 ODS 数据做清洗、解析、标准化,结构更规范、字段业务语义明确,且仍保留明细级别(不会丢失粒度)。
  • 特点:去重、格式统一、脏数据处理、字段口径规范化。
  • 数据来源:基于 ODS 层数据,经数据清洗加工得到。
  • 用途:作为数仓事实数据分析、统计的底层数据源。

(3)DWS 层(Data Warehouse Summary,汇总数据层)

  • 作用:基于 DWD 层,对明细数据进行多维度聚合、统计,形成中间宽表或多维分析表。
  • 特点:一般是按主题、业务过程、时间粒度做分组汇总(如日报、月报、周报)。
  • 数据来源:通常来源于 DWD 层。
  • 用途:数据服务于 OLAP 分析,支撑 BI、报表等多维分析,解决性能瓶颈。

(4)ADS 层(Application Data Store,应用数据层)

  • 作用:面向具体业务场景和应用需求,进一步加工生成最终报表、指标、接口、标签等。
  • 特点:粒度更粗、结构更简单,直接为业务方或应用系统服务。
  • 数据来源:通常基于 DWS 层,有时也引用维度表、事实宽表。
  • 用途:支撑业务监控、可视化大屏、接口数据输出等。

(5)DIM 维度层和其他

  • DIM:保存业务分析常用维度,如用户、商品、组织架构等,支持数据宽表和分析。
  • DMB/DML/TMP:部分企业还定义中间层、宽表层、临时层,作为特殊业务需要。

1.2 典型分层结构(示意图)

Plain 复制代码
        应用数据层(ADS)   // 指标、标签、接口数据
               ↑
        汇总数据层(DWS)   // 各种汇总宽表
               ↑
        明细数据层(DWD)   // 清洗后标准化的明细表
               ↑
        原始数据层(ODS)   // 数据源原始快照
               ↑
         数据源(OLTP等)

1.3 总结表格

层级简称关键作用粒度说明建议存储周期原始层ODS保留原始业务数据明细15-30天/看磁盘明细层DWD清洗、标准化、去重明细1-2年汇总层DWS多维汇总宽表/指标表主题/部门/时间等长期应用层ADS报表、接口、直接应用维度表/标签/聚合按需维度层DIM辅助分析的维度字典维度唯一性长期

相关推荐
心疼你的一切11 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
心疼你的一切16 小时前
基于CANN仓库打造轻量级AIGC:一键生成图片语义描述
数据仓库·aigc·cann
AC赳赳老秦20 小时前
代码生成超越 GPT-4:DeepSeek-V4 编程任务实战与 2026 开发者效率提升指南
数据库·数据仓库·人工智能·科技·rabbitmq·memcache·deepseek
心疼你的一切20 小时前
拆解 CANN 仓库:实现 AIGC 文本生成昇腾端部署
数据仓库·深度学习·aigc·cann
心疼你的一切21 小时前
模态交响:CANN驱动的跨模态AIGC统一架构
数据仓库·深度学习·架构·aigc·cann
心疼你的一切1 天前
解锁CANN仓库核心能力:从零搭建AIGC轻量文本生成实战(附代码+流程图)
数据仓库·深度学习·aigc·流程图·cann
秃了也弱了。1 天前
StarRocks:高性能分析型数据仓库
数据仓库
心疼你的一切1 天前
数字智人:CANN加速的实时数字人生成与交互
数据仓库·深度学习·aigc·交互·cann
心疼你的一切1 天前
语音革命:CANN驱动实时语音合成的技术突破
数据仓库·开源·aigc·cann
心疼你的一切1 天前
解构CANN仓库:AIGC API从底层逻辑到实战落地,解锁国产化AI生成算力
数据仓库·人工智能·深度学习·aigc·cann