20251202

目录

1.在 DWD 层中采用维度建模,其它层不用建模吗?

  • DWD层 是数仓的细颗粒度数据层,通常采用 维度建模(星型模型、雪花模型等),以便后续分析、汇总和统计。
  • 其它层,如 ODS(操作数据存储层)、DWS(服务数据层)、ADS(应用数据层),也都涉及建模,但侧重点不同:
    • ODS层: 通常是几乎1:1同步业务数据库,不需要复杂建模,只做部分清洗、去重等。
    • DWD层: 开始做 维度建模,规范字段、打标签、拆分维度和事实,便于统一口径和后续计算,消除业务表的冗余和"语义不清"。
    • DWS层: 按分析主题和需求做轻度建模、汇总,通常是宽表或聚合表,便于查询。
    • ADS层: 面向应用,按具体需求(报表、画像、指标)建模型,表结构与下游展现紧密对应。

结论:数仓每个层级都需要建模,只是建模的深度和方式不同。DWD层建模最典型,维度建模最成熟。

2.为什么要建模?

  • 目的和必要性
    • 简化分析复杂度: 业务数据库的表往往为功能服务,字段繁杂、冗余多,分析不方便。
    • 统一语义: 维度建模能规范字段定义,统一业务口径,防止"同名不同义"或"同义不同名"。
    • 方便扩展: 维度建模能灵活应对新需求,比如加新指标、新维度,不需要频繁改动原业务表结构。
    • 提高查询效率: 结构清晰后,业务数据才能高效支撑分析和数据服务。
    • 例如:原始业务库有订单表,每笔订单有几十个字段,部分字段有杂质、无用、语义不清。维度建模后,变成事实表和多个维度表,各字段标准定义,方便关联。

3.DWD层的数据来源不是业务库或者日志吗?为什么不直接继承来源表?

  • DWD层虽是从业务表或日志表抽数过来,但不是简单的 1:1 继承。需要处理:
    • 清洗(去重、纠正脏数据)
    • 字段标准化(格式统一、命名统一、时间等字段合理转换)
    • 抽象维度(如时间、地点、产品等变为维度表,可复用)
    • 剥离与业务强相关的偶发字段,增强结构的通用性
  • 有些来源表字段不适合直接继承,比如:
    • 过于冗长、涉及隐私、仅技术用途的原始字段
    • 一些字段需要合并、转换,如 status 转为多个标签
    • 分类、枚举需要提炼为维度表以复用

字段不能凭空产生,但也不应照搬;需要经过合适的设计和抽取,形成数仓层的标准结构。

总结一句话

DWD层不是原始业务库的简单镜像,而是通过维度建模,清洗、标准化、规范化业务数据,为后续分析场景打下坚实基础。数仓的其它层也有建模需求(但方式各有不同),建模能让数据使用、分析更高效、更便于管理和维护。

相关推荐
心疼你的一切15 小时前
解密CANN仓库:AIGC的算力底座、关键应用与API实战解析
数据仓库·深度学习·aigc·cann
十月南城20 小时前
Hive与离线数仓方法论——分层建模、分区与桶的取舍与查询代价
数据仓库·hive·hadoop
AI架构师小马1 天前
Hive调优手册:从入门到精通的完整指南
数据仓库·hive·hadoop·ai
Gain_chance1 天前
33-学习笔记尚硅谷数仓搭建-DWS层交易域用户粒度订单表分析及设计代码
数据库·数据仓库·hive·笔记·学习·datagrip
心疼你的一切2 天前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
心疼你的一切2 天前
基于CANN仓库打造轻量级AIGC:一键生成图片语义描述
数据仓库·aigc·cann
AC赳赳老秦2 天前
代码生成超越 GPT-4:DeepSeek-V4 编程任务实战与 2026 开发者效率提升指南
数据库·数据仓库·人工智能·科技·rabbitmq·memcache·deepseek
心疼你的一切2 天前
拆解 CANN 仓库:实现 AIGC 文本生成昇腾端部署
数据仓库·深度学习·aigc·cann
心疼你的一切2 天前
模态交响:CANN驱动的跨模态AIGC统一架构
数据仓库·深度学习·架构·aigc·cann
心疼你的一切2 天前
解锁CANN仓库核心能力:从零搭建AIGC轻量文本生成实战(附代码+流程图)
数据仓库·深度学习·aigc·流程图·cann