20251202

亲亲菱纱2025-12-13 22:26

目录

[1.在 DWD 层中采用维度建模，其它层不用建模吗？](#1.在 DWD 层中采用维度建模，其它层不用建模吗？)
2.为什么要建模？
3.DWD层的数据来源不是业务库或者日志吗？为什么不直接继承来源表？
总结一句话

1.在 DWD 层中采用维度建模，其它层不用建模吗？

DWD层是数仓的细颗粒度数据层，通常采用维度建模（星型模型、雪花模型等），以便后续分析、汇总和统计。
其它层，如 ODS（操作数据存储层）、DWS（服务数据层）、ADS（应用数据层），也都涉及建模，但侧重点不同：
- ODS层：通常是几乎1:1同步业务数据库，不需要复杂建模，只做部分清洗、去重等。
- DWD层：开始做维度建模，规范字段、打标签、拆分维度和事实，便于统一口径和后续计算，消除业务表的冗余和"语义不清"。
- DWS层：按分析主题和需求做轻度建模、汇总，通常是宽表或聚合表，便于查询。
- ADS层：面向应用，按具体需求（报表、画像、指标）建模型，表结构与下游展现紧密对应。

结论：数仓每个层级都需要建模，只是建模的深度和方式不同。DWD层建模最典型，维度建模最成熟。

2.为什么要建模？

目的和必要性
- 简化分析复杂度：业务数据库的表往往为功能服务，字段繁杂、冗余多，分析不方便。
- 统一语义：维度建模能规范字段定义，统一业务口径，防止"同名不同义"或"同义不同名"。
- 方便扩展：维度建模能灵活应对新需求，比如加新指标、新维度，不需要频繁改动原业务表结构。
- 提高查询效率：结构清晰后，业务数据才能高效支撑分析和数据服务。
- 例如：原始业务库有订单表，每笔订单有几十个字段，部分字段有杂质、无用、语义不清。维度建模后，变成事实表和多个维度表，各字段标准定义，方便关联。

3.DWD层的数据来源不是业务库或者日志吗？为什么不直接继承来源表？

DWD层虽是从业务表或日志表抽数过来，但不是简单的 1:1 继承。需要处理：
- 清洗（去重、纠正脏数据）
- 字段标准化（格式统一、命名统一、时间等字段合理转换）
- 抽象维度（如时间、地点、产品等变为维度表，可复用）
- 剥离与业务强相关的偶发字段，增强结构的通用性
有些来源表字段不适合直接继承，比如：
- 过于冗长、涉及隐私、仅技术用途的原始字段
- 一些字段需要合并、转换，如 status 转为多个标签
- 分类、枚举需要提炼为维度表以复用

字段不能凭空产生，但也不应照搬；需要经过合适的设计和抽取，形成数仓层的标准结构。

总结一句话

DWD层不是原始业务库的简单镜像，而是通过维度建模，清洗、标准化、规范化业务数据，为后续分析场景打下坚实基础。数仓的其它层也有建模需求（但方式各有不同），建模能让数据使用、分析更高效、更便于管理和维护。

上一篇：RabbitMQ: 消息中间件技术选型

下一篇：一起玩XVF3800麦克风阵列（八）

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……