Oracle 数据仓库星型模型设计原则

星型模式（Star Schema）是 Oracle 数据仓库最核心、最常用的建模范式，核心是1 张中心事实表 + N 张维度表，事实表存储度量数据，维度表存储描述属性，通过外键关联，结构清晰、查询高效、适配 Oracle 优化器与 MPP / 并行查询。以下从核心设计原则、维度表设计、事实表设计、Oracle 专属优化、实施规范、反模式规避六个维度，给出完整可落地的设计原则。

一、核心设计总原则（星型模型本质）

以业务过程为中心，单事实表对应单一业务过程 一个星型模型只聚焦一个核心业务事件（如销售订单、库存出入、支付、日志），不混合多个业务过程；避免跨过程冗余，复杂场景用雪花模型 / 星座模型扩展，而非在单星型中堆砌。
维度退化、事实原子化，减少关联层级 星型追求扁平化 ：维度表尽量不嵌套子维度（雪花是例外），事实表只存原子粒度的度量 + 维度外键，不存冗余描述字段，保证查询时 JOIN 最少、Oracle 优化器易生成最优执行计划。
一致性维度（Conformed Dimensions）贯穿全仓库 同一业务维度（如时间、客户、产品、区域）在所有事实表中结构、主键、编码、含义完全一致，支持跨事实表的钻取、上卷、关联分析，是数据仓库数据一致性的基础。
主键 / 外键强规范，保证关联完整性 维度表用代理键（Surrogate Key，整数序列） 做主键，不用业务主键（如客户号、产品编码）；事实表外键严格引用维度表代理键，Oracle 层面可建非强制外键（Novalidate） 兼顾性能与数据完整性。
粒度唯一、度量可加，事实表无冗余 事实表每行代表唯一粒度的一次业务事件 （如单笔订单行、单条日志、单次入库）；度量必须是数值型、可累加 / 半累加 / 非累加的指标（金额、数量、次数），禁止存储文本描述、重复维度属性。
适配 Oracle 查询与存储优化，兼顾性能与可维护 设计时提前考虑分区、索引、压缩、并行、物化视图，避免后期重构；星型天然适配 Oracle 的星型转换（Star Transformation）、位图索引、分区裁剪，设计要最大化利用这些特性。

二、维度表设计原则（星型的 "描述层"）

维度表是查询的过滤、分组、钻取入口，核心是宽表、低基数、扁平化、历史可追溯。

1. 主键设计：强制使用代理键，禁用业务主键

维度表主键必须是整数类型（NUMBER/INTEGER）的代理键（如 DIM_CUSTOMER_SK），由 Oracle 序列（SEQUENCE）生成，自增、无业务含义、稳定不变。
业务主键（如 CUSTOMER_ID、PRODUCT_CODE）仅作为维度表的自然键（Natural Key） 存在，用于 ETL 匹配、去重、渐变维度（SCD）处理，不做主键、不做关联外键。
优势：屏蔽业务系统主键变更、合并、拆分的影响，支持 SCD 历史版本管理，提升 JOIN 性能（整数比字符串快）。

2. 结构扁平化，拒绝雪花嵌套（核心）

星型优先完全扁平化 ：将雪花模型中的子维度（如产品→品类→品牌→分类）全部合并到一张维度表（DIM_PRODUCT），形成宽维度表（几十到上百列），减少 JOIN 次数。
例外：仅当维度层级极深、基数极大（如地理维度到街道 / 社区）、或需复用子维度时，才用雪花模型；Oracle 中雪花会增加 JOIN，需权衡查询复杂度与维护成本。

3. 维度属性设计：完整、冗余、低基数、业务友好

属性完整冗余 ：维度表包含该维度所有分析所需属性（如客户维度：客户号、名称、等级、行业、区域、注册日期、状态），不跨表拆分，查询时无需关联其他表即可获取全量描述。
低基数优先 ：属性尽量是低基数字段（如性别、等级、状态、年份），适合建位图索引（Oracle 星型转换核心）；高基数字段（如客户名称、手机号）仅保留，不建位图索引。
业务命名，无技术字段 ：字段名用业务术语（如 CUSTOMER_NAME、PRODUCT_CATEGORY），避免缩写、技术编码；增加描述字段（如 IS_ACTIVE、EFFECTIVE_DATE），提升可读性。
禁止度量 ：维度表绝对不存储数值度量（如销售额、数量），仅存描述性属性、编码、日期。

4. 渐变维度（SCD）处理原则（历史数据核心）

必须支持SCD Type 1/2/3 ，优先 Type 2（保存全历史）：
- Type 1：覆盖更新（不保留历史，适合属性永不变化，如性别）
- Type 2：新增版本行（保留所有历史，插入新行，标记生效 / 失效日期、当前标识，代理键唯一）
- Type 3：新增历史列（保留最近 1-2 个版本，适合少量历史需求）
维度表必须包含SCD 标准字段 ：
- SK：代理键（主键）
- NK：自然键（业务主键）
- EFFECTIVE_START_DATE：生效日期
- EFFECTIVE_END_DATE：失效日期（当前记录为 '9999-12-31'）
- IS_CURRENT：当前标识（Y/N）
- LOAD_DATE：ETL 加载日期

5. 特殊维度规范

时间维度（DIM_DATE） ：必须独立、标准化，粒度到天，包含年 / 季 / 月 / 周 / 日 / 节假日 /fiscal 周期等所有时间属性，所有事实表必须关联时间维度，禁止用事实表原生日期字段直接分组。
退化维度（Degenerate Dimension）：无独立属性的业务编号（如订单号、流水号），直接放在事实表，不建单独维度表，减少冗余。
** junk 维度（杂项维度）**：合并多个低基数、无关联的标志位（如支付状态、订单状态、是否加急），建一张杂项维度表，减少事实表字段数量。

三、事实表设计原则（星型的 "数据层"）

事实表存储业务的核心度量，核心是原子粒度、纯数值、少字段、大体积、高压缩。

1. 粒度设计：原子粒度优先，禁止汇总

事实表必须定义唯一、明确的粒度 （如 "单笔销售订单行 + 单日""单次库存出入库 + 单品 + 仓库"），先建原子事实表，再基于原子表建汇总事实表 / 物化视图，不直接建汇总事实表。
粒度原则：最细粒度 = 最灵活，支持任意维度的上卷、钻取、切片；汇总仅用于性能优化，不替代原子表。

2. 字段构成：仅三类字段，无冗余

事实表字段严格分为三类，禁止其他类型：

维度外键 ：引用各维度表的代理键（如 CUSTOMER_SK、PRODUCT_SK、DATE_SK），非空（除未知维度外） ，组成事实表的联合主键 / 唯一键。
度量字段 ：数值型业务指标，分三类：
- 可加度量（全维度可累加）：金额、数量、成本（如 SALE_AMOUNT、SALE_QTY）
- 半可加度量（仅部分维度可累加）：库存余额、账户余额（仅时间维度不可加）
- 非可加度量（不可累加）：比率、单价、百分比（如 UNIT_PRICE、DISCOUNT_RATE）
技术字段 ：ETL 元数据，如LOAD_DATE（加载日期）、SOURCE_SYSTEM（源系统）、BATCH_ID（批次号），不参与业务查询。

3. 主键与外键规范

事实表无单一主键 ，用维度外键组合 + 度量粒度 形成逻辑唯一键；Oracle 层面不建物理主键（避免大表锁、性能损耗），仅建唯一索引 / 约束保证数据唯一性。
外键：建非强制外键（FOREIGN KEY ... NOVALIDATE），仅用于 Oracle 优化器识别星型结构、生成星型转换计划，不做实时数据校验（校验由 ETL 完成），提升加载 / 查询性能。
未知维度处理：维度表预置未知行（SK=-1/0，NK='UNKNOWN'），事实表外键为空时，关联至未知维度，避免 JOIN 丢失数据。

4. 数据类型与存储规范

度量字段：用NUMBER(18,2)、INTEGER等精准数值类型，禁止用 FLOAT/DOUBLE（精度丢失）；金额类统一精度，避免小数误差。
外键：统一NUMBER(10/12) 整数类型，与维度表代理键类型一致。
禁止存储：文本、日期（仅存 DATE_SK）、重复维度属性、非度量字段。

四、Oracle 专属优化设计原则（最大化数据库性能）

星型模型的优势必须结合 Oracle 特性落地，以下是核心优化原则：

1. 索引设计：位图索引 + B 树索引组合

维度表：主键（代理键）建 B 树唯一索引 ；低基数字段（如状态、等级、区域）建位图索引，支持快速过滤、星型转换。
事实表：维度外键组合建位图连接索引（Bitmap Join Index），这是 Oracle 星型查询的核心优化，直接在事实表层面预关联维度，避免运行时 JOIN；大表事实表的高频过滤外键建 B 树索引，度量字段不建索引。
时间维度：DATE_SK 建 B 树索引，配合分区裁剪。

2. 分区设计：按时间分区，提升裁剪与维护

事实表强制按时间维度（DATE_SK/EFFECTIVE_DATE）分区 （范围分区：按天 / 周 / 月 / 季），支持分区裁剪（查询仅扫描目标分区，不扫全表），提升查询速度、简化数据归档 / 删除。
大维度表（如客户、产品）：按低基数字段（如区域、状态）做列表分区，提升维度表查询性能。

3. 压缩与存储：高压缩，减少 I/O

事实表（大体积、重复数据多）：启用Oracle 高级压缩（Advanced Compression） 或混合列压缩（HCC，Exadata），压缩比可达 5-10 倍，大幅减少存储与 I/O。
维度表：启用基础压缩，平衡压缩率与写入性能。

4. 星型转换（Star Transformation）开启

Oracle 优化器自动识别星型结构，通过位图索引 + 位图转换 ，将多维度 JOIN 转换为位图运算，大幅提升多维度过滤查询速度；设计时保证：事实表外键建位图索引、维度表主键索引有效、参数STAR_TRANSFORMATION_ENABLED=TRUE。

5. 物化视图（MV）：预汇总，加速报表

基于原子事实表，按常用维度组合（如时间 + 区域 + 产品）建物化视图（汇总 MV），刷新方式（完全 / 快速 / 按需）匹配业务延迟；Oracle 自动重写查询（Query Rewrite），将明细查询路由至 MV，秒级返回结果。

五、实施与 ETL 规范原则

ETL 分层，先维度后事实
- 分层：ODS（贴源）→DIM（维度层）→FACT（事实层）→AGG（汇总层）
- 加载顺序：先加载所有维度表（生成代理键、处理 SCD），再加载事实表（关联维度代理键），保证外键有效性。
数据一致性校验
- ETL 阶段完成：维度去重、事实粒度校验、外键关联校验、度量精度校验，避免脏数据进入星型模型。
命名规范统一
- 维度表：DIM_<业务名>（如 DIM_CUSTOMER、DIM_PRODUCT）
- 事实表：FACT_<业务过程>_<粒度>（如 FACT_SALE_DAILY、FACT_INVENTORY_TRANS）
- 字段：维度SK、NK，事实_SK外键、_AMT/_QTY度量，统一前缀 / 后缀。

六、反模式与禁忌（必须规避）

事实表存储维度属性（如客户名称、产品分类）→ 冗余、更新困难、查询低效
维度表用业务主键做主键→ 历史变更导致关联断裂、SCD 无法实现
单事实表混合多个业务过程（如销售 + 库存 + 支付）→ 粒度混乱、无法分析
过度雪花化，维度嵌套多层→ JOIN 过多、Oracle 优化器难优化、查询慢
事实表不分区、不用压缩→ 存储爆炸、全表扫描、性能极差
忽略一致性维度，各事实表维度结构不一致→ 跨表分析失败、数据混乱

总结

Oracle 星型模式的核心是 **"原子事实、扁平维度、一致主键、Oracle 优化适配"：以单一业务过程建事实表，维度扁平化 + 代理键 + SCD，事实表纯度量 + 外键，结合位图索引、分区、压缩、星型转换，最终实现查询快、易维护、可扩展、数据一致 ** 的数据仓库核心模型。