SCD缓慢变化维Type1-Type3

在数据仓库的维度建模中，缓慢变化维（Slowly Changing Dimension，SCD）是处理维度属性随时间变化的核心技术。根据变化处理方式的不同，SCD主要分为Type 1、Type 2和Type 3三种类型，每种类型适用于不同的业务场景，并具有各自的优缺点。

Type 1是最简单的SCD处理方式，当维度属性发生变化时，直接使用新值覆盖旧值，不保留任何历史记录。例如，某客户的地址从"北京市朝阳区"更新为"上海市浦东新区"时，数据库中仅存储最新的地址信息。

适用场景：适用于不需要追踪历史变化的场景，例如某些静态编码类维度或对历史数据无分析需求的业务属性。其优点是实现简单、存储空间小、处理逻辑清晰；缺点是无法进行历史数据分析，丢失了属性变化的轨迹。

在Hive中，Type 1可以通过简单的UPDATE或INSERT OVERWRITE操作实现，但由于Hive本身对事务性操作的支持有限，实际应用中多采用全量覆盖或增量合并的方式完成。

Type 2通过增加新行来记录维度属性的每一次变化，同时保留历史版本。通常，会添加"生效时间"、"失效时间"和"当前版本标志"等字段来标识不同版本的有效期。例如，某产品价格从100元调整为120元，系统会保留原有记录（标记为失效），并插入一条新记录（标记为当前有效）。

适用场景：适用于需要完整历史变化追踪的场景，如用户画像、商品价格变动分析、客户地址迁移记录等。其优点是能够完整保留历史，支持时间点查询和变化分析；缺点是存储开销大，数据处理逻辑复杂，且查询时需注意版本过滤。

在Hive中实现Type 2通常需要结合effective_date、expiry_date和is_current等字段，并通过INSERT语句插入新记录，同时更新旧记录的失效状态。由于Hive不支持行级更新，一般通过全量快照或增量批次的方式完成数据刷新。

Type 3通过增加新列来存储历史值，通常只保留最近一次或有限次的历史变化。例如，在客户表中，除了"当前地址"列外，还可以增设"上一地址"列，用于记录最近一次的地址变更。

适用场景：适用于仅需保留有限历史信息且变化频率不高的场景，例如某些配置类维度或状态变更较少的业务属性。其优点是查询效率较高，不需要关联多行数据；缺点是只能记录有限次历史变化，扩展性较差。

在Hive中，Type 3可以通过ALTER TABLE添加新字段，并在数据更新时通过UPDATE操作（如使用Hive ACID表或通过重写实现）将旧值移至历史列，新值填入当前列。但由于Hive对事务处理的支持仍不如传统关系型数据库灵活，实际应用中需谨慎设计表结构。

从数据管理和业务需求的角度来看，三种SCD类型各有优劣。Type 1适合变化无需追溯的场景，Type 2适合需要完整历史追踪的场景，而Type 3则适用于历史记录需求较为有限的场景。在实际项目中，有时还会采用混合模式，例如对同一张维度表中的不同字段采用不同的SCD类型处理方式。

值得注意的是，随着数据湖仓一体化和实时数仓的发展，SCD的处理方式也在不断演进。例如，部分场景下会结合流处理技术（如Flink + Hudi）实现近实时的Type 2维度更新，但这已超出传统批处理范畴，需要更复杂的技术架构支持。