数仓数据治理

hive数据漂移(Data Drift):是指在数据仓库ETL过程中，数据分布随时间发生了变化引发统计偏差，导致模型/报表/分析结果不准、任务报错、性能下降、指标失真甚至业务错误决策

如数据库同步中，数据所在的分区与其实际业务日期不一致：业务时间(proc_time)与系统日志时间(log_time)因网络延迟、支付异步等原因不一致，导致数据被错误地写入到非预期的时间分区中，

源数据中某条记录的业务日期在事后被修改，导致新旧分区中同时存在该数据，主要从数据存储、表结构、分区管理、数据标准等角度分析。

一、数据漂移场景

1.1 Schema漂移(结构漂移)

yaml 复制代码

|问题        |说明                        |示例                             
|---------- |----------------------------|-------------------------------|
|字段增减    |源库表结构变更(新增/删除字段)    |日志系统新增user_agent字段        |
|类型变更    |字段数据类型发生变化            |int → bigint，string → timestamp|
|嵌套结构变化 |Array/Map/Struct 内部结构变动 |JSON嵌套层级增加                  |

应对：

sql 复制代码

hiveddl跟随变化
-- 使用ORC/Parquet的schema evolution
--允许Hive在读取ORC、Parquet这类二进制列式存储文件时，自动适配表定义的Schema变化（如增加/删除列、修改列名、调整列顺序、部分类型转换）。
--开启后，Hive会采用兼容策略：
--新增的字段：旧文件中没有，则填充NULL。
--删除的字段：忽略旧文件中的对应列。
--可安全转换的类型：如STRING→VARCHAR，自动处理。
SET hive.exec.schema.evolution = true;
-- 或采用宽松模式读取
--允许MapReduce/Tez任务读取输入路径下的任意层级子目录，而不仅仅是输入路径直接下的一级文件。
--默认情况下，INSERT OVERWRITE TABLE ... SELECT ... FROM ods_source_table只会读取输入路径一级目录下的文件，忽略子目录，导致漏数据。
--开启后，Hive会递归扫描所有子目录，将数据完整读入。
SET hive.mapred.supports.subdirectories = true;

1.2 分区漂移

xml 复制代码

|问题        |说明                                    |影响                     |
|-----------|---------------------------------------|-------------------------|
|分区键值异常 |出现预期外的分区值                        |dt='2025-13-01'(非法日期) |
|分区粒度变化 |从按天分区改为按小时/代码逻辑变更导致输出变化 |查询性能下降               |
|空分区/小文件|分区存在但无数据，或文件过小               |元数据膨胀、NameNode 压力   |

检测：

sql 复制代码

-- 查看异常分区
SHOW PARTITIONS table_name;
DESCRIBE FORMATTED table_name PARTITION (dt='2025-04-14');

1.3 数据内容漂移

xml 复制代码

|场景        | 表现                                  |检测方法                |
|---------- | ------------------------------------- |----------------------|
|枚举值漂移   | 状态码新增未定义值/gender突然出现0/1/2/3  |GROUP BY status 监控   |
|数值范围漂移 | 金额、计数异常增长/下跌/age突然出现200     |统计量监控(MIN/MAX/AVG) |
|空值率漂移  | 字段缺失率突增/null从1%变30%              |COUNT(*) vs COUNT(col)|
|格式漂移    | 日期格式不统一                           |正则匹配抽样检查         |
|概念漂移    |字段含义变了(status=1以前是成功，现在是失败) |业务规则变更(未通知数仓)  |
             口径变了(订单金额以前含税，现在不含税)

示例查询：

sql 复制代码

--监控每日数据量和空值率
SELECT 
    dt,
    COUNT(*) as total_cnt,
    COUNT(DISTINCT user_id) as uv,
    SUM(CASE WHEN amount IS NULL THEN 1 ELSE 0 END) / COUNT(*) as null_rate
FROM orders
WHERE dt >= date_sub(current_date, 7)
GROUP BY dt;

二、排查Hive数据漂移

sql 复制代码

1.看分区数据量是否异常
--看最近7天分区数据量，判断是否暴涨/暴跌  数据量波动是否异常
select dt, count(*) from table where dt >= date_sub(current_date,7) group by dt order by dt;
2.看字段分布(最有效)/关键字段统计是否稳定
--数值字段：最大、最小、均值、空值率
select 
  min(age), max(age), avg(age), 
  sum(case when age is null then 1 else 0 end)/count(*) as null_rate
from table where dt = '2026-04-13';
--枚举字段：枚举值分布
select gender, count(*) from table where dt='2026-04-13' group by gender;

3.看字段类型/长度是否被改/表结构/分区
desc formatted table;
DESCRIBE FORMATTED your_table;
SHOW PARTITIONS your_table;

4.看ETL脚本是否变更
看git历史
看调度平台(Airflow/DolphinScheduler)最近修改记录

三、Hive数据漂移解决方案

1.数据质量监控(必须做)

监控：分区行数、空值率、枚举值、极值、重复率

工具：Griffin、DolphinScheduler质量规则、自研SQL监控

2.上游数据源校验

检查Kafka/MySQL源端是否异常

检查同步任务(DataX/Flink)是否报错、延迟

3.清洗&修复

过滤异常值

填充空值(均值/中位数/前一天值)

重跑历史分区

4.模型/报表适配

口径对齐

特征重新训练

枚举值映射兼容

5.数仓规范

字段变更必须评审

禁止随意改枚举、类型、长度

版本化管理表结构

xml 复制代码

┌─────────────────┐     ┌─────────────┐     ┌─────────────┐
│   元数据监控     │────→│  质量规则库  │────→│  异常告警   │
│ (HCatalog/Atlas)│     │ (Great Expectations/Deequ) │
└─────────────────┘     └─────────────┘     └─────────────┘
         │
         ▼
┌─────────────────┐     ┌─────────────┐
│   数据血缘追踪   │────→│  影响分析   │
│  (WhereHows/Apache Atlas)   │
└─────────────────┘     └─────────────┘

常用工具集成
|工具                |用途                         |
|-------------------|-----------------------------|
|Apache Griffin     |数据质量监控(内置Hive支持)      |
|Deequ              |亚马逊开源，Spark引擎，可对接Hive|
|Great Expectations |灵活定义数据期望规则             |
|Monte Carlo        |商业化数据可观测平台             |