SQL优化_监管指标计算性能全维度优化方案

一、现状性能瓶颈根源分析

1.1 存储层瓶颈

原始表全量扫描：监管指标直接关联ODS明细大表，无预聚合中间层，每日重复扫描千万级、亿级流水
分区设计不合理：仅单dt日分区，无复合分区、年月二级分区，过滤无法裁剪大量历史分区
存储格式与压缩低效：使用text/orc无高压缩比配置，列存索引缺失，谓词下推失效
小文件泛滥：每日调度输出大量几百KB小文件，NameNode元数据压力大，读取IO放大

1.2 计算层SQL瓶颈

多表笛卡尔积、多层子查询嵌套：NSFR、集中度、压力测试指标一次性关联5张以上明细表，关联基数爆炸
实时计算全量重算：每日全量重算T日所有客户、对手、机构指标，无增量计算逻辑
复杂函数无下推优化：大量CASE WHEN、ROUND、比例计算放在SELECT顶层，无法下推至Map阶段过滤
硬编码折算系数重复计算：LCR/NSFR权重、减值折算比例每次报表重新计算，未下沉至DWD预计算

1.3 分层架构瓶颈

分层职责混乱：ADS监管报表直接读取ODS/DWD明细，未复用DWS预聚合宽表，重复聚合相同维度
计量模型无中间结果落地：KMV、DCF压力测算每次重跑完整模型，未落地DWD计量明细复用
维度全量关联翻译：报表中反复JOIN维度字典做编码转中文，未在DWD提前完成维度关联

1.4 调度与资源瓶颈

串行调度无并行分片：全行统一单任务计算，未按机构、币种分片并行执行
资源分配固化：监管指标高峰时段与业务报表抢占集群CPU、内存、IO资源
无冷热数据分离：近30天热明细、历史冷明细混合存储，冷数据频繁参与指标计算

二、存储分层与分区优化方案

2.1 复合分区裁剪优化

统一规范分区结构：
1. ODS/DWD明细层：PARTITIONED BY (year_month STRING, dt STRING) 二级分区，按月批量裁剪历史数据
2. DWS/ADS汇总层：增加org_id/currency分片分区，按机构、币种独立分区过滤
过滤强制前置年月分区：所有监管指标SQL优先加year_month = substr('${stat_dt}',1,7)，跳过整月历史分区

sql 复制代码

-- 标准分区建表示例
DROP TABLE IF EXISTS dwd.dwd_liquid_interbank_biz_d;
CREATE TABLE dwd.dwd_liquid_interbank_biz_d (
    inter_biz_id STRING COMMENT '同业业务合同编号',
    cp_id STRING COMMENT '交易对手ID',
    org_id STRING COMMENT '经办机构编码',
    biz_type_name STRING COMMENT '同业业务类型中文名称',
    trade_amt DECIMAL(20,2) COMMENT '交易本金金额'
) COMMENT '标准化同业业务明细（NSFR可用稳定资金计算依赖）'
PARTITIONED BY (year_month STRING COMMENT '年月分区yyyy-MM', dt STRING COMMENT '业务日期')
STORED AS PARQUET
TBLPROPERTIES ('parquet.compression'='snappy','parquet.block.size'='134217728');

2.2 列存存储参数调优

统一采用Parquet+Snappy高压缩，关闭行存储；设置块大小128MB减少元数据
开启谓词下推、向量化执行：

sql 复制代码

SET hive.parquet.pushdown.filter=true;
SET hive.vectorized.execution.enabled=true;
SET hive.vectorized.execution.reduce.enabled=true;

大表开启分桶（按客户ID、对手ID分桶，桶数=集群CPU核心倍数），JOIN分桶表避免Shuffle全量分发

sql 复制代码

CLUSTERED BY (cp_id) INTO 96 BUCKETS SORTED BY (dt);

2.3 冷热数据分层存储

热数据（近90天明细）：存集群高性能SSD存储，读写低延迟
温数据（90天~1年）：普通HDFS磁盘存储
冷数据（1年以上历史）：归档至OSS/归档存储，计算时手动加载，默认不参与日常监管指标计算
历史监管报表ADS按月合并全量表，删除每日分片小文件

2.4 小文件治理优化

写入时开启自动合并：

sql 复制代码

SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=134217728;

每日调度新增合并任务：对DWD/DWS分区执行INSERT OVERWRITE合并小文件为128MB标准块
采用动态分区批量写入，避免单条分区独立输出文件

三、分层架构预聚合，消除重复计算（核心优化）

3.1 DWD层前置预计算，下沉复杂逻辑

将监管所需折算系数、风险分类、资产流动性权重、减值阶段划分全部在DWD明细层一次性计算完成
示例：NSFR稳定资金权重、贷款ASF折算比例、对手风险敞口分类提前计算存入DWD字段，ADS报表直接读取，不再重复CASE运算
KMV/DCF计量结果完整落地DWD，监管报表直接复用计量明细，不重复重跑模型

3.2 DWS宽表分层聚合，ADS零复杂计算

强制规范：所有监管指标禁止直接关联ODS/DWD明细，必须读取DWS预聚合宽表

DWS按维度预聚合：机构、币种、对手、产品维度汇总当日存量、敞口、折算后资金指标
DWS提前完成RSF、ASF、LCR分子分母粗算，ADS仅做最终比率计算、预警标记、维度名称翻译
拆分宽表职责：流动性宽表单独存放LCR/NSFR基础汇总，信用宽表存放ECL、PD汇总，市场宽表存放VaR、敞口汇总，避免单宽表字段爆炸、扫描冗余列

3.3 维度关联下沉至底层，上层报表零JOIN维表

DWD层LEFT JOIN dim维度表，输出中文名称、分类标签存入明细字段
DWS/ADS报表不再关联dim字典、机构、对手维度，减少多表JOIN带来的Shuffle开销

四、SQL语句执行逻辑优化

4.1 增量计算替代全量重算（最大性能提升点）

存量类监管指标（贷款、债券、同业、存款）：采用增量快照更新，仅计算当日新增、变动业务数据，存量直接复用昨日DWS宽表
流量类指标（现金流、资金头寸、当日交易）：当日全量增量写入，历史无需重算
压力测试、计量模型：仅重算当日新增对公客户、新增贷款，存量主体复用前一日PD、ECL结果

sql 复制代码

-- 增量合并示例DWS流动性宽表
INSERT OVERWRITE TABLE dws.dws_liquid_risk_day_wide_d PARTITION(dt='${stat_dt}')
-- 当日新增变动明细聚合
SELECT * FROM dwd.dwd_liquid_fund_position_d WHERE dt='${stat_dt}'
UNION ALL
-- 昨日存量未变动数据直接复用
SELECT * FROM dws.dws_liquid_risk_day_wide_d WHERE dt=date_add('${stat_dt}',-1)
WHERE org_id NOT IN (SELECT DISTINCT org_id FROM dwd.dwd_liquid_fund_position_d WHERE dt='${stat_dt}');

4.2 减少大表JOIN，优化关联顺序

小维度表放左表，大明细表放右表，利用Map端广播小表（开启MapJoin）

sql 复制代码

SET hive.auto.convert.join=true;
SET hive.mapjoin.smalltable.size=51200000;

多表关联先过滤分区、再聚合、最后JOIN，避免先关联再过滤产生海量中间数据
禁止笛卡尔积，所有关联必须有唯一主键等值关联（cust_id、cp_id、loan_id）

4.3 谓词下推与字段裁剪

SELECT仅查询监管指标所需字段，禁止SELECT *扫描全列
WHERE条件优先放置分区过滤、等值过滤，提前过滤无效数据（结清贷款、失效对手、到期债券）
复杂CASE、比率计算移至子查询内层，外层仅简单汇总，减少Shuffle阶段计算量

4.4 聚合逻辑优化

统一使用GROUP BY单一维度聚合，多层嵌套聚合改为单层聚合
多指标SUM、COUNT合并单次GROUP BY，分多次聚合会重复扫描同一份明细
空值、负金额前置过滤：WHERE trade_amt >= 0 AND cp_id IS NOT NULL，减少无效聚合行数

五、分片并行调度与资源隔离优化

5.1 数据分片并行执行

按机构org_id、币种currency拆分多并行任务，拆分规则：总行+各分行独立分片
调度工具（Airflow/DataWorks）并行下发分片计算任务，多节点同时处理，总时长线性缩短
集中度风险报表按对手类型分片：银行同业、对公企业、非银机构分开计算

5.2 资源队列隔离

单独创建监管指标专属资源队列，配置独立CPU、内存、IO资源池，与日常业务BI报表队列隔离，避免资源抢占
高峰时段（凌晨2-6点监管批量计算）调高队列并行度、内存容器大小；日间降低资源占用

5.3 执行顺序流水线优化

固定串行流水线，前置轻量任务先执行，重计算任务错峰并行：

第一步：ODS分区合并、小文件治理（轻量）
第二步：DWD明细清洗、KMV/DCF计量分片并行（中重量）
第三步：DWS各风险宽表并行聚合（重量核心）
第四步：ADS监管报表串行输出（轻量读取宽表）

禁止DWD未完成即启动DWS、ADS，避免重复重试、空值重算浪费资源

六、计算引擎与高级特性优化

6.1 引擎选型适配

Hive离线批量监管指标：采用Tez执行引擎替代MapReduce，减少中间磁盘落盘

sql 复制代码

SET hive.execution.engine=tez;
SET tez.container.size-mb=4096;

实时流动性日间监控指标：切换StarRocks/ClickHouse OLAP引擎，预建分区索引、物化视图，秒级响应大屏查询

6.2 物化视图复用重复指标

针对高频监管指标（LCR、NSFR、单一对手敞口）创建物化视图，自动预计算并落地，报表查询直接读取视图结果，无需实时聚合

sql 复制代码

CREATE MATERIALIZED VIEW mv_nsfr_base_agg PARTITIONED BY(dt)
AS SELECT org_id,currency,SUM(trade_amt*weight) AS total_rsf FROM dwd.dwd_liquid_interbank_biz_d GROUP BY dt,org_id,currency;

6.3 索引优化

分区索引：分区自动索引，快速裁剪年月、日期分区
分桶索引：按cp_id、loan_id分桶，等值关联快速定位桶数据
倒序索引：ADS报表常用排序字段（敞口金额、逾期率）创建排序索引，大屏排序无需全量排序

七、数据质量前置过滤，减少无效计算

DWD层增加统一数据清洗过滤规则，提前剔除异常数据：
- 金额负数、超大异常值（单笔超千亿）、空主键、失效对手/客户
- 已结清、已核销、过期到期业务数据过滤，不流入上层指标计算
增加数据质量校验前置任务，明细异常率超过阈值直接终止当日指标计算，避免无效全量重跑浪费集群资源

八、落地实施效果量化预期

存储优化：明细表扫描数据量降低60%~80%，小文件减少90%，IO读取量大幅下降
SQL预聚合优化：监管指标单次计算时长从4小时缩短至40分钟内
增量计算优化：存量类指标计算时长再降低70%，仅处理当日变动数据
分片并行调度：整体调度窗口压缩至凌晨2小时内完成，满足早8点监管报送时效要求
集群资源消耗：重复计算Shuffle数据量减少85%，CPU、内存资源占用下降60%