深入starrocks-怎样实现多列联合统计信息

StarRocks 的多列联合统计信息（Multi-column Joint Statistics）自 v3.5.0 版本起正式支持，主要通过 **联合基数估计（Cardinality Estimation）**实现，用于优化多维查询场景下的执行计划。本文是其实现原理、存储机制及应用场景的详细解析

一、核心设计目标

二、实现原理与技术细节

[1. 统计信息类型](#1. 统计信息类型)

[2. 数据存储结构](#2. 数据存储结构)

[3. 采集机制](#3. 采集机制)

[4. 更新策略](#4. 更新策略)

三、应用场景与优化效果

[1. 典型场景](#1. 典型场景)

[2. 性能收益](#2. 性能收益)

四、使用限制与最佳实践

[1. 当前限制](#1. 当前限制)

[2. 最佳实践](#2. 最佳实践)

[3. 示例工作流](#3. 示例工作流)

五、未来演进方向

总结

一、核心设计目标

传统 CBO 优化器假设列之间完全独立，导致在处理多列关联查询时基数估算偏差较大。StarRocks 的联合统计信息旨在解决这一问题：

精准基数估算：通过多列联合 NDV（Distinct Value Count）修正独立列假设带来的误差。
优化聚合下推：在 GROUP BY、JOIN 等操作中更准确地评估中间结果集大小，减少资源浪费。
支持复杂查询：提升星型模型、雪花模型等复杂场景下的查询性能。

二、实现原理与技术细节

1. 统计信息类型

目前仅支持多列联合 NDV ，即统计多列组合的唯一值数量。例如，对于列(A, B)，联合 NDV 表示A和B的唯一组合数。这一指标通过以下方式计算：

全量采集：扫描全表计算真实联合 NDV（适用于小表或手动触发场景）。
抽样估算 ：通过采样数据估算联合 NDV（适用于大表，需配置statistic_sample_collect_rows）。

2. 数据存储结构

联合统计信息存储在内部元数据库_statistics_的multi_column_statistics表中，包含以下核心字段：

table_id/partition_id：标识统计信息所属的表或分区。
column_names ：联合统计的列名列表（如["A", "B"]）。
joint_ndv：联合 NDV 值。
create_time/update_time：统计信息的生成和更新时间戳。

3. 采集机制

手动触发 ：通过ANALYZE TABLE语句显式采集，支持同步 / 异步模式：

sql 复制代码

-- 同步采集（阻塞当前会话）
ANALYZE TABLE orders COLLECT STATS FOR COLUMNS (user_id, order_date);

-- 异步采集（立即返回结果）
ANALYZE TABLE orders COLLECT STATS FOR COLUMNS (user_id, order_date) ASYNC;

自动触发 ：需通过CREATE ANALYZE自定义自动任务，并关闭默认全量采集（enable_collect_full_statistic = false）。

4. 更新策略

全量更新：每次采集覆盖历史数据，确保准确性。
分区级采集：仅对更新的分区进行统计，减少资源消耗。
健康度检测 ：通过statistic_auto_collect_ratio（默认 0.8）判断统计信息是否需要更新。若实际数据变化超过阈值，自动触发采集。

三、应用场景与优化效果

1. 典型场景

聚合下推优化：
sql 复制代码
```
SELECT user_id, COUNT(DISTINCT order_id) 
FROM orders 
WHERE order_date BETWEEN '2025-01-01' AND '2025-12-31' 
GROUP BY user_id;
```
联合统计信息(user_id, order_date)可帮助优化器准确估算分组后的基数，避免不必要的 Shuffle 操作。
多列 JOIN 优化：
sql 复制代码
```
SELECT o.order_id, p.product_name
FROM orders o
JOIN products p ON o.product_id = p.product_id AND o.region = p.region;
```
联合统计信息(product_id, region)可修正 JOIN 条件的选择性，减少中间结果集大小。

2. 性能收益

根据 StarRocks 官方测试，在包含多列关联的复杂查询中，启用联合统计信息可使：

基数估算误差降低 30%-50%。
查询执行时间减少 15%-25%（视数据分布复杂度而定）。

四、使用限制与最佳实践

1. 当前限制

列数限制：暂未明确限制联合列数，但实际建议不超过 3 列（避免计算复杂度指数级上升）。
数据类型限制：支持数值、日期、字符串类型，但不建议包含 TEXT/BLOB 等大对象类型。
自动采集限制 ：需手动配置CREATE ANALYZE任务，默认自动采集仅覆盖单列统计信息。

2. 最佳实践

优先高频查询列：选择在 WHERE、JOIN、GROUP BY 子句中高频出现的列组合。
结合直方图 ：对倾斜严重的列（如order_date）同时使用直方图和联合统计信息，提升估算精度。
监控统计信息健康度 ：通过information_schema.COLUMN_STATS_USAGE视图查看统计信息的使用频率和更新时间。
大表优化策略 ：
- 配置statistic_max_full_collect_data_size（默认 100GB），超过阈值时自动转为抽样采集。
- 使用异步采集模式避免阻塞业务查询。

3. 示例工作流

sql 复制代码

-- 步骤1：关闭默认自动全量采集
ADMIN SET CONFIG ("enable_collect_full_statistic" = "false");

-- 步骤2：创建自定义自动采集任务（每天凌晨2点采集orders表的(A,B)列）
CREATE ANALYZE orders 
PROPERTIES (
    "frequency" = "DAILY",
    "start_time" = "02:00:00",
    "columns" = "A,B"
);

-- 步骤3：手动触发紧急采集
ANALYZE TABLE orders COLLECT STATS FOR COLUMNS (A,B) ASYNC;

-- 步骤4：查看联合统计信息
SELECT * FROM _statistics_.multi_column_statistics 
WHERE table_id = 123 AND column_names = '["A","B"]';

五、未来演进方向

StarRocks 计划在后续版本中扩展以下功能：

多列相关性分析：支持统计列间的皮尔逊系数或互信息，量化列依赖关系。
联合直方图：存储多列数据分布的直方图，进一步提升基数估算精度。
自动列组合推荐：通过机器学习分析历史查询日志，自动建议最优联合统计列组合。
增量更新：支持基于 CDC（Change Data Capture）的增量统计信息更新，降低大表采集成本。

总结

StarRocks 的多列联合统计信息通过精准的基数估算和高效的采集机制，显著提升了复杂查询场景下的优化能力。其实现兼顾了准确性与性能，通过手动配置与自动任务结合的方式，为用户提供了灵活的统计信息管理方案。未来随着功能扩展，这一特性将成为 StarRocks 在 OLAP 领域的核心竞争力之一。

(欢迎关注，欢迎订阅 -数据湖专栏**** )