GBase 8a Hash Index 适合精确查询，不适合到处铺

我最近看 GBase 8a 存储优化和索引相关资料时，对 Hash Index 的使用边界印象比较深。GBase 8a 是面向分析场景的 MPP 列存数据库，很多查询性能来自列存、压缩、智能索引、分布式并行这些能力。Hash Index 确实能提升部分精确查询效率，但它不是传统行式数据库里那种"缺什么性能就加索引"的万能按钮。

真正落到现场时，Hash Index 最容易出问题的不是"不会建"，而是"建得太多、建错列、和加载链路互相影响"。尤其是宽表、明细表、准实时加载表，如果所有条件列都想加一遍，维护成本很快会反过来吃掉收益。

先把智能索引和 Hash Index 分开看

GBase 8a 的智能索引是一种粗粒度索引，按数据包记录过滤信息和统计信息，在查询时可以不解包先做粗筛。它是列存架构下很重要的基础能力，维护成本相对低，并且在数据入库时自动建立。

Hash Index 则更偏向精确定位，适合高频等值查询场景。从资料和现场经验看，GBase 8a 查询时会先进行智能索引过滤，如果等值查询条件列上有 Hash Index，再进一步利用 Hash Index，否则可能继续走 DC 扫描。

能力	侧重点	适合场景
智能索引	粗粒度过滤	时间、区域、状态等能缩小范围的条件
Hash Index	精确定位	订单号、客户号、流水号等高频等值查询
分布键	数据分布与本地计算	Join、Group By、数据均衡
压缩/列存	降低 I/O	大范围统计、少列扫描

我的理解是，Hash Index 是锦上添花，不是 GBase 8a 查询性能的唯一支点。先看数据分布、过滤条件、列存扫描范围，再决定是否建 Hash Index，顺序会更稳。

哪些列更适合建 Hash Index

我会优先看三个条件：等值查询频率高、列值离散度高、结果集很小。

列类型	是否适合	原因
订单号	适合	唯一性高，常用于单笔查询
客户号	视场景	如果单客户记录很少可考虑
机构号	通常不优先	值域有限，命中范围可能很大
状态码	不建议	低基数，过滤性弱
日期字段	视查询模式	范围查询多时不适合作为 Hash Index 核心
大文本字段	不建议	应考虑全文检索或其他方案

示例场景：

sql 复制代码

CREATE TABLE fact_trade_detail (
    trade_id      varchar(64),
    cust_id       varchar(64),
    acct_no       varchar(64),
    trade_date    date,
    trade_type    varchar(20),
    trade_amt     decimal(18,2),
    org_id        varchar(32),
    remark        varchar(500)
)
DISTRIBUTED BY ('cust_id');

如果线上经常按 trade_id 查单笔交易：

sql 复制代码

SELECT trade_id, cust_id, trade_date, trade_amt, trade_type
FROM fact_trade_detail
WHERE trade_id = 'T202605150000012345';

这类查询就比较适合评估 Hash Index。因为它的目标是快速定位少量记录，而不是扫描一批数据做聚合。

相反，如果是这种查询：

sql 复制代码

SELECT org_id, sum(trade_amt)
FROM fact_trade_detail
WHERE trade_date BETWEEN '2026-05-01' AND '2026-05-15'
  AND trade_type = 'PAY'
GROUP BY org_id;

核心矛盾通常不是某个单值精确定位，而是时间范围、列扫描、聚合和分布式执行。这个时候盲目给 trade_type 建 Hash Index，收益很有限。

Hash Index 会增加加载和维护成本

GBase 8a 很多项目是批量加载和查询混跑。Hash Index 一旦建在高频加载表上，新增数据就要维护索引。资料里也提到，对于实时数据加载场景，可以考虑先加载到无索引临时表，积累到时间窗口后再插入到带索引目标表，或者在临时表上集中创建索引，从而降低维护成本。

我自己更倾向于把表分成三类处理：

表类型	Hash Index 策略
历史稳定明细表	可以针对查单字段建立
当日准实时明细表	谨慎建立，先评估加载压力
中间加工表	通常不建，生命周期短
维表	先看是否复制表和 Join 模式
汇总表	按报表条件评估，不默认建立

一种落地方案是分层入库：

sql 复制代码

-- 当日加载表，不建 Hash Index，优先保证加载吞吐
CREATE TABLE fact_trade_detail_stage LIKE fact_trade_detail;

-- 批量装载完成后转入历史明细表
INSERT INTO fact_trade_detail
SELECT * FROM fact_trade_detail_stage
WHERE trade_date = '2026-05-15';

如果确实要建索引，也要放到低峰或批后窗口，并观察加载耗时和查询收益是否成比例。

建索引前先用查询模式说话

我不太建议按字段名拍脑袋建索引。比如"客户号看起来很重要"，但如果客户号查询每次返回几十万行，Hash Index 的精确定位价值就不大。反过来，一个看起来普通的外部流水号，如果客服、对账、风控每天都用它查单，收益就可能很明显。

可以先做一个 SQL 模式统计：

sql 复制代码

-- 示例：从自建SQL采集表里统计等值条件出现频率
SELECT condition_column,
       count(*) AS sql_cnt,
       sum(exec_cnt) AS total_exec_cnt
FROM ops_sql_condition_stat
WHERE db_name = 'dw'
  AND table_name = 'fact_trade_detail'
  AND operator_type IN ('=', 'IN')
GROUP BY condition_column
ORDER BY total_exec_cnt DESC;

再看结果集规模：

sql 复制代码

SELECT count(*) AS hit_rows
FROM fact_trade_detail
WHERE trade_id = 'T202605150000012345';

SELECT cust_id, count(*) AS cnt
FROM fact_trade_detail
GROUP BY cust_id
ORDER BY cnt DESC
LIMIT 20;

如果某列高频等值查询，但单值命中数据量很大，这个列就未必适合做 Hash Index。Hash Index 适合定位，不适合替代过滤策略和数据建模。

不要把 Hash Index 和分布键混为一谈

很多人会问：某列已经是分布键，还要不要建 Hash Index？这要看它承担的职责。分布键主要影响数据在节点间如何分布，以及 Join、Group By 能否更好地下推和本地计算。Hash Index 关注的是单表精确查询定位。

设计项	主要解决的问题
分布键	数据均衡、Join 本地化、聚合下推
Hash Index	等值条件下的快速定位
复制表	小表 Join 避免数据搬动
排序/加载顺序	提升范围过滤和数据局部性

如果 cust_id 是分布键，说明它可能对 Join 和分布有价值。但按 cust_id 查询时，如果一个客户记录很多，Hash Index 的收益不一定明显。如果 trade_id 不是分布键，但经常查单，反而可能是 Hash Index 的候选列。

大字段不要按精确索引的思路处理

资料里也能看到，TEXT、BLOB 这类大对象字段不适合按 Hash Index 思路处理。它们长度大、内容复杂，不适合用作短小精确匹配字段。文本搜索更应该考虑全文检索类方案，BLOB 通常也不应该作为查询条件。

查询需求	更合适的方向
按订单号查单	Hash Index 候选
按备注关键字搜索	全文检索或专门检索方案
按附件内容过滤	不建议直接放数据库条件
按短编码等值查	Hash Index 候选
按状态范围统计	智能索引、分区、列存扫描和聚合优化

现场里最怕把"索引"两个字理解成统一工具。GBase 8a 的列存、智能索引、Hash Index 各有位置，不能混着用。

我会怎样评估一个 Hash Index

我的评估表通常是这样的：

评估项	判断标准
查询频率	是否每天大量触发
谓词类型	是否以 `=`、`IN` 这类精确条件为主
命中行数	单值结果是否足够小
列值基数	是否有较高离散度
表更新方式	是否频繁加载或更新
加载窗口	建索引后是否影响批处理
替代方案	是否通过分布键、复制表、SQL 改写解决
清理策略	索引是否随着表生命周期维护

示例决策：

字段	查询频率	单值命中	加载影响	结论
`trade_id`	高	1 行	可接受	建议评估 Hash Index
`trade_type`	高	百万级	不划算	不建议
`cust_id`	中	波动大	需观察	分客户规模判断
`org_id`	高	大范围	不建议	优先靠分区/汇总
`external_seq`	高	少量	可接受	建议评估

建完之后还要看收益

建索引不是结束。上线后要看查询耗时下降多少，加载耗时增加多少，空间和维护成本是否可接受。

sql 复制代码

CREATE TABLE ops_hash_index_eval (
    table_name      varchar(128),
    index_column    varchar(128),
    before_ms       bigint,
    after_ms        bigint,
    load_before_ms  bigint,
    load_after_ms   bigint,
    eval_time       timestamp,
    remark          varchar(500)
);

我更喜欢用"收益账"判断索引是否保留。如果某个 Hash Index 只让一天十几次查询快了 200ms，却让每晚加载多跑二十分钟，那就不值得。反过来，如果客服查单从几十秒变成秒级，而加载成本可接受，就很有价值。

一个简化的落地规则

问题	我的处理倾向
查单类 SQL 慢	优先评估 Hash Index
大范围统计慢	先看列存扫描、过滤、分布、聚合
加载变慢	检查 Hash Index 数量和维护成本
低基数字段查询多	不急着建 Hash Index
大字段搜索	不按 Hash Index 处理
分布键已存在	仍需按查询模式单独评估 Hash Index

GBase 8a 的优势并不是"索引越多越快"，而是让列存、压缩、智能索引、分布式并行和必要的 Hash Index 各自发挥作用。Hash Index 用在精确查询上很锋利，用错位置也会拖累加载和维护。现场设计时把边界先说清楚，后面的稳定性会好很多。

参考资料

text 复制代码

数据分布式存储 | GBASE南大通用
https://www.gbase.cn/docs/gbase-8a/%E4%BA%A7%E5%93%81%E6%89%8B%E5%86%8C/product-overview/product-enterprise-enhance-feature/product-data-distributed-storage

优化SQL语句 | GBASE南大通用
https://www.gbase.cn/docs/gbase-8a/%E4%BA%A7%E5%93%81%E6%89%8B%E5%86%8C/dm-database-management-guide/dm-optimization-database-performance/dm-optimize-sql-statements

GBase 8a最佳实践（一）性能调优
https://www.gbase.cn/community/post/3902

云原生数据仓库GBase 8a
https://www.gbase.cn/product/gbase-8a

TEXT和BLOB数据类型为什么不支持Hash索引？这与它们的底层结构有关
https://www.gbase.cn/community/post/9251