数据结构可扩展哈希

一、先给结论（一句话记死）

可扩展哈希是「普通哈希表」的「扩容升级版」 ，完全解决了普通哈希表「扩容卡顿、效率极低」的致命缺点，其余功能（增删改查）和普通哈希表完全一样，上手零门槛。

二、先回顾：「普通哈希表」核心痛点

普通哈希表（数组+链表+Rehash），是最基础的哈希表实现，日常用没问题，但一扩容就「拉胯」，3个核心痛点新手也能直观感受到：

❌ 痛点1：扩容必「全量搬家」，数据越多越卡

普通哈希表扩容时，会创建一个全新的更大数组 ，然后把所有旧数据全部重新计算索引、全部搬到新数组。

✅ 大白话举例：

你租了个10平的小房子（哈希表容量10），东西多了要换30平的大房子 → 必须把衣柜、床、冰箱、所有东西全部打包、搬运、重新摆放，过程中完全没法正常生活。

数据量越大（东西越多），搬家耗时越久，程序会直接「卡顿、卡死」。

❌ 痛点2：扩容是「一刀切」，全局整体变大

普通哈希表的容量是全局统一的 ，扩容时必须「整体翻倍」（比如11→23、23→47），哪怕只有1个桶的数据满了 ，也要把所有桶一起扩容，属于「小题大做、浪费资源」。

✅ 大白话举例：

小区里只有1栋楼的住户住满了，物业却要求整个小区所有楼栋全部推倒重建、扩大面积，其他空楼栋也跟着折腾，纯纯浪费人力物力。

❌ 痛点3：哈希冲突越积越多，查询变慢

普通哈希表用「链表挂接」解决冲突（一个桶里多个数据），扩容不及时的话，链表会变得越来越长 → 原本O(1)的查询，会慢慢变成O(n)，查数据越来越慢。

三、可扩展哈希的「3大核心改进」

可扩展哈希的所有设计，全部精准解决普通哈希表的3个痛点，核心改进只有3点

✅ 改进1：扩容从「全局搬家」→「局部搬家」（解决「扩容卡顿」）

✅ 核心变化：哪个桶满了，只动哪个桶，其余桶完全不动

普通哈希表是「一动全动」，可扩展哈希是「一动其余全不动」，这是最核心、最关键的改进！

扩容时只迁移「满桶」里的少量数据，其余数据完全不用动，程序全程不卡顿、无延迟。

✅ 改进2：扩容从「全局一刀切」→「局部按需分裂」（解决「资源浪费」）

✅ 核心变化：容量按需增长，不搞「整体翻倍」，哪个桶不够用就「分裂」哪个桶

可扩展哈希没有「全局容量」的概念，而是用「桶」作为最小存储单元，每个桶独立管理容量：

桶没满 → 正常存数据，不做任何操作；
桶存满 → 仅把这个桶「分裂」成2个新桶，仅此而已。

✅ 改进3：冲突从「链表挂接」→「桶分裂化解」（解决「查询变慢」）

✅ 核心变化：用「桶分裂」替代「链表挂接」，永远没有超长链表，查询速度永远是O(1)

普通哈希表：冲突的数据往链表上挂，链表越长查询越慢；

可扩展哈希：没有链表！ 每个桶里用数组存数据，桶满了就分裂，数据会自动分散到新桶里，永远不会出现「一个桶里堆一堆数据」的情况，查询速度永远保持最快。

四、普通哈希 vs 可扩展哈希

|--------------|-----------------|----------------|-------------|
| 对比维度（新手关心的点） | 「普通哈希表」 | 可扩展哈希（改造版） | 谁更优 |
| 扩容时是否卡顿 | ✅ 必卡顿（全量迁移所有数据） | ❌ 不卡顿（仅迁移满桶数据） | ✔️ 可扩展哈希 |
| 扩容是否浪费资源 | ✅ 浪费（全局整体扩容） | ❌ 不浪费（局部按需扩容） | ✔️ 可扩展哈希 |
| 解决冲突的方式 | ✅ 链表挂接（越长越慢） | ❌ 桶分裂（永远均匀） | ✔️ 可扩展哈希 |
| 查询速度稳定性 | ✅ 不稳定（链表长则变慢） | ✅ 绝对稳定（永远O(1)） | ✔️ 可扩展哈希 |
| 实现难度 | ✅ 超简单（新手友好） | ✅ 稍复杂 | ✔️ 普通哈希（上手） |
| 数据量大时性能 | ✅ 越来越差 | ✅ 始终稳定 | ✔️ 可扩展哈希 |

五、可扩展哈希2个核心概念

不用纠结复杂原理，只需要记住2个最核心的概念，就能彻底理解可扩展哈希，和普通哈希的区别也会更清晰：

✅ 概念1：「桶」------ 可扩展哈希的「最小存储单元」

桶 = 一个「固定大小的小数组」（比如最多存4个键值对）；
所有数据都存在「桶」里，一个桶存满了，就「分裂」成2个桶；
普通哈希表的「桶」是「被动承载数据」，可扩展哈希的「桶」是「主动管理自己」。

✅ 概念2：「目录」------ 可扩展哈希的「导航地图」

目录 = 一张「索引表」，记录「每个哈希值 → 对应哪个桶」；
你要查/存数据时，先查目录 → 找到对应的桶 → 直接操作桶里的数据；
桶分裂时，只需要更新目录里的「一条导航记录」，其余记录完全不变，效率极高。

✅ 选「普通哈希表」，如果：

👉 你是新手，只想快速上手、理解哈希表基础原理；

👉 数据量不大（几百/几千条数据），扩容卡顿完全可以接受；

👉 追求「代码简单、容易调试、出错率低」。

✅ 选「可扩展哈希」，如果：

👉 你需要存储大量数据（几万/几十万条），担心扩容卡顿；

👉 要求程序运行稳定、查询速度快，不能有性能抖动；

👉 想学习「工业级高性能哈希表」的实现思路（面试高频考点）。

七、核心原理极简总结

普通哈希表：扩容全量迁移、冲突挂链表、数据越多越卡；
可扩展哈希：扩容局部分裂、无链表冲突、性能永远稳定；
可扩展哈希的核心优势：解决了普通哈希表「扩容代价高」的致命问题，是更适合大数据量的哈希表实现。

最终总结

✅ 可扩展哈希对普通哈希表，本质就是「扩容方式的升级」；

✅ 核心改进只有1个：把「全局全量扩容」改成「局部按需扩容」，其余所有优点（不卡顿、不浪费、速度快）都是这个改进带来的；

✅ 你不用纠结底层复杂逻辑，直接用我改好的可扩展哈希代码，用法和你原来的普通哈希表完全一样，增删改查接口一个没动，上手零成本！

代码

头文件

cpp 复制代码

#ifndef __EXTENDIBLE_HASH_H__
#define __EXTENDIBLE_HASH_H__

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdbool.h>

#define INITIAL_GLOBAL_K     2       // 初始全局前缀位数 (目录长度=2^k=4)
#define BUCKET_CAPACITY      4       // 每个桶的最大容量（可自定义）
#define MAX_KEY_LEN          64      // 键的最大长度

// 1. 键值对结构体（桶内存储的最小单元）
typedef struct {
    char key[MAX_KEY_LEN];
    int value;
} KVNode;

// 2. 哈希桶结构体（可扩展哈希核心：最小存储单元，满了则分裂）
typedef struct HashBucket {
    KVNode* entries;                // 桶内的键值对数组
    int size;                       // 桶内已存储元素数量
    int local_k;                    // 桶的局部前缀位数（关键！实现局部分裂）
} HashBucket;

// 3. 可扩展哈希表主结构体（替代你原有的HashTable）
typedef struct ExtendibleHashTable {
    HashBucket** dir;               // 全局目录表（核心！存桶的指针，实现映射）
    int global_k;                   // 全局前缀位数，目录长度 = 2^global_k
    int bucket_cap;                 // 单个桶的最大容量
    int total_size;                 // 哈希表总元素数量
} ExtendibleHashTable;

// 1. 创建可扩展哈希表
ExtendibleHashTable* createHashTable();
// 2. 销毁可扩展哈希表
void destroyHashTable(ExtendibleHashTable* table);
// 3. 插入键值对（存在则更新）
int hashInsert(ExtendibleHashTable* table, const char* key, int value);
// 4. 查找键对应的值（返回NULL表示不存在）
int* hashSearch(ExtendibleHashTable* table, const char* key);
// 5. 删除键值对
int hashDelete(ExtendibleHashTable* table, const char* key);
// 6. 获取哈希表总元素数
int getSize(ExtendibleHashTable* table);
// 7. 判断哈希表是否为空
int isEmpty(ExtendibleHashTable* table);
// 8. 打印哈希表完整结构（桶+目录+数据）
void printHashTable(ExtendibleHashTable* table);
// 9. 清空哈希表所有数据
void clearHashTable(ExtendibleHashTable* table);
// 10. 获取当前负载因子（总元素/总桶容量）
double getLoadFactor(ExtendibleHashTable* table);

#endif // __EXTENDIBLE_HASH_H__

源文件