在 MongoDB 中,哈希索引(Hash Index)是一种特殊类型的索引,它通过对字段值进行哈希计算(使用哈希函数),将原始值映射为固定长度的哈希值,再基于哈希值构建索引。与传统的升序 / 降序索引(范围索引)相比,哈希索引在特定场景下能提供更高效的查询性能。
哈希索引的核心特性
-
固定长度的哈希值
无论原始字段值的类型(字符串、数字等)和长度如何,哈希索引都会将其转换为固定长度的哈希值(如 128 位整数),因此索引结构更紧凑。
-
无序性
哈希函数的计算结果是无序的,即原始值的大小关系不会体现在哈希值中。例如,
"apple"
和"banana"
的哈希值可能是完全不相关的数值,因此哈希索引不支持范围查询 (如$gt
、$lt
)。 -
快速等值查询
对于等值查询(如
{ field: "value" }
),哈希索引通过直接匹配哈希值定位文档,效率与范围索引相当,甚至在高基数(字段值高度唯一)场景下更优。
使用场景
哈希索引适合以下场景:
- 高频等值查询 :例如通过
user_id
、product_code
等唯一标识查询单条文档。 - 分片集群中的分片键:在分片集群中,使用哈希索引作为分片键可以将数据更均匀地分布到多个分片,避免数据倾斜(相比范围分片,哈希分片能打散连续值的分布)。
- 字段值过长:对于长字符串(如 URL、大文本),哈希索引可减少索引存储空间(固定长度哈希值比原始长字符串更节省空间)。
创建与使用示例
1. 创建哈希索引
使用 createIndex()
方法,指定 hashed
类型:
// 对 "user_id" 字段创建哈希索引
db.users.createIndex({ user_id: "hashed" })
2. 支持的数据类型
哈希索引支持以下字段类型:
- 数字(整数、浮点数)
- 字符串
- 日期(
Date
) - 对象 ID(
ObjectId
)
不支持数组、嵌套文档等复杂类型。
3. 等值查询(命中哈希索引)
// 等值查询:会使用哈希索引
db.users.find({ user_id: "123456" })
4. 不支持的查询(无法命中哈希索引)
// 范围查询:哈希索引不支持,会走全表扫描或使用其他索引
db.users.find({ user_id: { $gt: "123456" } })
// 排序操作:哈希值无序,排序会忽略哈希索引
db.users.find().sort({ user_id: 1 })
与范围索引的对比
特性 | 哈希索引(Hashed Index) | 范围索引(Ascending/Descending) |
---|---|---|
索引值 | 固定长度哈希值(无序) | 原始值(保持顺序) |
支持的查询类型 | 仅等值查询(= ) |
等值查询、范围查询($gt /$lt 等)、排序 |
空间占用 | 较小(固定长度) | 可能较大(取决于原始值长度) |
分片场景适用性 | 适合哈希分片(数据分布均匀) | 适合范围分片(连续值聚合) |
高基数字段性能 | 优秀 | 优秀(但索引体积可能更大) |
在分片集群中的应用
哈希索引最常见的用途是作为分片集群的分片键,解决范围分片的数据倾斜问题:
- 范围分片:若分片键是连续值(如时间戳),新数据可能集中在一个分片,导致负载不均。
- 哈希分片:通过哈希函数将分片键值打散,数据能均匀分布到所有分片,提高集群吞吐量。
示例:对 order_id
字段创建哈希索引并作为分片键:
// 1. 在配置服务器上为集合启用分片
sh.enableSharding("mydb")
// 2. 创建哈希索引
db.orders.createIndex({ order_id: "hashed" })
// 3. 以哈希索引为分片键
sh.shardCollection("mydb.orders", { order_id: "hashed" })
注意事项
-
不支持复合索引
哈希索引只能针对单个字段创建,不支持多字段的复合哈希索引(但可以创建包含哈希字段和其他字段的复合索引,如
{ user_id: "hashed", age: 1 }
)。 -
哈希冲突
理论上,不同的原始值可能产生相同的哈希值(哈希冲突),但 MongoDB 的哈希函数设计使其概率极低,实际应用中可忽略。
-
无法用于排序
由于哈希值无序,使用哈希索引的字段无法通过索引优化排序操作(
sort()
),需依赖其他索引或内存排序。 -
与唯一索引结合
哈希索引可以设置为唯一索引(
unique: true
),确保哈希后的字段值唯一(本质是原始值唯一,因为哈希冲突概率极低):db.users.createIndex({ user_id: "hashed" }, { unique: true })
-
不支持地理空间或文本索引
哈希索引不能与地理空间索引(
2d
、2dsphere
)或文本索引(text
)混合使用。
总结
哈希索引通过将字段值转换为固定长度的哈希值,优化了等值查询性能和索引存储空间,尤其适合高基数字段和分片集群场景。但需注意其不支持范围查询和排序的局限性,实际使用中应根据查询模式选择:
- 若以等值查询为主(如通过 ID 查单条记录),或需在分片集群中均匀分布数据,优先使用哈希索引。
- 若需范围查询、排序或复合条件查询,应使用传统的范围索引。