SimHash 与 MinHash：相似性计算的双子星算法

在海量文本和数据进行比对去重的场景中，如何快速判断"这两个东西有多像"是一个核心问题。精确的字符串比较在数据量大的情况下代价太高，我们需要近似相似度算法来提速。本文介绍两种经典方案：SimHash 和 MinHash，从原理、用途到适用范围全面解析。

SimHash 的核心思想非常朴素：把文本映射为一个指纹（Fingerprint），相似的文本拥有相似的指纹。步骤如下：

分词 + 加权：对文本进行中文分词或英文 tokenize，得到一组词。对每个词计算 TF-IDF 权重（或者简单的词频）。
哈希每个词：将每个词通过一个普通哈希函数（如 MD5、SHA1）映射为一个 n 位的二进制向量。
向量加权叠加：将每个词的哈希值按权重叠加------词出现则该位加权重，否者为负权重。最终得到一个 n 维实数向量。
降维：将叠加后的向量每一位大于 0 的设为 1，小于等于 0 的设为 0，得到最终的 n 位 SimHash 值（通常取 64 位）。

原始文本 → 分词 → 每个词哈希成64位 → 按权重叠加 → 降维(0/1) → 64位指纹

关键性质：两个文本的 SimHash 值，如果仅有 k 位不同，则它们的汉明距离（Hamming Distance）为 k。经验表明，当汉明距离 ≤ 3 时，两文本相似度极高。

假设我们有两段文本 A 和 B：

逐位比较，汉明距离为 2，说明两者非常相似。

快速查询策略------抽屉原理：在大规模数据中，不可能逐一计算汉明距离。常用的策略是抽屉分组：

这样一次查询只需 4 次精确匹配 + 少量汉明距离计算，查询效率极高。

可以进一步加速：

在说 MinHash 之前，需要了解 Jaccard 相似度：

J(A,B)=∣A∩B∣∣A∪B∣J(A, B) = \frac{|A \cap B|}{|A \cup B|}J(A,B)=∣A∪B∣∣A∩B∣

即两个集合的交集与并集之比，值域 $0, 1$ 。对于文本，可以把每个文档看作一个词集合（或更精细地，shingle 集合，即 n-gram 片段集合），然后用 Jaccard 衡量相似度。问题是：当文档非常大（如网页），集合元素成千上万，Jaccard 的精确计算代价很高。

MinHash 的目标是：用很小的存储空间，快速近似计算两个集合的 Jaccard 相似度。核心思路：对集合做多次哈希，取每个哈希函数作用在该集合上的最小值，组成一个签名（MinHash Signature）。

步骤如下：

签名 $i$ =min⁡(hi(x))，其中x∈S签名 $i$ = \min(h_i(x))，其中 x \in S签名 $i$ =min(hi(x))，其中x∈S

最终得到一个 m 位的 MinHash 签名。

相似度估计：两个集合的 MinHash 签名，第 1 位相等的概率 = Jaccard 相似度。更准确地说，两集合 MinHash 签名相等的比例是 Jaccard 相似度的无偏估计。

P(签名 $1位相等$ )=J(A,B)P(签名 $1位相等$ ) = J(A, B)P(签名 $1位相等$ )=J(A,B)

即使有了 MinHash 签名，在海量文档中两两比较仍然需要 O(N²) 次。局部敏感哈希（LSH）可以进一步加速：

签名分 b=10 个波段，每段 r=5 行 → 50位签名。两个文档只要有一个波段完全相同 → 候选相似对。通过调整 b 和 r，可以在 Precision 和 Recall 之间做权衡。

选型建议：

复制代码

相似度任务
├── 高度相似（>90%）→ SimHash
└── 中等相似（30%~90%）→ MinHash
    ├── 数据量极大 → + LSH 加速
    └── 需要具体数值 → MinHash 签名长度取长一些

两种算法都诞生于 2000 年代初，都是**局部敏感哈希（LSH）**这一大类算法的经典代表。理解它们的原理，有助于在实际工作中根据数据规模和相似度要求做出合理的技术选型。

来源：https://blog.csdn.net/bhl120/article/details/161456657