技术栈

比对

IT 行者
2 小时前
算法·hash·比对
SimHash 与 MinHash:相似性计算的双子星算法在海量文本和数据进行比对去重的场景中,如何快速判断"这两个东西有多像"是一个核心问题。精确的字符串比较在数据量大的情况下代价太高,我们需要近似相似度算法来提速。本文介绍两种经典方案:SimHash 和 MinHash,从原理、用途到适用范围全面解析。
我是有底线的