【漫话机器学习系列】227.信息检索与数据挖掘中的常用加权技术（TF-IDF）

在自然语言处理（NLP）、信息检索（IR）和数据挖掘（DM）领域中，TF-IDF 是一种非常经典且常用的加权技术。

无论是搜索引擎排序、文本挖掘，还是特征工程，TF-IDF都扮演着重要角色。

今天，我们通过一张手绘图（见下方）出发，详细理解TF-IDF的定义、公式推导及实际意义。

TF-IDF（Term Frequency - Inverse Document Frequency） ，中文通常翻译为词频-逆文档频率，是一种用于评估一个词语对于一个文档集合中的某份文档的重要程度的方法。

它综合考虑了：

从而在文本处理中，突出那些能较好区分不同文档的关键词。

根据手绘图内容，TF-IDF的标准公式如下：

其中：

接下来分别拆开解释：

表示词t在文档d中出现的频率 。

通常定义为该词在文档中出现的次数除以文档的总词数。

在手绘图中，蓝色箭头标注了：

次数 + 出现在文档中d的文档

这里强调的是，词频关注的是"在单一文档内部"，某个词出现了多少次。

其中：

手绘图中，棕色箭头标注了逆文档频率的具体推导公式，并解释了每个变量的含义。

通过引入逆文档频率（IDF），可以有效降低出现在大多数文档中的常用词（比如"的""是"等）的权重，同时提高那些在少数文档中出现、具有区分性的词的重要性。

注意：

加1操作（如公式中的 1+n、1+df(t)）是为了避免分母为零或对数中出现非法运算的问题。

直接使用词频（TF）容易出现的问题是：常见但不具备实际意义的词（如"的"、"是"、"and"、"the"）会有很高的频率，从而被错误地认为非常重要。

而引入逆文档频率（IDF）后，可以：

总之，TF-IDF 是一种简单有效、广泛应用的文本特征权重评估方法。

TF-IDF的应用非常广泛，包括但不限于：

假设我们有三篇文档：

关键词 "自然语言处理"：

最后通过TF × IDF，就能得到每个文档中该词的重要性得分。

掌握好TF-IDF，不仅可以帮助理解传统NLP任务，也为后续深入学习如词向量（Word2Vec）、BERT等打下坚实基础！

如果这篇文章对你有帮助，欢迎点赞 👍、收藏 ⭐ 和留言讨论哦！

后续我将继续分享更多文本处理、自然语言理解的实战经验，欢迎关注～