了解 TF-IDF - 技术栈

TF-IDF （词频-逆文档频率）是信息检索与文本挖掘领域的经典统计方法，用于评估词语在文档集中的重要性。该方法通过综合分析词频和逆文档频率，能精准识别出在特定文档中高频出现、但在整个文档集中相对稀少的关键词语。

TF-IDF的基本思想非常直观：如果一个词语在某个文档中出现次数很多（TF高），但在整个文档集合中出现的频率很低（IDF高），那么这个词很可能对该文档具有很好的区分能力，应当赋予较高的权重。这种方法能够有效过滤掉像"的"、"是"这类常见但信息量低的停用词。

词频衡量的是某个词语在单个文档中出现的频繁程度。直观上，一个词在文档中出现的次数越多，它对该文档的主题可能越重要。常用的计算方法有：

常用的词频公式为：

tf ( t , d ) = f t , d ∑ t ′ ∈ d f t ′ , d \text{tf}(t, d) = \frac{f_{t,d}}{\sum_{t' \in d} f_{t',d}} tf(t,d)=∑t′∈dft′,dft,d

其中 f t , d f_{t,d} ft,d 表示词语 t t t 在文档 d d d 中出现的次数，分母是文档 d d d 中所有词语出现次数的总和。

逆文档频率衡量的是词语的普遍重要性。如果一个词在所有文档中都很常见（如"的"、"了"），那么它的区分能力就较弱，应该被降权。IDF的核心思想是：越少文档包含的词语，其区分能力越强。

逆文档频率的标准计算公式为：

idf ( t , D ) = log ⁡ N ∣ { d ∈ D : t ∈ d } ∣ \text{idf}(t, D) = \log \frac{N}{|\{d \in D: t \in d\}|} idf(t,D)=log∣{d∈D:t∈d}∣N

其中：

N N N 是文档集合中的文档总数
∣ { d ∈ D : t ∈ d } ∣ |\{d \in D: t \in d\}| ∣{d∈D:t∈d}∣ 是包含词语 t t t 的文档数量
为了避免分母为零的情况，通常会在分母加1： idf ( t , D ) = log ⁡ N 1 + ∣ { d ∈ D : t ∈ d } ∣ \text{idf}(t, D) = \log \frac{N}{1 + |\{d \in D: t \in d\}|} idf(t,D)=log1+∣{d∈D:t∈d}∣N

将TF和IDF结合起来，就得到了TF-IDF权重：

tf-idf ( t , d , D ) = tf ( t , d ) × idf ( t , D ) \text{tf-idf}(t, d, D) = \text{tf}(t, d) \times \text{idf}(t, D) tf-idf(t,d,D)=tf(t,d)×idf(t,D)

这个值越高，表示词语 t t t 对文档 d d d 越重要，同时在整个文档集合 D D D 中越具有区分度。

在实际应用中，TF-IDF有多种变体形式，主要通过调整参数来适应不同的需求：

二进制TF：只关心词是否出现，不关心次数
对数缩放 ： tf ( t , d ) = log ⁡ ( 1 + f t , d ) \text{tf}(t, d) = \log(1 + f_{t,d}) tf(t,d)=log(1+ft,d)
增强版TF ： tf ( t , d ) = 0.5 + 0.5 × f t , d max ⁡ { f t ′ , d : t ′ ∈ d } \text{tf}(t, d) = 0.5 + \frac{0.5 \times f_{t,d}}{\max\{f_{t',d}: t' \in d\}} tf(t,d)=0.5+max{ft′,d:t′∈d}0.5×ft,d

平滑IDF ： idf ( t , D ) = log ⁡ N 1 + ∣ { d ∈ D : t ∈ d } ∣ + 1 \text{idf}(t, D) = \log \frac{N}{1 + |\{d \in D: t \in d\}|} + 1 idf(t,D)=log1+∣{d∈D:t∈d}∣N+1
概率IDF ： idf ( t , D ) = log ⁡ N − ∣ { d ∈ D : t ∈ d } ∣ ∣ { d ∈ D : t ∈ d } ∣ \text{idf}(t, D) = \log \frac{N - |\{d \in D: t \in d\}|}{|\{d \in D: t \in d\}|} idf(t,D)=log∣{d∈D:t∈d}∣N−∣{d∈D:t∈d}∣

TF-IDF在多个自然语言处理任务中都有广泛应用：

虽然TF-IDF简单有效，但在使用时需要注意：