c-TF-IDF 和 TF-IDF
-
- [什么是 c-TF-IDF?](#什么是 c-TF-IDF?)
-
- [传统 TF-IDF](#传统 TF-IDF)
- [c-TF-IDF(基于类的 TF-IDF)](#c-TF-IDF(基于类的 TF-IDF))
- [c-TF-IDF 的计算公式](#c-TF-IDF 的计算公式)
- 直观理解
- [在 BERTopic 中的工作流程](#在 BERTopic 中的工作流程)
- [代码示例:使用 c-TF-IDF](#代码示例:使用 c-TF-IDF)
- [与传统 TF-IDF 对比](#与传统 TF-IDF 对比)
- [c-TF-IDF 的优势](#c-TF-IDF 的优势)
- [自定义 c-TF-IDF 参数](#自定义 c-TF-IDF 参数)
- [可视化 c-TF-IDF 权重](#可视化 c-TF-IDF 权重)
- 总结
BERTopic 中一个 非常核心的概念 ------ c-TF-IDF (class-based TF-IDF)。这是 BERTopic 区别于其他主题模型的关键创新点。
什么是 c-TF-IDF?
传统 TF-IDF
- TF(词频):一个词在单个文档中出现的频率
- IDF(逆文档频率):衡量一个词在所有文档中的普遍性
- 应用对象:单个文档
c-TF-IDF(基于类的 TF-IDF)
- 将每个主题视为一个"文档类"
- 计算时:一个主题(类) vs 所有其他主题(类)
- 应用对象:整个主题/类别
c-TF-IDF 的计算公式
c-TF-IDF(w, c) = tf(w, c) × log(1 + N / df(w))
- tf(w, c):词 w 在主题 c 的所有文档中出现的总次数
- N:主题总数
- df(w):包含词 w 的主题数量
词出现在越少的文档中,其 IDF 值越大,对区分文档的贡献越大。
直观理解
假设我们有 3 个主题:科技、体育、政治
| 词 | 科技主题 | 体育主题 | 政治主题 | 是否适合做主题词 |
|---|---|---|---|---|
| "算法" | 高频 | 几乎无 | 偶尔出现 | ✅ 优秀(区分度高) |
| "比赛" | 低频 | 高频 | 低频 | ✅ 优秀 |
| "政策" | 低频 | 低频 | 高频 | ✅ 优秀 |
| "非常" | 中频 | 中频 | 高频 | ❌ 差(普遍性高) |
| "重要" | 高频 | 高频 | 高频 | ❌ 差(无区分度) |
在 BERTopic 中的工作流程
python
from bertopic import BERTopic
from bertopic.vectorizers import ClassTfidfTransformer
# 1. 文档聚类(使用嵌入和聚类算法)
# docs → 文档嵌入 → 聚类 → 得到主题标签
# 2. 为每个主题创建词袋表示
# 同一主题的所有文档合并 → 统计词频
# 3. 应用 c-TF-IDF
ctfidf_model = ClassTfidfTransformer(
reduce_frequent_words=True, # 降低过于频繁的词的权重
bm25_weighting=True, # 使用 BM25 风格的权重(可选)
)
# 4. 得到每个主题的 top N 关键词
topic_keywords = ctfidf_model.transform(topic_word_frequencies)
代码示例:使用 c-TF-IDF
python
from bertopic import BERTopic
from bertopic.vectorizers import ClassTfidfTransformer
import numpy as np
# 示例文档
docs = [
"机器学习算法需要大量数据",
"深度学习是机器学习的一个分支",
"篮球比赛需要团队合作",
"足球运动员需要良好的体能",
"政府发布了新的经济政策",
"外交关系对国家发展很重要"
]
# 1. 创建 BERTopic 模型,自定义 c-TF-IDF 参数
ctfidf_model = ClassTfidfTransformer(
bm25_weighting=True, # 使用 BM25 而非传统 TF-IDF
reduce_frequent_words=True, # 降低常见词的权重
diversity=0.5 # 增加多样性(可选)
)
topic_model = BERTopic(
ctfidf_model=ctfidf_model, # 使用自定义的 c-TF-IDF
min_topic_size=2, # 每个主题最少文档数
verbose=True
)
# 2. 训练模型
topics, probabilities = topic_model.fit_transform(docs)
# 3. 查看主题关键词(基于 c-TF-IDF 排序)
print("主题和关键词:")
for topic_num in set(topics):
if topic_num != -1: # 跳过异常值(-1 表示未聚类)
topic_info = topic_model.get_topic(topic_num)
print(f"\n主题 {topic_num}:")
for word, score in topic_info[:5]: # 前5个关键词
print(f" {word}: {score:.4f}")
# 4. 查看 c-TF-IDF 矩阵
print("\n=== c-TF-IDF 矩阵形状 ===")
if hasattr(topic_model, 'c_tf_idf_'):
print(f"矩阵形状: {topic_model.c_tf_idf_.shape}")
print(f"(主题数 × 词汇表大小)")
与传统 TF-IDF 对比
python
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
# 传统 TF-IDF(文档级别)
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(docs)
print("传统 TF-IDF 矩阵形状:", X_tfidf.shape) # (6个文档 × 词汇表大小)
# c-TF-IDF(主题级别)
# 假设我们已经有主题标签:[0, 0, 1, 1, 2, 2]
# BERTopic 内部会合并同一主题的文档
# 得到矩阵形状: (3个主题 × 词汇表大小)
c-TF-IDF 的优势
- 主题导向:为整个主题选择最具代表性的词
- 去噪能力:自动降低常见词(如"的"、"是")和停用词的权重
- 可解释性:每个主题的关键词都是基于统计的,容易理解
- 效率高:只在主题级别计算,而非文档级别
自定义 c-TF-IDF 参数
python
from bertopic.vectorizers import ClassTfidfTransformer
# 配置选项
ctfidf_config = {
# BM25 参数
"bm25_weighting": True, # 使用 BM25(更好的长文档处理)
"k1": 1.2, # BM25 k1 参数(控制词频饱和度)
"b": 0.75, # BM25 b 参数(控制文档长度归一化)
# 传统 TF-IDF 参数
"reduce_frequent_words": True, # 降低过于频繁的词的权重
"diversity": None, # 可选:0-1,增加关键词多样性
}
ctfidf_model = ClassTfidfTransformer(**ctfidf_config)
# 或者在创建 BERTopic 时直接传递
topic_model = BERTopic(
ctfidf_model=ctfidf_model,
# ... 其他参数
)
可视化 c-TF-IDF 权重
python
import matplotlib.pyplot as plt
# 获取特定主题的关键词和权重
topic_num = 0
topic_words = topic_model.get_topic(topic_num)
# 提取词和权重
words = [word for word, score in topic_words[:10]]
scores = [score for word, score in topic_words[:10]]
# 绘制条形图
plt.figure(figsize=(10, 6))
plt.barh(words, scores)
plt.xlabel('c-TF-IDF 权重')
plt.title(f'主题 {topic_num} 的关键词权重')
plt.gca().invert_yaxis() # 最高权重在顶部
plt.show()
总结
c-TF-IDF 是 BERTopic 的"大脑",它:
- 将传统 TF-IDF 从文档级别 提升到主题级别
- 自动识别每个主题最具有区分度的关键词
- 配合嵌入模型,既考虑语义相似度,又考虑统计显著性
- 使得生成的主题标签既准确又可解释
这就是为什么 BERTopic 既能处理海量文档,又能生成高质量、易理解的主题!