【自然语言处理与大模型】BERTopic主题建模

小oo呆2025-11-19 10:38

一、BERTopic是什么

BERTopic 是一种先进的、模块化的主题建模方法，它融合预训练语言模型（如 BERT 或 Sentence-BERT）与传统统计技术（如 c-TF-IDF），目的是为了从大规模非结构化文本中自动提取语义丰富、可解释性强的主题。

BERTopic 的工作流程主要包含以下六个关键步骤：

使用预训练语言模型（如 `all-MiniLM-L6-v2` 或中文 BERT 模型）将每篇文档映射为高维语义向量。这些向量能够捕捉上下文信息，使语义相近的文档在向量空间中距离更近。

利用 UMAP（Uniform Manifold Approximation and Projection）算法将高维嵌入降至低维（通常为5维），以保留局部和全局结构，便于后续聚类。

采用 HDBSCAN（Hierarchical Density-Based Spatial Clustering of Applications with Noise）进行无监督聚类。该算法无需预设主题数量，能识别任意形状的簇，并有效处理噪声点（被标记为 Topic -1）

将每个聚类内的所有文档合并为一个"超级文档"，并使用 CountVectorizer 构建词频统计。

这是 BERTopic 的核心创新：将每个聚类视为一个"类文档"，计算词在类内频率（c-TF）与类间区分度（c-IDF），从而得出每个词对特定主题的代表性权重。

提取每个主题的 Top-N 关键词作为标签，并可选地通过 KeyBERT、LLM（如 GPT）、最大边际相关性（MMR）等方法优化主题连贯性与多样性。