【自然语言处理与大模型】BERTopic主题建模

一、BERTopic是什么

BERTopic 是一种先进的、模块化的主题建模方法,它融合预训练语言模型(如 BERT 或 Sentence-BERT)与传统统计技术(如 c-TF-IDF),目的是为了从大规模非结构化文本中自动提取语义丰富、可解释性强的主题。

核心论文:2203.05794 BERTopic: Neural topic modeling with a class-based TF-IDF procedurehttps://arxiv.org/abs/2203.05794

开源项目地址:MaartenGr/BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics.https://github.com/MaartenGr/BERTopic

BERTopic库官方文档https://maartengr.github.io/BERTopic/index.html#quick-start

二、核心原理与关键步骤

BERTopic 的工作流程主要包含以下六个关键步骤:

(1)文本向量化(Embedding)

使用预训练语言模型(如 `all-MiniLM-L6-v2` 或中文 BERT 模型)将每篇文档映射为高维语义向量。这些向量能够捕捉上下文信息,使语义相近的文档在向量空间中距离更近。

(2)降维(Dimensionality Reduction)

利用 UMAP(Uniform Manifold Approximation and Projection)算法将高维嵌入降至低维(通常为5维),以保留局部和全局结构,便于后续聚类。

(3)聚类(Clustering)

采用 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)进行无监督聚类。该算法无需预设主题数量,能识别任意形状的簇,并有效处理噪声点(被标记为 Topic -1)

(4)词袋构建

将每个聚类内的所有文档合并为一个"超级文档",并使用 CountVectorizer 构建词频统计。

(5)关键词提取(c-TF-IDF)

这是 BERTopic 的核心创新:将每个聚类视为一个"类文档",计算词在类内频率(c-TF)与类间区分度(c-IDF),从而得出每个词对特定主题的代表性权重。

(6)主题生成(Topic)

提取每个主题的 Top-N 关键词作为标签,并可选地通过 KeyBERT、LLM(如 GPT)、最大边际相关性(MMR)等方法优化主题连贯性与多样性。

相关推荐
zhangshuang-peta5 小时前
MCP 如何重新定义 Skill:从“能力函数”变成“可治理行为”
人工智能·ai·ai agent·mcp·peta
yubo05095 小时前
计算机视觉第六课:打开摄像头,实时框出物体
人工智能·opencv·计算机视觉
FL16238631295 小时前
窗户干净脏污分类窗户清洁状态分类数据集3299张2类别已划分训练验证测试集
人工智能·分类·数据挖掘
阿里云大数据AI技术5 小时前
基于阿里云 DataWorks Data Agent 进行大模型热度分析
人工智能·agent·nvidia
碳基硅坊5 小时前
Qwen3.5-9B在安全生产安全帽检测中的应用
人工智能·安全·安全帽检测·qwen3.5-9b
云烟成雨TD5 小时前
Spring AI Alibaba 1.x 系列【66】Graph 长期记忆
java·人工智能·spring
春日见5 小时前
五分钟入门 强化学习---Q-Learning算法与实现
人工智能·python·深度学习·算法·机器学习·计算机视觉
卡次卡次15 小时前
vibecoding起步之Claude Code的skills是什么,里面有什么文件,以ppt的一个skills举例
人工智能·opencv·powerpoint
AI服务老曹5 小时前
解耦异构算力:基于 Docker 与 GB28181/RTSP 的边缘计算 AI 视频管理平台架构设计与源码交付实践
人工智能·docker·边缘计算
小饕5 小时前
RAG 实战:文本切块(Text Chunking)从入门到精通
人工智能