nlp文本主题提取算法总结

  1. BERTopic:

    • 简介: 基于预训练的语言模型BERT(Bidirectional Encoder Representations from Transformers)的主题模型,通过将文档嵌入到BERT空间中并进行聚类,实现主题提取。
    • 作者: 出自Cherubin等人的研究(2021)。
  2. BigARTM (Big Additive Regularization Topic Model):

    • 简介: BigARTM是一种多模态、多目标的主题模型,可以处理大规模文本集合,并且允许用户通过添加正则化项来引导主题模型学习特定的模式。
    • 作者: 出自"BigARTM: Open-Source Library for Regularized Multimodal and Multilingual Topic Modeling"(2015)。
  3. LDA2Vec:

    • 简介: LDA2Vec是一种将词向量和主题模型(Latent Dirichlet Allocation, LDA)结合的方法,通过将LDA中的主题表示嵌入到词嵌入空间中,实现更好的语义建模。
    • 作者: 出自"Dynamic Topic Models for Tracking Research Communities over Time"(2016)。
  4. ETM (Embedding Topic Model):

    • 简介: ETM是一种将主题嵌入到连续空间的模型,通过学习主题嵌入向量,将文档嵌入到主题空间中,以获得更丰富的语义表示。
    • 作者: 出自"A Neural Probabilistic Topic Model"(2019)。
  5. Biterm Topic Model (BTM):

    • 简介: BTM是一种基于二项分布的主题模型,通过对文档中的词对(biterms)进行建模,实现了在大规模文本集上高效的主题建模。
    • 作者: 出自"Modeling Bimodal Texts with the Biterm Topic Model"(2014)。
相关推荐
云边云科技_云网融合13 小时前
零信任安全:数字化时代的企业防护新范式
人工智能·安全·ai
万岳科技系统开发13 小时前
外卖跑腿配送系统如何借助AI提升配送效率?
大数据·人工智能·机器学习
thinking_talk14 小时前
腾讯云AI Agent安全中心综合评测
人工智能·安全·腾讯云
阿拉雷️14 小时前
Prompt工程设计实践:从基础模板到场景化策略
人工智能·语言模型·prompt
Kel14 小时前
MCP 传输链路全链路拆解:从字节流到协议栈的四层架构之旅
人工智能·设计模式·架构
魏祖潇14 小时前
DDD 完整指南——AI 时代工程师的第一道秩序分水岭
人工智能·后端
Mark08020314 小时前
散户做信息整理和研究记录时,不同AI工具更适合哪些环节
大数据·人工智能
L3S14 小时前
Agent为什么会死循环?
人工智能·agent
Z-D-K14 小时前
考验AI的“自我“-AI对《红楼梦》后40回的改写(32)
人工智能·ai·aigc·交互·agi
触底反弹14 小时前
AI Tool Use 深度解析:大模型是如何"突破物理限制"调用外部工具的?
javascript·人工智能·后端