NLP 笔记：Latent Dirichlet Allocation （介绍篇）

UQI-LIUWJ2024-03-27 11:34

1 问题介绍

假设我们有一堆新闻，每个新闻都有≥1个主题

我们现在只知道新闻的内容，我们希望一个算法，帮我们把这些新闻分类成主题
人类可以根据每个每个文章里面的单词判断主题，那计算机怎么做呢？
- ------>LDA(Latent Dirichlet Allocation)

2 方法介绍（生成文本角度）

LDA 创建一个"几何的"方法：假设我们有三个topic，他就创建一个三角，每个角是一个主题，然后将文件放进去，每个文件靠近他属于的那个角
- 如果一个文件包括两个主题，那么他在三角形的边上；如果一个文件三个主题都囊括了，那就在三角形的中间

那么问题是，如何知道文件应该放在哪里呢？

我们可以把LDA看成是一个生产文件的机器，不同的配置下，他会生成不同的文件

最好的setting，可以生成最接近于原始文件的内容，这个setting对应的主题，就是原始文件最有可能的主题

3方法介绍（概率图角度）

这个是LDA的概率图
- 根据两个多项分布，获得一堆主题和一堆文字
- 把单词连在一块就是文件

这就是生成文字W和主题Z的概率，后面四个是参数。'

我们先按下不表，首先介绍一下迪利克雷分布

4 迪利克雷分布

4.1 场景假设：一个聚会

假设有一个聚会，黄色点是人，人可以出现在三角的任何位置

现在在三个角上放了东西，人就往三个角移动了，这样就形成了迪利克雷分布

4.2 迪利克雷分布可视化

每个角的内容对应一个α

4.3 回到topic

此时每一个点是一个三维向量，表示分别是三个主题的一个的概率

4.4 概率的概率

换言之，迪利克雷分布是"分布的分布"
三角中的每一个点，就是一个多项分布

4.5 更多的topic时的迪利克雷分布

5 回到概率分布角度的LDA

这两个迪利克雷分布分别是：已知单词，问他是哪个topic；和已知topic，问他是哪个单词

5.1 LDA如何生成document

5.1.1 生成topic

采样迪利克雷分布得到一个点（每个topic的概率）
- ------>得到multinomial 分布
- 然后采样这个多项分布，生成topic

5.1.2 根据topic 生成对应的word

这时候就需要另一个迪利克雷分布了

每个topic对应了一个词汇分布（多项式分布）

把得到的词连起来，最终生成一个文件

5.2 找到最相似的article

最详细的article对应的两个迪利克雷分布，就是可能的topic对应的分布

5.3 总结

一个迪利克雷分布+多项式分布生成topic，另一个生成对应的单词

5.4 文件的长度

长度根据泊松分布采样

参考内容：Latent Dirichlet Allocation (Part 1 of 2) (youtube.com)

上一篇：智能体DS-Agent基于案例推理，让GPT-4数据科学任务接近100%

下一篇：langchain调用语言模型chatglm4从智谱AI

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03KGG转MP3工具|非KGM文件|解密音频 04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）07Claude Code VSCode集成开发指南：AI编程助手完整配置 08Spring 调试终于不再痛苦了 092025最新国内服务器可用docker源仓库地址大全（2025年8月更新）10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南