NLP 笔记:Latent Dirichlet Allocation (介绍篇)

1 问题介绍

  • 假设我们有一堆新闻,每个新闻都有≥1个主题
  • 我们现在只知道新闻的内容,我们希望一个算法,帮我们把这些新闻分类成主题
  • 人类可以根据每个每个文章里面的单词判断主题,那计算机怎么做呢?
    • ------>LDA(Latent Dirichlet Allocation)

2 方法介绍 (生成文本角度)

  • LDA 创建一个"几何的"方法:假设我们有三个topic,他就创建一个三角,每个角是一个主题,然后将文件放进去,每个文件靠近他属于的那个角
    • 如果一个文件包括两个主题,那么他在三角形的边上;如果一个文件三个主题都囊括了,那就在三角形的中间

那么问题是,如何知道文件应该放在哪里呢?

我们可以把LDA看成是一个生产文件的机器,不同的配置下,他会生成不同的文件

  • 最好的setting,可以生成最接近于原始文件的内容,这个setting对应的主题,就是原始文件最有可能的主题

3方法介绍 (概率图角度)

  • 这个是LDA的概率图
    • 根据两个多项分布,获得一堆主题和一堆文字
    • 把单词连在一块就是文件

这就是生成文字W和主题Z的概率,后面四个是参数。'

我们先按下不表,首先介绍一下迪利克雷分布

4 迪利克雷分布

4.1 场景假设:一个聚会

假设有一个聚会,黄色点是人,人可以出现在三角的任何位置

  • 现在在三个角上放了东西,人就往三个角移动了,这样就形成了迪利克雷分布

4.2 迪利克雷分布可视化

每个角的内容对应一个α

4.3 回到topic

此时每一个点是一个三维向量,表示分别是三个主题的一个的概率

4.4 概率的概率

  • 换言之,迪利克雷分布是"分布的分布"
  • 三角中的每一个点,就是一个多项分布

4.5 更多的topic时的迪利克雷分布

5 回到概率分布角度的LDA

这两个迪利克雷分布分别是:已知单词,问他是哪个topic;和已知topic,问他是哪个单词

5.1 LDA如何生成document

5.1.1 生成topic

  • 采样迪利克雷分布得到一个点(每个topic的概率)
    • ------>得到multinomial 分布
    • 然后采样这个多项分布,生成topic

5.1.2 根据topic 生成对应的word

这时候就需要另一个迪利克雷分布了

  • 每个topic对应了一个词汇分布(多项式分布)

把得到的词连起来,最终生成一个文件

5.2 找到最相似的article

最详细的article对应的两个迪利克雷分布,就是可能的topic对应的分布

5.3 总结

一个迪利克雷分布+多项式分布生成topic,另一个生成对应的单词

5.4 文件的长度

长度根据泊松分布采样

参考内容:Latent Dirichlet Allocation (Part 1 of 2) (youtube.com)

相关推荐
xiaocao_102342 分钟前
手机备忘录:安全存储与管理个人笔记的理想选择
笔记·安全·智能手机
索然无味io1 小时前
XML外部实体注入--漏洞利用
xml·前端·笔记·学习·web安全·网络安全·php
王磊鑫1 小时前
Java入门笔记(1)
java·开发语言·笔记
安冬的码畜日常2 小时前
【Vim Masterclass 笔记22】S09L40 + L41:同步练习11:Vim 的配置与 vimrc 文件的相关操作(含点评课内容)
笔记·vim·vim配置·vim同步练习·vim options·vim option-list
追Star仙3 小时前
基于Qt中的QAxObject实现指定表格合并数据进行word表格的合并
开发语言·笔记·qt·word
安冬的码畜日常4 小时前
【Vim Masterclass 笔记24】S10L43 + L44:同步练习10 —— 基于 Vim 缓冲区的各类基础操作练习(含点评课)
笔记·vim·自学笔记·vim同步练习·vim缓冲区·vim buffer·vim缓冲区练习
一只码代码的章鱼4 小时前
粒子群算法 笔记 数学建模
笔记·算法·数学建模·逻辑回归
圆圆滚滚小企鹅。4 小时前
刷题笔记 贪心算法-1 贪心算法理论基础
笔记·算法·leetcode·贪心算法
杨过姑父4 小时前
ES6 简单练习笔记--变量申明
前端·笔记·es6
l1x1n04 小时前
No.37 笔记 | Python面向对象编程学习笔记:探索代码世界的奇妙之旅
笔记·python·学习