神经网络之PPMI矩阵

🧩 一、问题回顾:为什么要用 PPMI?

共现矩阵 中,我们统计了词与词共同出现的次数。

但**"次数"并不能直接反映语义关联强度**:

  • 高频词(如"的""是""一个")会出现在几乎所有上下文里 → 共现次数大,但语义关联弱。
  • 低频但特定搭配的词(如"苹果--吃")共现次数少,但语义关联强。

👉 所以,我们需要一种度量能体现**"某两个词的共现是偶然还是有意义"**。

这就引出了 PMI(Pointwise Mutual Information)


🧮 二、PMI 的定义

PMI 衡量两个事件(这里是两个词)之间的关联程度

PMI(wi,wj)=log⁡P(wi,wj)P(wi),P(wj) PMI(w_i, w_j) = \log \frac{P(w_i, w_j)}{P(w_i) , P(w_j)} PMI(wi,wj)=logP(wi),P(wj)P(wi,wj)

含义:

  • 如果两个词独立出现,则 (P(wi,wj)=P(wi)P(wj))( P(w_i, w_j) = P(w_i) P(w_j) )(P(wi,wj)=P(wi)P(wj)),PMI = 0
  • 如果它们比独立出现更频繁地一起出现 → PMI > 0
  • 如果它们几乎从不一起出现 → PMI < 0

🧠 举例

假设语料统计结果如下:

词对 共现次数 PMI 含义
(吃, 苹果) 很多 PMI 高(语义相关)
(吃, 书) 几乎没有 PMI 低(语义不相关)
(的, 苹果) 次数大但普遍 PMI≈0(无特异语义)

⚙️ 三、PMI 的计算公式(基于计数矩阵)

设:

  • (C(wi,wj)):词(wi)与(wj)( C(w_i, w_j) ):词 (w_i) 与 (w_j)(C(wi,wj)):词(wi)与(wj) 的共现次数
  • (C(wi)=∑jC(wi,wj))( C(w_i) = \sum_j C(w_i, w_j) )(C(wi)=∑jC(wi,wj)):词 (w_i) 的总出现次数
  • (N=∑i,jC(wi,wj))( N = \sum_{i,j} C(w_i, w_j) )(N=∑i,jC(wi,wj)):所有共现对的总次数

则:
P(wi,wj)=C(wi,wj)N,P(wi)=C(wi)N,P(wj)=C(wj)N P(w_i, w_j) = \frac{C(w_i, w_j)}{N} \quad , \quad P(w_i) = \frac{C(w_i)}{N} \quad , \quad P(w_j) = \frac{C(w_j)}{N} P(wi,wj)=NC(wi,wj),P(wi)=NC(wi),P(wj)=NC(wj)

代入:
PMI(wi,wj)=log⁡C(wi,wj)⋅NC(wi)⋅C(wj) PMI(w_i, w_j) = \log \frac{C(w_i, w_j) \cdot N}{C(w_i) \cdot C(w_j)} PMI(wi,wj)=logC(wi)⋅C(wj)C(wi,wj)⋅N


💡 四、PPMI(正点互信息)

问题:PMI 可能为负(当两个词比随机还少共现)。

负值往往无意义且影响向量分析,于是只保留正值:

PPMI(wi,wj)=max⁡(PMI(wi,wj),0) PPMI(w_i, w_j) = \max(PMI(w_i, w_j), 0) PPMI(wi,wj)=max(PMI(wi,wj),0)

即:

只保留"比随机更相关"的词对


🧱 五、从共现矩阵 → PPMI 矩阵

假设有一个简单语料:

复制代码
我 爱 吃 苹果 和 香蕉

窗口大小 = 1

共现矩阵(示意):

目标\上下文 苹果 香蕉
0 1 0 0 0 0
1 0 1 0 0 0
0 1 0 1 0 0
苹果 0 0 1 0 1 0
0 0 0 1 0 1
香蕉 0 0 0 0 1 0

我们可依次计算:
PPMI(wi,wj)=max⁡(log⁡C(wi,wj)⋅NC(wi)C(wj),0) PPMI(w_i, w_j) = \max\left( \log \frac{C(w_i, w_j) \cdot N}{C(w_i)C(w_j)}, 0 \right) PPMI(wi,wj)=max(logC(wi)C(wj)C(wi,wj)⋅N,0)

得到一个实数矩阵(多数值为 0,少数高关联词如 "吃--苹果" 会有较高的正值)。


🧮 六、PPMI 矩阵的特点

特点 说明
去除了频率偏差 高频功能词不再主导矩阵
凸显语义关系 "吃--苹果""狗--汪汪"等搭配得到高权重
稀疏但信息集中 仅保留真正相关的词对
可进一步降维 用 SVD → 得到低维稠密语义向量(LSA、GloVe)

🧠 七、直觉理解

想象二维空间:

共现情况 概率 PMI/PPMI 含义
"苹果--吃" 经常一起 高于独立预期 PPMI↑,语义相关
"苹果--跑" 几乎无共现 低于独立预期 PPMI=0
"的--苹果" 经常出现但无特异性 接近独立 PPMI≈0

因此,PPMI矩阵是共现矩阵的"语义放大版"


✅ 八、总结对比

项目 共现矩阵 PPMI矩阵
元素含义 共现次数 语义关联强度(信息量)
值域 0 ~ ∞(整数) 0 ~ 实数(通常 <10)
高频词 权重大 权重小(被修正)
语义性
后续可操作性 可直接降维(SVD) 常作为 GloVe 的输入
相关推荐
GISer_Jing2 分钟前
前端组件库——shadcn/ui:轻量、自由、可拥有,解锁前端组件库的AI时代未来
前端·人工智能·ui
码农三叔4 分钟前
破解自动驾驶感知决策难题:智能导航技术与实战指南
人工智能·机器学习·自动驾驶
Awu12275 分钟前
每天一个 Agent Skills:Context7 — 让 AI 永远写出最新的代码
人工智能·aigc·ai编程
机器白学11 分钟前
OpenClaw使用前置准备:Ollama+OpenwebUI本地部署/API调用大模型
人工智能·大语言模型
Blurpath住宅代理12 分钟前
AI代理配置实战指南:构建高可用、低风险的网络出口层
人工智能·ai·自动化·静态ip·动态代理·住宅ip·住宅代理
心无旁骛~17 分钟前
【Claude Code开发】AI记账助手(miaozhang)微信小程序开发与部署完整指南
人工智能·微信小程序·notepad++
桜吹雪29 分钟前
在前端运行Qwen3.5原生多模态模型
前端·人工智能·机器学习
nix.gnehc29 分钟前
AI时代的三重镜像:技术平权、数字祭道、认知外包
人工智能
星空下的月光影子31 分钟前
贝叶斯优化加速工业AI模型超参数调优
人工智能
东莞呵呵33 分钟前
从Linear到MLP AI模型的数学本质
人工智能·深度学习·机器学习