神经网络之PPMI矩阵

🧩 一、问题回顾:为什么要用 PPMI?

共现矩阵 中,我们统计了词与词共同出现的次数。

但**"次数"并不能直接反映语义关联强度**:

  • 高频词(如"的""是""一个")会出现在几乎所有上下文里 → 共现次数大,但语义关联弱。
  • 低频但特定搭配的词(如"苹果--吃")共现次数少,但语义关联强。

👉 所以,我们需要一种度量能体现**"某两个词的共现是偶然还是有意义"**。

这就引出了 PMI(Pointwise Mutual Information)


🧮 二、PMI 的定义

PMI 衡量两个事件(这里是两个词)之间的关联程度

PMI(wi,wj)=log⁡P(wi,wj)P(wi),P(wj) PMI(w_i, w_j) = \log \frac{P(w_i, w_j)}{P(w_i) , P(w_j)} PMI(wi,wj)=logP(wi),P(wj)P(wi,wj)

含义:

  • 如果两个词独立出现,则 (P(wi,wj)=P(wi)P(wj))( P(w_i, w_j) = P(w_i) P(w_j) )(P(wi,wj)=P(wi)P(wj)),PMI = 0
  • 如果它们比独立出现更频繁地一起出现 → PMI > 0
  • 如果它们几乎从不一起出现 → PMI < 0

🧠 举例

假设语料统计结果如下:

词对 共现次数 PMI 含义
(吃, 苹果) 很多 PMI 高(语义相关)
(吃, 书) 几乎没有 PMI 低(语义不相关)
(的, 苹果) 次数大但普遍 PMI≈0(无特异语义)

⚙️ 三、PMI 的计算公式(基于计数矩阵)

设:

  • (C(wi,wj)):词(wi)与(wj)( C(w_i, w_j) ):词 (w_i) 与 (w_j)(C(wi,wj)):词(wi)与(wj) 的共现次数
  • (C(wi)=∑jC(wi,wj))( C(w_i) = \sum_j C(w_i, w_j) )(C(wi)=∑jC(wi,wj)):词 (w_i) 的总出现次数
  • (N=∑i,jC(wi,wj))( N = \sum_{i,j} C(w_i, w_j) )(N=∑i,jC(wi,wj)):所有共现对的总次数

则:
P(wi,wj)=C(wi,wj)N,P(wi)=C(wi)N,P(wj)=C(wj)N P(w_i, w_j) = \frac{C(w_i, w_j)}{N} \quad , \quad P(w_i) = \frac{C(w_i)}{N} \quad , \quad P(w_j) = \frac{C(w_j)}{N} P(wi,wj)=NC(wi,wj),P(wi)=NC(wi),P(wj)=NC(wj)

代入:
PMI(wi,wj)=log⁡C(wi,wj)⋅NC(wi)⋅C(wj) PMI(w_i, w_j) = \log \frac{C(w_i, w_j) \cdot N}{C(w_i) \cdot C(w_j)} PMI(wi,wj)=logC(wi)⋅C(wj)C(wi,wj)⋅N


💡 四、PPMI(正点互信息)

问题:PMI 可能为负(当两个词比随机还少共现)。

负值往往无意义且影响向量分析,于是只保留正值:

PPMI(wi,wj)=max⁡(PMI(wi,wj),0) PPMI(w_i, w_j) = \max(PMI(w_i, w_j), 0) PPMI(wi,wj)=max(PMI(wi,wj),0)

即:

只保留"比随机更相关"的词对


🧱 五、从共现矩阵 → PPMI 矩阵

假设有一个简单语料:

复制代码
我 爱 吃 苹果 和 香蕉

窗口大小 = 1

共现矩阵(示意):

目标\上下文 苹果 香蕉
0 1 0 0 0 0
1 0 1 0 0 0
0 1 0 1 0 0
苹果 0 0 1 0 1 0
0 0 0 1 0 1
香蕉 0 0 0 0 1 0

我们可依次计算:
PPMI(wi,wj)=max⁡(log⁡C(wi,wj)⋅NC(wi)C(wj),0) PPMI(w_i, w_j) = \max\left( \log \frac{C(w_i, w_j) \cdot N}{C(w_i)C(w_j)}, 0 \right) PPMI(wi,wj)=max(logC(wi)C(wj)C(wi,wj)⋅N,0)

得到一个实数矩阵(多数值为 0,少数高关联词如 "吃--苹果" 会有较高的正值)。


🧮 六、PPMI 矩阵的特点

特点 说明
去除了频率偏差 高频功能词不再主导矩阵
凸显语义关系 "吃--苹果""狗--汪汪"等搭配得到高权重
稀疏但信息集中 仅保留真正相关的词对
可进一步降维 用 SVD → 得到低维稠密语义向量(LSA、GloVe)

🧠 七、直觉理解

想象二维空间:

共现情况 概率 PMI/PPMI 含义
"苹果--吃" 经常一起 高于独立预期 PPMI↑,语义相关
"苹果--跑" 几乎无共现 低于独立预期 PPMI=0
"的--苹果" 经常出现但无特异性 接近独立 PPMI≈0

因此,PPMI矩阵是共现矩阵的"语义放大版"


✅ 八、总结对比

项目 共现矩阵 PPMI矩阵
元素含义 共现次数 语义关联强度(信息量)
值域 0 ~ ∞(整数) 0 ~ 实数(通常 <10)
高频词 权重大 权重小(被修正)
语义性
后续可操作性 可直接降维(SVD) 常作为 GloVe 的输入
相关推荐
Pocker_Spades_A8 小时前
论文精读(七):结合大语言模型和领域知识库的证券规则规约方法
人工智能·知识图谱
云茧8 小时前
【数学基础(二)】向量、矩阵、行列式与线性变换
线性代数·矩阵
鲸鱼在dn8 小时前
打造推理模型的4种方法——李宏毅2025大模型课程第7讲
人工智能
盼哥PyAI实验室8 小时前
用 Trae AI 编程打造我的个人成长空间:旅行、相册、我的信息模块全上线!
人工智能·ai·ai编程
羊羊小栈8 小时前
基于YOLO+多模态大模型+人脸识别+视频检索的智慧公安综合研判平台(vue+flask+AI算法)
vue.js·人工智能·yolo·flask·毕业设计·音视频·大作业
桂花饼8 小时前
Sora 2 引爆后,AI 视频赛道正进入「超级加速」
人工智能
IT古董8 小时前
【第七章:时间序列模型】2.时间序列统计模型与神经网络模型-(2)适用广泛的时间序列模型:Arima模型
人工智能·深度学习·神经网络
IT_陈寒8 小时前
Spring Boot 3.2性能翻倍!我仅用5个技巧就让接口响应时间从200ms降到50ms
前端·人工智能·后端
iNBC9 小时前
AI基础概念-第一部分:核心名词与定义(一)
人工智能·语言模型·prompt