信息论(五):联合熵与条件熵

既然我们已经对熵有了很好的直觉理解,接下来就可以让联合概率和条件概率的概念同样自然易懂。

联合概率分布(Joint Probability Distribution):如果单个随机变量 X 的分布为 p(x),那么两个变量 X 和 Y 的联合分布为 p(x,y)。

直觉来说,将 X 和 Y 想象成发生在同一个世界中的两个事件:X = 明天的天气,Y = 你是否带伞。联合分布告诉你这两个事件同时发生的概率:

p(x, y) = Pr(X = x 且 Y = y)

想象一个网格(表格)

|--------|----------|----------|-----|
| | Y = y₁ | Y = y₂ | ... |
| X = x₁ | p(x₁,y₁) | p(x₁,y₂) | ... |
| X = x₂ | p(x₂,y₁) | p(x₂,y₂) | ... |
| ... | ... | ... | ... |

假如,网格中的每个单元格都是一个可能性像素,联合分布用概率权重来表示这些像素。

联合熵(Joint entropy)衡量事件对 (X, Y) 作为一个单一组合系统的不确定性。这是同时看到两者时意料之中的惊喜。

H(X, Y) = - \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log p(x, y)


条件概率分布(Conditional Probability Distribution)则聚焦于某一行。条件概率是指固定一个变量,然后观察另一个变量的不确定性时所得到的概率分布。

p(y | x) = Pr(Y = y,已知 X = x)

这意味着,如果我们已经知道 X = x,那么 Y 的分布是什么?

在上面的表格中,选择一行(例如 X = x₁)。现在,缩小该行,使其所有概率之和为 1,该行变为条件分布:p(Y|X=x₁)。这就像,联合分布是整个地图;条件化是放大到某个区域;重归一化是调整亮度,使放大后的世界更合理。

条件熵(Conditional entropy)是 H(Y|X) = 如果你已经知道 X,那么你对 Y 的剩余不确定性,它是放大地图每一行后 Y 的平均意外值。

其中

H(Y|X = x) = - \sum_{y \in \mathcal{Y}} p(y|x) \log p(y|x)

联合熵来自联合概率分布,而条件熵来自条件概率分布,熵始终是"预期的意外"。并且,联合分布决定了同时看到 (X, Y) 的意外程度;条件分布决定了在已知 X 的情况下看到 Y 的意外程度;边缘分布(p(x) 或 p(y))决定了单个变量的意外程度。熵的每一面都反映出同一概率结构的不同视角。

相关推荐
配奇11 小时前
transformers迁移学习
人工智能·机器学习·迁移学习
码农小旋风11 小时前
Codex 直接住进 JetBrains IDE 里:AI Agent 正在接管熟悉的开发入口
ide·人工智能
ʜᴇɴʀʏ11 小时前
AAAI 2025 | DiffCorr:基于可靠伪标签引导的无监督点云形状对应
人工智能·目标检测·计算机视觉
黎阳之光11 小时前
智慧水利堤坝监测:全域实景技术实现河流、水库隐患预警
大数据·人工智能·物联网·安全·数字孪生
云边云科技_云网融合11 小时前
大模型聚合时代:云边云科技 AI 网关轻量化赋能企业落地
大数据·运维·网络·人工智能
love530love11 小时前
ComfyUI:为什么说它是 AIGC 应用层面的集大成者?
人工智能·pytorch·windows·aigc·devops·comfyui·extensions
NashSKY11 小时前
关于支持向量机(SVM)的数学原理、参数拟合、嵌入式部署的完整指南
c++·python·机器学习·支持向量机
程序员柒叔11 小时前
OpenCode 一周动态-2026-W20
人工智能·github·copilot·agent·opencode
wuxinyan12311 小时前
工业级大模型学习之路013:RAG零基础入门教程(第九篇):RAG幻觉治理
人工智能·学习·rag
XD74297163611 小时前
科技晚报|2026年5月17日:AI 开始进入国家与企业制度层
人工智能·科技·企业数字化·科技晚报