机器学习——互信息（超详细）

在机器学习中，Mutual Information（互信息） 是一种用于衡量两个变量之间相关性或依赖性 的统计量。它描述了一个变量中包含了多少关于另一个变量的信息 ，广泛用于特征选择、信息增益计算等任务。

一、互信息的定义

互信息（Mutual Information, MI）基于信息论，衡量随机变量和的信息共享程度：

其中：

：联合概率分布

：X的边缘分布

：Y的边缘分布

直观解释：

当和完全独立时，，此时

当能完全决定时，互信息越大

二、直观理解

互信息衡量"减少不确定性" ：知道的值后，能减少多少对的不确定性？

它可以看作是熵（Entropy）的差值：

其中：

：的熵（不确定性）：

：已知后的条件熵（剩余不确定性）：

如果对提供了很多信息，则条件熵会降低，互信息值就大。通俗来讲的话：就是发生的概率减去在已知发生时发生的概率。

利用韦恩图表示为：

三、特征选择中的应用

在机器学习中，互信息常用于衡量特征与目标变量之间的关联度，尤其适合非线性关系。

示例：

假设要预测患者是否患病（: 0/1），并有以下特征：

年龄（）
血压（）
邮编（）

我们可以计算：

如果，说明邮编与疾病无关，可以舍弃。

如果和较大，则应保留。

四、与相关系数的区别

相关系数 （如皮尔逊相关）：只衡量线性关系。

互信息 ：能捕捉任意关系（包括非线性），更通用。

例如：

的情况下，皮尔逊相关系数 ≈ 0（因为非线性），但互信息（存在强关系）。

五、在Python中计算互信息

Scikit-learn 提供了互信息计算工具：

python 复制代码

from sklearn.feature_selection import mutual_info_classif, mutual_info_regression
import pandas as pd
from sklearn.datasets import load_iris

# 以鸢尾花数据为例
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# 分类问题使用 mutual_info_classif
mi_scores = mutual_info_classif(X, y)
print("互信息分数：", mi_scores)

输出的分数越高，说明该特征与目标变量关系越强。