频率分布直方图

频率分布直方图其实是对一个变量的分布密度(分布)函数进行近似估计的一个手段。

考察概率密度函数与直方图的x、y轴可以得知,密度(分布)函数图像的x轴代表的是随机变量的取值,而对于离散随机变量而言,y轴代表的是对应x取值出现的概率;对于连续随机变量而言,y轴代表的是对应x取值针对其他取值的相对可能性。

直方图x轴代表的是样本的取值,而y轴则代表了x在区间取值的频率,两者之间的关系就可以体现出频率分布的状况。

1. histogram
np.histogram可以用来计算一位数组的直方图数据。

可以用可选参数k来定义直方图的箱体数。如果k省略不写,则默认k=10
histogram返回两个值,第一个值是k维的向量,包含了每个箱体中的样本数量;第二个值是k+1个标识箱体的端点值。

如果我们直接调用matplotlib来画图,则可以得出如下图所示的可视化图像。

上述二维数组当中,第一维数组是在描述histogram的纵轴,即每个bin对应的数据个数,而第二维数组是在描述横轴,代表随机变量的取值。

2. histogram2d
histogram2d(x,y)可用于计算2维的直方图数据。可以用可选参数bins来定义直方图的箱体数。bins既可以是一个整数,也可以是一个包含两个元素的列表,分别表示各维度的箱体数。

如果我们直接调用matplotlib来画图,则可以得出如下图所示的可视化图像。

如何解读画出来的图片​?

首先我们看一下生成的histogram三维数组,数组的第一维其实是一个矩阵,代表了立体图对应于x、y坐标的第三维坐标z值的大小,对应到图像上面便是颜色的深浅代表了该处z值的大小,也就代表了x、y在该点附近的分布密集程度。

我们可以将数据量扩大来看一下画出来的图像可能是什么样的。