（六）机器学习 - 正态数据分布

正态数据分布，也称为高斯分布（Gaussian distribution），是一种在统计学中非常重要的概率分布。它描述了自然和社会科学中许多现象的分布情况，如人的身高、体重、智商等。正态分布的图形特征是中间高、两边低，呈对称的钟形曲线，因此也被称为钟形曲线（bell curve）。

正态分布的数学表达式为：

其中，μμ 是分布的均值（mean），σσ 是分布的标准差（standard deviation），σ2σ2 是分布的方差（variance）。

正态分布具有以下特征：

对称性：正态分布的图形关于均值 μμ 对称，即分布的左侧和右侧是镜像的。
均值、中位数和众数相等：在正态分布中，均值、中位数（median）和众数（mode）是相同的，都等于 μμ。
标准差决定分布的宽度：标准差 σσ 决定了分布的宽度。标准差越大，分布越分散；标准差越小，分布越集中。
总面积为1：正态分布曲线下的总面积为1，表示所有可能结果的概率之和为1。
68-95-99.7规则：在正态分布中，约68%的数据点落在均值的一个标准差范围内（μ±σμ±σ），约95%的数据点落在均值的两个标准差范围内（μ±2σμ±2σ），约99.7%的数据点落在均值的三个标准差范围内（μ±3σμ±3σ）。

使用Python 创建一组正态数据分布：

python 复制代码

import numpy
import matplotlib.pyplot as plt

x = numpy.random.normal(5.0, 1.0, 100000)

plt.hist(x, 100)
plt.show()

结果：

我们使用 numpy.random.normal() 方法创建的数组（具有 100000 个值）绘制具有 100 栏的直方图。

我们指定平均值为 5.0，标准差为 1.0。

这意味着这些值应集中在 5.0 左右，并且很少与平均值偏离 1.0。

从直方图中可以看到，大多数值都在 4.0 到 6.0 之间，最高值大约是 5.0。

正态分布的这些特征使得它在统计分析中具有广泛的应用，如假设检验、置信区间的计算、回归分析等。在实际应用中，如果数据的分布接近正态分布，我们可以使用正态分布的性质来对数据进行分析和解释。

END.