从零手写神经网络，用 Python 跑通第一个多层感知器

拆解黑盒：用 Python 手写一个多层感知器

很多人调用深度学习框架时，模型就像一个黑盒：数据进去，预测出来，中间发生了什么却知之甚少。要真正理解神经网络，最好的办法就是抛开高级 API，只用 Python 和 NumPy 从零构建一个多层感知器（MLP）。我们将以经典的心脏病数据集为例，手动实现前向传播、激活函数、反向传播以及梯度下降的全过程，让你看清网络是如何通过调整权重来"学会"预测的。

搭建网络骨架：层与节点的连接

神经网络的核心结构模仿了人脑神经元的工作方式。一个典型的多层感知器由输入层、一个或多个隐藏层以及输出层组成。在我们的例子中，假设输入特征为年龄、胆固醇水平等指标，输入层的节点数就对应这些特征的维度。

数据在网络中的流动始于线性变换。对于每一个节点，我们需要计算输入向量与权重矩阵的点积，再加上偏置项。如果用代码描述，第一层的计算逻辑大致如下：

python 复制代码

def linear_forward(X, W, b):
    # X: 输入数据，W: 权重矩阵，b: 偏置向量
    Z = np.dot(X, W) + b
    return Z

这里的 Z 是线性变换的结果，但它还不能直接作为下一层的输入，因为纯粹的线性叠加无法拟合复杂的非线性关系。这就引入了激活函数 的作用。在隐藏层中，我们通常使用 ReLU (Rectified Linear Unit) 函数，它的规则很简单：如果输入大于 0，输出保持不变；否则输出为 0。这种机制不仅引入了非线性，还有效缓解了梯度消失问题。

python 复制代码

def relu(Z):
    return np.maximum(0, Z)

当数据流经所有隐藏层后，最终到达输出层。由于我们要解决的是心脏病预测的二分类问题（患病或未患病），输出层需要产生一个介于 0 和 1 之间的概率值。这时，Sigmoid 函数是最佳选择，它将任意实数映射到 (0, 1) 区间：

python 复制代码

def sigmoid(Z):
    return 1 / (1 + np.exp(-Z))

通过组合这些组件，我们就完成了前向传播 ：输入数据经过层层线性变换与非线性激活，最终生成预测结果 y_hat。

核心推导：反向传播与梯度下降

前向传播只是完成了预测，网络如何知道预测得准不准？又如何调整自己变得更强？这依赖于反向传播 算法。首先，我们需要定义一个损失函数来衡量误差。对于二分类问题，二元交叉熵（Binary Cross-Entropy）是最常用的指标：

L = -\[y \\log(\\hat{y}) + (1-y) \\log(1-\\hat{y})\]

其中 $y$ 是真实标签， $\\hat{y}$ 是模型预测的概率。我们的目标是最小化这个损失值。

为了减小损失，我们需要知道每个权重和偏置对总误差的贡献程度，这在数学上表现为梯度（导数）。利用微积分中的链式法则，我们可以从输出层开始，逐层向前推算梯度。

假设输出层的权重为 $W_{out}$ ，我们需要计算 $\\frac{\\partial L}{\\partial W_{out}}$ 。根据链式法则，这可以拆解为：

损失对 Sigmoid 输出的导数。
Sigmoid 输出对其输入 $Z$ 的导数（Sigmoid 有一个优美的性质： $\\sigma'(z) = \\sigma(z)(1-\\sigma(z))$ ）。
输入 $Z$ 对权重 $W$ 的导数（即上一层的激活值）。

将这三者相乘，我们就得到了权重的梯度。同理，我们可以一直推导回第一层隐藏层的权重。得到梯度后，利用梯度下降法更新参数：

python 复制代码

# learning_rate 是学习率，控制每次更新的步长
W = W - learning_rate * dW
b = b - learning_rate * db

这个过程会迭代数千次。每一次迭代，权重都会沿着梯度的反方向微调一点点，使得损失函数的值逐渐降低，直到收敛到一个最小值。这就是神经网络"学习"的本质：通过不断试错和修正，找到一组最优的权重配置。

从随机猜测到精准预测

在训练开始前，网络中的权重通常是随机初始化的。此时，模型对心脏病数据的预测几乎等同于抛硬币，损失值很高。但随着反向传播的不断执行，我们可以观察到损失曲线稳步下降。

对比训练前后的模型性能，差异是显著的。未训练的模型在测试集上的准确率可能仅在 50% 左右徘徊，而经过充分训练的网络能够捕捉到特征之间复杂的非线性关联，准确率大幅提升。更重要的是，通过亲手编写每一行代码，你不再只是调包的用户，而是真正理解了数据如何在节点间流动，误差如何转化为修正信号，以及一个简单的数学迭代过程如何涌现出智能行为。这种底层视角的掌握，是后续探索更复杂深度学习架构的坚实基石。