从感知器到BP神经网络：深度学习入门核心笔记

最近整理了深度学习入门课程的笔记，从最基础的神经网络概念，到反向传播算法的完整流程，把这些核心知识点串联起来，希望能帮像我一样的初学者快速上手，真正打通从理论到实践的认知链路。

一、深度学习的位置：AI技术栈的金字塔尖

人工智能是一个非常宽泛的领域，机器学习是其中的一个分支，而深度学习又是机器学习的一个子集。它的核心是基于人工神经网络，通过模拟人脑神经元的连接方式来学习数据中的特征。

简单来说，深度学习的特点就是"多层"和"反向传播"：

二、神经网络的基本单元：感知器

感知器是最简单的神经网络，只有两层神经元，它的作用是做线性划分。

它的计算逻辑很直接：

用矩阵乘法来表示就是：

g(V \times x) = z

这里的 g 就是激活函数，比如Sigmoid，它能把线性输出映射到0-1之间，让模型可以处理非线性问题。

感知器的局限性也很明显：它只能处理线性可分的数据。如果数据分布像异或（XOR）问题那样无法用一条直线分开，感知器就会失效。这也直接催生了更复杂的多层神经网络。

三、防止过拟合：正则化惩罚

训练模型时，我们可能会遇到一个问题：模型在训练数据上表现很好，但在新数据上却很差，这就是过拟合。

什么是过拟合？

举个例子：输入是 [1,1,1,1] ，如果权重是 [1,0,0,0] ，模型只关注第一个特征，很容易在新数据上失效；而如果权重是 [0.25,0.25,0.25,0.25] ，模型会学习所有特征，泛化能力更强。

过拟合的本质是模型"记住"了训练数据的噪声，而不是学到了通用规律。这时候就需要正则化来约束模型的复杂度。

正则化的作用

正则化的核心思想就是惩罚过大的权重参数，让模型更偏向选择分布均匀的权重，从而避免过拟合。常见的有两种：

在实际应用中，L2正则化更常用，因为它的数学性质更稳定，而L1正则化适合需要做特征筛选的场景。

四、优化模型：梯度下降

有了损失函数和正则化，我们还需要找到最小化损失的方法，这就是梯度下降。

核心概念

偏导数：在多变量函数中，固定其他变量，只对一个变量求导。比如函数 f(w0, w1) = w0x1 * w1x2 ，对 w1 的偏导数就是 w0x1x2 。偏导数告诉我们，在当前点上，调整这个变量会让函数值怎么变。
梯度：是函数所有偏导数构成的向量，它的方向是函数值增长最快的方向。反过来，梯度的反方向就是函数值下降最快的方向。
梯度下降法：我们沿着梯度的反方向一步步走，就能找到函数的局部最小值。这里的"步长"就是学习率，它决定了每一步走多大，太小会很慢，太大又可能错过最小值。

常见的梯度下降变体

五、让网络"学会"：BP神经网络

BP（Back Propagation，反向传播）是训练深度学习模型的核心算法，它的过程就像一个"试错-修正"的循环：

BP算法的发明是深度学习发展的里程碑，它让多层神经网络的训练成为可能，也为后来的CNN、RNN等复杂模型奠定了基础。

写在最后

从感知器到BP神经网络，这一路的知识点其实是层层递进的。理解了这些基础，再去看更复杂的CNN、RNN等模型，就会轻松很多。深度学习不是黑魔法，它的每一步都有清晰的数学逻辑，只要我们把这些基础概念啃透，就能真正走进这个领域。