神经网络入门

神经网络属于机器学习算法的深度学习模块。

原理:

神经网络的核心思想是模拟人脑神经元的工作模式,进行数据处理与分析。我们先回顾一下逻辑回归模型:对于输入的特征,我们会先进行矩阵运算,再将运算结果映射到sigmoid函数中,最终得到分类结果或对应的概率。

那么,如果我们通过多次矩阵运算得到多个中间结果,再把这些中间结果当作新的输入特征,重复上述"矩阵运算→sigmoid映射"的过程呢?经过这样多层运算后输出的最终结果,就是我们的预测结果。这便是神经网络最核心的原理。这里逻辑回归模型是使用的激活函数只是神经网络的一种,因为激活函数不仅可以是sigmoid,也可以使用其他激活函数如ReLU、tanh 等。

这里举个简单的关联实例帮助理解:比如处理图片分类任务,若用逻辑回归,我们可能直接将图片的所有像素点特征进行矩阵运算后输入sigmoid,但其很难捕捉像素间的复杂关联(比如边缘、纹理等)。而神经网络会先通过第一层矩阵运算提取基础特征(如明暗变化),将这些基础特征作为新输入进入第二层,再提取更复杂的组合特征(如线条),层层递进后,最终通过输出层的运算得到分类结果------这就是通过多层扩展,弥补了逻辑回归在复杂特征提取上的不足,也体现了从逻辑回归到神经网络的核心延伸。

神经网络构造:

第一层表示输入层,最后一层为输出层,中间部分作为隐藏层。

第一层神经元表示输入的特征x,神经元间的连线表示权重w,把所有特征和权重输入到第二层第一个神经元,这个神经元会进行加权求和、激活映射。同理的到第二层其他神经元。第二层重复这样的操作,最终得到输出层的结果。

感知器:

看到这里,大家可能会觉得感知器和我们前面学习的逻辑回归很相似------两者确实都属于单层线性分类模型,核心计算框架都是"输入特征加权求和+激活映射"。但两者的核心区别,其实在于参数训练的方法:

在逻辑回归中,我们会先将加权和的结果映射到sigmoid函数,得到样本属于正类的概率;之后通过极大似然估计构建损失函数,最终将问题转化为通过梯度下降法求解损失函数的最小值,从而拟合出能够对数据集进行分类的决策边界(直线)。

而在神经网络(含感知器的延伸模型)中,我们采用的训练方法是反向传播算法,通过迭代优化的方式调整网络参数。关于反向传播的具体原理和实现步骤,我们下面会专门展开讲解。

多层感知器:

最简单的感知器只能实现线性分类,多层感知器则能够实现非线性的分类,从数学的角度来看,第二层得到的关于x的表达式再次进行矩阵运算就不再是一次幂,也就是非线性的效果。

偏置节点:

偏置节点主要用于保证建立的模型不必通过原点,相当于截距。

多间层构造:
训练方法:计算损失函数

为了防止过拟合,我们在损失函数中加入正则化惩罚:

于是我们有了最终的损失函数,计算损失函数的最小值得到更好的参数,我们使用梯度下降来求解:

具体求解过程:

  1. 正向传播(Forward Propagation) 将训练数据输入神经网络,逐层执行「加权求和 + 激活映射」的计算,最终得到模型的预测输出 y^​。这一步的核心是从输入层到输出层的信号传递,和你提到的 "得到结果" 一致。

  2. 构造带正则化的损失函数

    • 第一步:计算原始损失(衡量预测值 y^ 与真实标签 y 的差距),比如分类任务用交叉熵损失,回归任务用均方误差损失。
    • 第二步:融入正则化项(L1/L2 正则化),目的是惩罚过大的权重参数,防止模型过拟合。最终的优化目标是:Ltotal=Loriginal(y,y^)+λ⋅R(w)其中 R(w) 是正则化惩罚项,λ 是正则化系数(平衡原始损失和惩罚的权重)。
  3. 反向传播(Backward Propagation)------ 你遗漏的核心步骤 梯度下降需要用到损失函数对每个参数(权重 w + 偏置 b)的梯度,而梯度的计算正是通过反向传播实现的:

    • 从输出层开始,沿着网络层级反向计算损失函数对各层参数的偏导数 ∂w∂Ltotal 和 ∂b∂Ltotal。
    • 反向传播的数学基础是链式法则,这是实现多层网络参数优化的关键。
  4. 梯度下降更新参数 利用反向传播得到的梯度,通过梯度下降算法更新所有参数(不仅是权重 w,还有偏置 b),公式示例(以 L2 梯度下降为例):w←w−η⋅∂w∂Ltotal​​b←b−η⋅∂b∂Ltotal​​其中 η 是学习率。

  5. 重复迭代直到满足终止条件重复执行「正向传播→计算带正则化的损失→反向传播算梯度→梯度下降更新参数」的流程,直到满足停止条件:

    • 损失函数值收敛到预设阈值;
    • 迭代次数达到最大轮数;
    • 验证集上的模型性能不再提升(防止过拟合)。
相关推荐
whaosoft-1435 小时前
51c视觉~3D~合集10
人工智能
clarance20155 小时前
2025主流BI工具可信能力评估报告:从合规到智能的架构解析
数据库·人工智能·信息可视化·架构·数据挖掘·数据分析
1+2单片机电子设计5 小时前
基于 STM32 的多传感器融合人体健康监测系统设计与实现
人工智能
whaosoft-1435 小时前
51c自动驾驶~合集63
人工智能
小风吹啊吹~5 小时前
部署日志2025.12.15
人工智能
爱写代码的小朋友5 小时前
生成式人工智能赋能跨学科主题学习的范式重构与实践路径研究
人工智能·学习·重构
Axis tech5 小时前
Manus数据手套:从人类手部运动到机器人灵巧手实时映射
人工智能
gxdtgsy5 小时前
国内外空间三维扫描测量仪器产品性能解析:六款旗舰产品如何定义空间三维数字化
人工智能
deephub5 小时前
Pydantic-DeepAgents:基于 Pydantic-AI 的轻量级生产级 Agent 框架
人工智能·python·深度学习·大语言模型·ai-agent