从神经元到神经网络:深度学习的进化之旅

神经元、神经网络

神经元 Neuron ),又名感知机( Perceptron ),在模型结构上与 逻辑回归 一致,这里以一个二维输入量的例子对其进行进一步 的解释: 假设模型的输 入向 量是一 维特征向 (x1,x2). 则单神 经元的模型结构 如下图所示:
单神经元的模型结构
其中,蓝圈 内的 部分可以看作线性的加权求和 再加 一个常 数偏操作,最终得到输入如下 (X 1 . W1) + (X2 . W2) + b
图中的蓝圈可以看作激活函数,它的主要作用是把一个无界输入映射到 个规范的、有界的值域上 常用的激活函数除了 . sigmoid 函数, 还包括 tanh ReLU 单神经元由于受到简单结构的限制,拟合能力不强, 因此在解决复杂问题时经常会用多神经元组成一个网络,使之具备拟合任意复杂函数的能力,这就是我们常说的神经网络。
一个由输入层、 两神经元隐层和单神经元输出层组成的简单神经网络

神经网络是通过将多个神经元以某种方式连接起来形成的网络,神经网络的训练方法就是基于链式法则的梯度反向传播。

前向传播和反向传播

前向传播(Forward Propagation)和反向传播(Backpropagation)是神经网络训练中的两个核心过程。它们在神经网络学习、权重更新和误差修正方面扮演关键角色。以下是二者的主要区别:

  1. 前向传播(Forward Propagation):

    • 输入信号(x1, x2)被赋予相应的权重(w1-w4)并加上偏差(b1),然后传递到隐藏层的节点(h1, h2)。
    • 在隐藏层节点,这些值通常会通过激活函数(如sigmoid或ReLU)进行非线性转换。
    • 转换后的值再次被赋予权重(w5-w8)并加上偏差(b2),然后传递到输出层的节点(o1, o2)。
    • 输出层通常也会应用一个激活函数,以得到最终的预测输出。
  2. 计算误差(Error Calculation):

    • 输出层的预测值与实际值(这里看起来像是0.01和0.99)比较,以计算误差。
    • 误差通常通过误差函数(如均方误差MSE或交叉熵)计算。
  3. 反向传播(Backpropagation):

    • 误差被用来计算每个输出节点对于总误差的贡献,这是通过误差对输出节点的预测的偏导数来实现的。
    • 然后,计算每个隐藏层节点对总误差的贡献,这需要应用链式法则,递归计算误差相对于隐藏层节点激活前的值的偏导数。
    • 这个过程将继续传递回网络,计算误差相对于每个权重的偏导数。
  4. 权重更新(Weight Update):

    • 一旦计算了相对于每个权重的误差的偏导数,权重可以根据学习率(learning rate)进行更新,以减少总误差。
    • 权重的更新公式通常是:新权重 = 旧权重 - 学习率 * 偏导数。

总结起来,前向传播是数据在网络中正向流动的过程,用于生成预测输出。反向传播是一种通过网络反向传递误差的算法,用于优化权重参数,以提高模型的预测性能。在训练过程中,这两个过程交替进行:先通过前向传播计算预测结果,然后通过反向传播对权重进行优化,如此反复直至训练完成。

LLM大模型预训练

标题

相关推荐
sunneo2 分钟前
S5.2 兴趣培养——让用户从“看看“变成“想了解更多“
人工智能·产品运营·产品经理·用户运营·用户体验
xiezhr4 分钟前
折腾了一下午,终于让Codex用上了DeepSeek
人工智能·openai·deepseek
lauo5 分钟前
ibbot角色智能体 v2.0 升级公告:全新上下文限制功能上线————灵活适配速度与深度,让每位数字伙伴更懂你
人工智能·智能手机·电脑·娱乐
我爱cope7 分钟前
【Agent智能体22 | 构建AI工作流的技巧-延迟、成本优化】
人工智能·设计模式·语言模型·职场和发展
basketball6168 分钟前
AI Infra 硬件体系与编程模型:3. GPU 流处理器解析
人工智能
装不满的克莱因瓶9 分钟前
了解不同机器学习模型的分类
人工智能·python·算法·机器学习·ai·分类·数据挖掘
我爱吃土豆19 分钟前
Agent 的记忆机制
开发语言·数据库·人工智能
AOwhisky12 分钟前
MySQL 学习笔记(第五期):用户管理与权限控制
linux·运维·数据库·笔记·学习·mysql
Yuk丶12 分钟前
厌倦了假AI对话?本地 LLM 语音对话 + 口型同步系统 2.0(已开源!)
c++·人工智能·语言模型·开源·ue4·语音识别·游戏开发