第五章 神经网络(含反向传播计算)

神经网络相较于前面的决策树等,是用于解决非线性问题的。

5.1神经元模型

阈值其实可以理解为b,其中那个f(x)函数也就是激活函数,其本身也是带"动态阈值"的非线性判断机制。

5.2感知器与多层网络

经典感知器就是由输入层和输出层两层神经元构成的简单线性分类模型,没有隐藏层,其实单个神经元就等价于一个最简单的感知器。
它的运行逻辑和神经元计算一致:输入层接收特征值,与权重相乘后加偏差得到净输入,再通过硬阈值激活函数(比如大于阈值输出1,否则输出0)得到最终分类结果。
需要注意的是,这种两层感知器只能解决线性可分的问题(比如简单的与、或运算),无法处理异或这类线性不可分的任务------这也是后来多层神经网络(引入隐藏层)被提出的重要原因。
多层神经网络

5.3误差逆传播算法

sigmoid函数求导有趣现象,如上。
反向传播主要是调整w和b使得误差处于小于阈值的范围。反向传播计算得到偏导后需要更新参数,涉及到梯度下降,前面有讲过,如下:

梯度下降

BP算法防止过拟合的两种做法,正则化加上右部分也相当于让权重更小,更平滑。

5.4全局最小和局部最小

这部分没有什么拓展,看书上三种方式即可。

5.5其他神经网络

RBF网络:

一种三层前馈神经网络,主打局部逼近,训练速度快于全局逼近的BP网络,常用于函数拟合、分类、回归任务。结构:输入层→隐含层→输出层,隐含层是核心,激活函数为径向基函数(最常用高斯函数,也有薄板样条等)

ART网络:

强调ART是无监督增量聚类神经网络,核心优势是抗遗忘+实时学习,解决传统聚类"一次训练,无法新增类别"的痛点。重点讲解比较层(C层)、识别层(R层)、重置模块的作用:C层负责输入样本与模板的匹配计算,R层执行神经元竞争选出获胜类别,重置模块根据警戒参数判断"匹配/重置"。

SOM网络:

一种无监督竞争型神经网络,核心功能是高维数据降维+拓扑保序聚类,能将高维输入映射到低维(多为二维)拓扑空间,同时保留数据的邻域关系。结构:输入层+竞争层(输出层),竞争层神经元按网格状排列(如矩形、六边形),每个神经元对应一个高维权重向量。

级联相关网络:

一种构造性前馈神经网络,无需预先设定隐含层节点数和层数,通过动态添加最优隐含节点的方式自主构建网络结构,主打高效监督学习,适用于分类、回归任务。
初始化:先构建只有输入层和输出层的最简网络,训练输出层权重。添加隐含节点:计算候选节点与输入数据、输出误差的相关性,选择相关性最高的候选节点加入隐含层,该节点权重固定不再更新。冻结与扩展:新增节点与输入层、输出层建立连接,训练新的输出层权重;重复"选节点-加节点-训权重"步骤,直到模型性能达标。

Elman网络:

一种简单的递归神经网络(RNN),有环状结构,专为处理时序数据设计,通过引入"承接层"实现短期记忆,擅长捕捉序列数据的上下文依赖关系。
包含四层:输入层→隐含层→承接层→输出层。承接层会存储上一时刻隐含层的输出,作为下一时刻隐含层的额外输入,相当于"短期记忆单元";隐含层常用 Sigmoid 或 tanh 激活函数,输出层多为线性或 Softmax 激活。

Boltzmann机:

一种基于能量函数的随机递归神经网络,是典型的概率生成模型,核心用于学习复杂数据的概率分布,无监督特征提取。
包含可见层(输入输出层,对应数据特征)和隐藏层(特征提取层),层内、层间神经元均为双向连接(所有神经元双向连接,可以反馈调整),神经元状态为二值(0/1),状态取值由概率函数(Sigmoid)决定。

5.6深度学习

深度学习是多层神经网络的延伸,核心是通过多层非线性变换自动学习数据的分层特征,解决传统浅层模型难以处理的复杂模式。
典型深度学习模型
◦ 卷积神经网络(CNN):针对网格结构数据(图像),利用局部感受野、权值共享、池化降低参数规模,捕捉空间局部特征。
◦ 循环神经网络(RNN):针对序列数据(文本、语音),通过时序反馈连接处理上下文依赖;存在长距离依赖问题,衍生出LSTM、GRU等改进模型。
◦ 深度置信网络(DBN):由多层受限玻尔兹曼机(RBM)堆叠而成,采用无监督逐层预训练+监督微调(逐层进行训练,再用BP算法这类进行整个网络的训练)的范式,缓解深层网络的梯度问题。
训练策略
◦ 预训练与微调:先通过无监督学习(如RBM的重构误差优化)逐层初始化权重,再添加输出层用反向传播微调全网络,提升深层模型的训练效率与效果。
◦ 正则化手段:常用Dropout(随机失活神经元)、权重衰减等方法,降低深层网络的过拟合风险。
相关推荐
恋猫de小郭4 小时前
AI 正在造就你的「认知卸载」,但是时代如此
前端·人工智能·ai编程
飞哥数智坊12 小时前
我的“龙虾”罢工了!正好对比下GLM、MiniMax、Kimi 3家谁更香
人工智能
风象南13 小时前
很多人说,AI 让技术平权了,小白也能乱杀老师傅 ?
人工智能·后端
董董灿是个攻城狮14 小时前
大模型连载1:了解 Token
人工智能
RoyLin17 小时前
沉睡三十年的标准:HTTP 402、生成式 UI 与智能体原生软件的时代
人工智能
needn19 小时前
TRAE为什么要发布SOLO版本?
人工智能·ai编程
毅航19 小时前
自然语言处理发展史:从规则、统计到深度学习
人工智能·后端
前端付豪19 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
ursazoo19 小时前
写了一份 7000字指南,让 AI 帮我消化每天的信息流
人工智能·开源·github
_志哥_1 天前
Superpowers 技术指南:让 AI 编程助手拥有超能力
人工智能·ai编程·测试