学习笔记十七:神经网络基础概念

1. 基本概念

1.1 神经网络

定义

神经网络(neural network)是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

研究背景

神经网络的研究由来已久,如今已发展成为一个庞大的、多学科交叉的领域。在机器学习中,神经网络学习(neural network learning)是机器学习与神经网络这两个学科领域的交叉部分。

基本组成

神经网络中最基本的成分是神经元(neuron)模型,即上述定义中的"简单单元"。

1.2 神经元模型

生物学基础

在生物神经网络中,每个神经元与其他神经元相连,当它"兴奋"时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个"阈值"(threshold),那么它就会被激活,即"兴奋"起来,向其他神经元发送化学物质。

M-P神经元模型

1943年,McCulloch和Pitts将上述情形抽象为图1所示的简单模型,这就是一直沿用至今的M-P神经元模型

模型结构

在这个模型中,神经元接收来自 n 个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数(activation function)处理产生输出。

数学表示

y=f(∑i=1nwixi−θ)y = f\left(\sum_{i=1}^{n} w_i x_i - \theta\right)y=f(i=1∑nwixi−θ)

其中 xix_ixi 表示来自第 i 个神经元的输入,wiw_iwi 表示第 i 个神经元的连接权重,θ 表示阈值,f 是激活函数。

1.3 激活函数

理想激活函数

理想的激活函数是阶跃函数(step function),它将输入值映射为输出值"0"或"1"。显然"1"对应神经元兴奋,"0"对应神经元抑制。

阶跃函数的特点

  • 输出为0或1,对应神经元的抑制或兴奋
  • 不连续、不光滑,不利于优化

Sigmoid函数

由于阶跃函数具有不连续、不光滑等不太好的性质,因此实际常用Sigmoid函数作为激活函数。

Sigmoid函数的特点

  • 将可能在较大范围内变化的输入值挤压到 (0, 1) 输出值范围内,因此有时也称为"挤压函数"(squashing function)
  • 连续、可微,便于优化
  • 输出值在0到1之间,可以表示概率

数学表示

sigmoid(x)=11+e−xsigmoid(x) = \frac{1}{1 + e^{-x}}sigmoid(x)=1+e−x1

2. 感知机与多层网络

2.1 感知机

定义

感知机 (Perceptron)由两层神经元组成,如图2所示。

结构

  • 输入层:接收外界输入信号后传递给输出层
  • 输出层:是M-P神经元,亦称"阈值逻辑单元"(threshold logic unit)

功能

感知机能容易地实现逻辑"与"、"或"、"非"运算。

2.2 感知机学习规则

学习目标

给定训练数据集,权重 wiw_iwi(i = 1, 2, ..., n)以及阈值 θ 可通过学习得到。

阈值处理

阈值 θ 可看作一个固定输入为 -1.0 的"哑结点"(dummy node)所对应的连接权重 wn+1w_{n+1}wn+1,这样,权重和阈值的学习可统一为权重的学习。

学习规则

对训练样例 (x, y),若当前感知机的输出为 ŷ,则感知机将这样调整权重:

wi←wi+Δwiw_i \leftarrow w_i + \Delta w_iwi←wi+Δwi

Δwi=η(y−y^)xi\Delta w_i = \eta(y - \hat{y})x_iΔwi=η(y−y^)xi

其中 η ∈ (0, 1) 称为学习率(learning rate)。

规则解释

  • 若感知机对训练样例 (x, y) 预测正确,即 ŷ = y,则感知机不发生变化
  • 否则将根据错误的程度进行权重调整

2.3 感知机的局限性

线性可分问题

感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元(functional neuron),学习能力非常有限。事实上,上述"与"、"或"、"非"问题都是线性可分(linearly separable)的。

收敛性

若两类模式是线性可分的,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛(converge)而求得适当的权向量 w=(w1;w2;...;wn+1)w = (w_1; w_2; ...; w_{n+1})w=(w1;w2;...;wn+1)。

非线性可分问题

若两类模式不是线性可分的,则感知机的学习过程会发生振荡 (fluctuate),w 难以稳定下来,不能求得合适解。例如,感知机甚至不能解决异或(XOR)这样的简单非线性可分问题。

2.4 多层感知机

解决非线性问题

要解决非线性可分问题,需考虑使用多层功能神经元。

隐藏层

输入层与输出层之间的一层神经元,被称为隐藏层 (hidden layer)或隐层(hidden neuron),隐藏层和输出层神经元都是拥有激活函数的功能神经元。

多层前馈神经网络

神经网络是每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接。这样的神经网络结构通常称为多层前馈神经网络(multi-layer feedforward neural networks)。

网络结构

  • 输入层神经元:接收外界输入
  • 隐藏层和输出层神经元:对信号进行加工,最终结果由输出层神经元输出
  • 输入层神经元:仅接收输入,不进行函数处理
  • 隐藏层和输出层:包含功能神经元

命名约定

"两层网络"称为"单隐层网络"。只需包含隐层,即可称为多层网络。

学习过程

神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权 (connection weight)以及每个功能神经元的阈值;换言之,神经网络"学"到的东西,蕴涵在连接权与阈值中。

3. 总结

神经网络 是由具有适应性的简单单元组成的广泛并行互连的网络。M-P神经元模型是神经网络的基本组成单元,它接收来自其他神经元的输入信号,通过带权重的连接进行传递,与阈值比较后通过激活函数产生输出。

感知机 是最简单的神经网络,由两层神经元组成,能够实现逻辑"与"、"或"、"非"运算,但只能解决线性可分问题。对于非线性可分问题(如异或问题),需要使用多层感知机多层前馈神经网络

多层前馈神经网络包含输入层、隐藏层和输出层,隐藏层和输出层包含功能神经元。神经网络的学习过程就是根据训练数据调整连接权和阈值。神经网络"学"到的东西蕴涵在连接权与阈值中。

相关推荐
TL滕1 小时前
从0开始学算法——第十八天(分治算法)
笔记·学习·算法
算法与双吉汉堡1 小时前
【短链接项目笔记】Day2 用户注册
java·redis·笔记·后端·spring
思成不止于此1 小时前
【MySQL 零基础入门】MySQL 约束精讲(一):基础约束篇
数据库·笔记·sql·学习·mysql
小黄人软件2 小时前
【过度滥用眼】真正的理解,从闭眼开始:如何把“眼睛视觉依赖”降到最低,把大脑效率提到最高。【最少用眼的工作与学习体系】
学习
会挠头但不秃2 小时前
深度学习(4)卷积神经网络
人工智能·神经网络·cnn
老华带你飞2 小时前
建筑材料管理|基于springboot 建筑材料管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·学习·spring
L.fountain3 小时前
图像自回归生成(Auto-regressive image generation)实战学习(一)
人工智能·深度学习·学习·计算机视觉·图像自回归
WizLC3 小时前
【JAVA】JVM类加载器知识笔记
java·jvm·笔记
TL滕3 小时前
从0开始学算法——第十八天(分治算法练习)
笔记·学习·算法
蓝桉~MLGT4 小时前
Ai-Agent学习历程—— Agent认知框架
人工智能·学习