学习笔记十七:神经网络基础概念

1. 基本概念

1.1 神经网络

定义

神经网络(neural network)是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

研究背景

神经网络的研究由来已久,如今已发展成为一个庞大的、多学科交叉的领域。在机器学习中,神经网络学习(neural network learning)是机器学习与神经网络这两个学科领域的交叉部分。

基本组成

神经网络中最基本的成分是神经元(neuron)模型,即上述定义中的"简单单元"。

1.2 神经元模型

生物学基础

在生物神经网络中,每个神经元与其他神经元相连,当它"兴奋"时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个"阈值"(threshold),那么它就会被激活,即"兴奋"起来,向其他神经元发送化学物质。

M-P神经元模型

1943年,McCulloch和Pitts将上述情形抽象为图1所示的简单模型,这就是一直沿用至今的M-P神经元模型

模型结构

在这个模型中,神经元接收来自 n 个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数(activation function)处理产生输出。

数学表示

y=f(∑i=1nwixi−θ)y = f\left(\sum_{i=1}^{n} w_i x_i - \theta\right)y=f(i=1∑nwixi−θ)

其中 xix_ixi 表示来自第 i 个神经元的输入,wiw_iwi 表示第 i 个神经元的连接权重,θ 表示阈值,f 是激活函数。

1.3 激活函数

理想激活函数

理想的激活函数是阶跃函数(step function),它将输入值映射为输出值"0"或"1"。显然"1"对应神经元兴奋,"0"对应神经元抑制。

阶跃函数的特点

  • 输出为0或1,对应神经元的抑制或兴奋
  • 不连续、不光滑,不利于优化

Sigmoid函数

由于阶跃函数具有不连续、不光滑等不太好的性质,因此实际常用Sigmoid函数作为激活函数。

Sigmoid函数的特点

  • 将可能在较大范围内变化的输入值挤压到 (0, 1) 输出值范围内,因此有时也称为"挤压函数"(squashing function)
  • 连续、可微,便于优化
  • 输出值在0到1之间,可以表示概率

数学表示

sigmoid(x)=11+e−xsigmoid(x) = \frac{1}{1 + e^{-x}}sigmoid(x)=1+e−x1

2. 感知机与多层网络

2.1 感知机

定义

感知机 (Perceptron)由两层神经元组成,如图2所示。

结构

  • 输入层:接收外界输入信号后传递给输出层
  • 输出层:是M-P神经元,亦称"阈值逻辑单元"(threshold logic unit)

功能

感知机能容易地实现逻辑"与"、"或"、"非"运算。

2.2 感知机学习规则

学习目标

给定训练数据集,权重 wiw_iwi(i = 1, 2, ..., n)以及阈值 θ 可通过学习得到。

阈值处理

阈值 θ 可看作一个固定输入为 -1.0 的"哑结点"(dummy node)所对应的连接权重 wn+1w_{n+1}wn+1,这样,权重和阈值的学习可统一为权重的学习。

学习规则

对训练样例 (x, y),若当前感知机的输出为 ŷ,则感知机将这样调整权重:

wi←wi+Δwiw_i \leftarrow w_i + \Delta w_iwi←wi+Δwi

Δwi=η(y−y^)xi\Delta w_i = \eta(y - \hat{y})x_iΔwi=η(y−y^)xi

其中 η ∈ (0, 1) 称为学习率(learning rate)。

规则解释

  • 若感知机对训练样例 (x, y) 预测正确,即 ŷ = y,则感知机不发生变化
  • 否则将根据错误的程度进行权重调整

2.3 感知机的局限性

线性可分问题

感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元(functional neuron),学习能力非常有限。事实上,上述"与"、"或"、"非"问题都是线性可分(linearly separable)的。

收敛性

若两类模式是线性可分的,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛(converge)而求得适当的权向量 w=(w1;w2;...;wn+1)w = (w_1; w_2; ...; w_{n+1})w=(w1;w2;...;wn+1)。

非线性可分问题

若两类模式不是线性可分的,则感知机的学习过程会发生振荡 (fluctuate),w 难以稳定下来,不能求得合适解。例如,感知机甚至不能解决异或(XOR)这样的简单非线性可分问题。

2.4 多层感知机

解决非线性问题

要解决非线性可分问题,需考虑使用多层功能神经元。

隐藏层

输入层与输出层之间的一层神经元,被称为隐藏层 (hidden layer)或隐层(hidden neuron),隐藏层和输出层神经元都是拥有激活函数的功能神经元。

多层前馈神经网络

神经网络是每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接。这样的神经网络结构通常称为多层前馈神经网络(multi-layer feedforward neural networks)。

网络结构

  • 输入层神经元:接收外界输入
  • 隐藏层和输出层神经元:对信号进行加工,最终结果由输出层神经元输出
  • 输入层神经元:仅接收输入,不进行函数处理
  • 隐藏层和输出层:包含功能神经元

命名约定

"两层网络"称为"单隐层网络"。只需包含隐层,即可称为多层网络。

学习过程

神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权 (connection weight)以及每个功能神经元的阈值;换言之,神经网络"学"到的东西,蕴涵在连接权与阈值中。

3. 总结

神经网络 是由具有适应性的简单单元组成的广泛并行互连的网络。M-P神经元模型是神经网络的基本组成单元,它接收来自其他神经元的输入信号,通过带权重的连接进行传递,与阈值比较后通过激活函数产生输出。

感知机 是最简单的神经网络,由两层神经元组成,能够实现逻辑"与"、"或"、"非"运算,但只能解决线性可分问题。对于非线性可分问题(如异或问题),需要使用多层感知机多层前馈神经网络

多层前馈神经网络包含输入层、隐藏层和输出层,隐藏层和输出层包含功能神经元。神经网络的学习过程就是根据训练数据调整连接权和阈值。神经网络"学"到的东西蕴涵在连接权与阈值中。

相关推荐
孤狼warrior29 分钟前
我想拥有作家的思想 循环神经网络及变型
人工智能·rnn·深度学习·神经网络·lstm
八年。。43 分钟前
Ai笔记(二)-PyTorch 中各类数据类型(numpy array、list、FloatTensor、LongTensor、Tensor)的区别
人工智能·pytorch·笔记
不羁的木木1 小时前
【开源鸿蒙跨平台开发学习笔记】Day02:React Native 开发 HarmonyOS-环境搭建篇(填坑记录)
笔记·学习·react native·harmonyos·har
东皇太星1 小时前
VGGNet (2014)(卷积神经网络)
人工智能·神经网络·cnn·卷积神经网络
交流QQ:4877392781 小时前
C# WinForm上位机打造智慧小区远程监控系统:串口与Modbus的奇妙之旅
神经网络
t***L2662 小时前
JavaScript在机器学习中的库
开发语言·javascript·机器学习
明月照山海-2 小时前
机器学习周报二十三
人工智能·机器学习
qq_17082750 CNC注塑机数采3 小时前
【Python TensorFlow】 CNN-GRU卷积神经网络-门控循环神经网络时序预测算法(附代码)
python·rnn·机器学习·cnn·gru·tensorflow
科研面壁者3 小时前
SPSS——独立样本T检验
数据库·人工智能·机器学习·信息可视化·数据分析·spss·数据处理