【从感知机到神经网络】

感知机

什么是感知机

公式、框图表示

直观举例

根据身高体重判断胖瘦的感知机。

1、根据已知样本训练出一条直线，用于对非训练样本进行分类，这条直线就是感知机模型。

三维情况下感知机模型是一个平面

感知机的缺陷

缺陷原因

不能处理异或问题，换句话说，感知机只能处理线性二分问题。

对于以下二分问题：

前三种情况都能用一条直线分类，第四种异或运算不能直线可分，单个感知机无法解决。

克服缺陷

如何解决异或问题呢？可以使用多个感知机进行叠加。

从线性变换角度理解感知机

将一组向量（样本）经模型的参数矩阵变换后变为另一组向量。

从感知机到神经网络

神经网络的组成

感知机模型

神经网络模型

对于非线性问题，单个感知机无法实现，从上面对感知机介绍可知，多个感知机的叠加可以解决非线性问题，所以神经网络模型可以有多个感知机叠加组成，从而解决非线性问题：（下图由6个感知机组成）

说明：

（1）每一个节点都和下一层的节点全部相连，叫做全连接网络。

（2）数据的传播是单向的，会朝着神经网络一直向前传播，叫做前馈神经网络

直观理解损失函数

本质：两个模型之间的差别。

神经网络训练的模型（机器的认知）与人心中的模型（人的认知）之间是有差别的，训练的目的是让这个差别减小，而神经网络的模型与人心中的模型是无法用同一种度量方式进行比较的，可以想象为在两个模型在两个空间，而这两个空间之间也有一个接口，这个接口是什么呢？即是让两个空间中的两个模型对同一批目标进行功能实现，通过某种方法得到两种实现之间的差距，进而调整机器空间中的模型。以下是三种通过这个接口比较两个模型的两种实现之间差别的三种方法。

最小二乘法

顾名思义：最小二乘即"最小"：min、"二乘"：平方。即

优点：（1）简洁易懂（2）全程可导

缺点：（1）计算麻烦，在复杂的神经网络中一般不用

最大似然估计

例子

举一个简单的例子，抛一枚质地均匀的硬币，正反面朝上的概率都是1/2，所以我们可以认为在现实世界抛硬币大概率就会有一半正面，一半反面。

那么抛一枚质地不均匀的硬币，抛了10次，前7次正面，后3次反面（记为事件A），那么若要问抛掷这枚质地不均匀的硬币正面概率和反面概率分别为多少的可能性最大？

我们可能会毫不犹豫地回答，正面地概率是0.7，反面概率是0.3地可能性最大，即由这个结果可以估计正反面概率是7：3的可能性最大。

下面来定量计算不同正反面概率的情况下事件A发生的可能性：

先验概率0.1：0.9的概率为：

先验概率0.2：0.8的概率为：

先验概率0.3：0.7的概率为：

先验概率0.4：0.6的概率为：

先验概率0.5：0.5的概率为：

先验概率0.6：0.4的概率为：

先验概率0.7：0.3的概率为：

先验概率0.8：0.2的概率为：

先验概率0.9：0.1的概率为：

计算可得先验概率为0.7：0.3时事件A发生的概率最大。神经网络解决这个问题的时候正是为了寻找这个先验概率（W和b）。

交叉熵

"交叉熵"如何做损失函数？打包理解"信息量"、"比特"、"熵"、"KL散度"、"交叉熵"_哔哩哔哩_bilibili