【从感知机到神经网络】

感知机

什么是感知机

公式、框图表示
直观举例

根据身高体重判断胖瘦的感知机。

1、根据已知样本训练出一条直线,用于对非训练样本进行分类,这条直线就是感知机模型。

三维情况下感知机模型是一个平面

感知机的缺陷

缺陷原因

不能处理异或问题,换句话说,感知机只能处理线性二分问题。

对于以下二分问题:

前三种情况都能用一条直线分类,第四种异或运算不能直线可分,单个感知机无法解决。

克服缺陷

如何解决异或问题呢?可以使用多个感知机进行叠加。

从线性变换角度理解感知机

将一组向量(样本)经模型的参数矩阵变换后变为另一组向量。

从感知机到神经网络

神经网络的组成

感知机模型
神经网络模型

对于非线性问题,单个感知机无法实现,从上面对感知机介绍可知,多个感知机的叠加可以解决非线性问题,所以神经网络模型可以有多个感知机叠加组成,从而解决非线性问题:(下图由6个感知机组成)

说明:

(1)每一个节点都和下一层的节点全部相连,叫做全连接网络。

(2)数据的传播是单向的,会朝着神经网络一直向前传播,叫做前馈神经网络

直观理解损失函数

本质:两个模型之间的差别。

神经网络训练的模型(机器的认知)与人心中的模型(人的认知)之间是有差别的,训练的目的是让这个差别减小,而神经网络的模型与人心中的模型是无法用同一种度量方式进行比较的,可以想象为在两个模型在两个空间,而这两个空间之间也有一个接口,这个接口是什么呢?即是让两个空间中的两个模型对同一批目标进行功能实现,通过某种方法得到两种实现之间的差距,进而调整机器空间中的模型。以下是三种通过这个接口比较两个模型的两种实现之间差别的三种方法。

最小二乘法

顾名思义:最小二乘即"最小":min、"二乘":平方。即

优点:(1)简洁易懂(2)全程可导

缺点:(1)计算麻烦,在复杂的神经网络中一般不用

最大似然估计

例子

举一个简单的例子,抛一枚质地均匀的硬币,正反面朝上的概率都是1/2,所以我们可以认为在现实世界抛硬币大概率就会有一半正面,一半反面。

那么抛一枚质地不均匀的硬币,抛了10次,前7次正面,后3次反面(记为事件A),那么若要问抛掷这枚质地不均匀的硬币正面概率和反面概率分别为多少的可能性最大?

我们可能会毫不犹豫地回答,正面地概率是0.7,反面概率是0.3地可能性最大,即由这个结果可以估计正反面概率是7:3的可能性最大。

下面来定量计算不同正反面概率的情况下事件A发生的可能性:

先验概率0.1:0.9的概率为:

先验概率0.2:0.8的概率为:

先验概率0.3:0.7的概率为:

先验概率0.4:0.6的概率为:

先验概率0.5:0.5的概率为:

先验概率0.6:0.4的概率为:

先验概率0.7:0.3的概率为:

先验概率0.8:0.2的概率为:

先验概率0.9:0.1的概率为:

计算可得先验概率为0.7:0.3时事件A发生的概率最大。神经网络解决这个问题的时候正是为了寻找这个先验概率(W和b)。

交叉熵

"交叉熵"如何做损失函数?打包理解"信息量"、"比特"、"熵"、"KL散度"、"交叉熵"_哔哩哔哩_bilibili

相关推荐
pusheng20253 分钟前
普晟传感直播预告 |重塑安全边界:储能与AI数据中心的锂电风险、气体探测技术革新与可量化风险管控
人工智能·安全
CoovallyAIHub8 分钟前
SAM 真的开始「分割一切」,从图像到声音,Meta 开源 SAM Audio
深度学习·算法·计算机视觉
资源站shanxueit或com9 分钟前
智泊AI-AGI大模型全栈课12期【VIP】
人工智能
转转技术团队11 分钟前
转转大数据与AI——数据治理安全打标实践
大数据·人工智能·后端
哆啦叮当19 分钟前
VADv2 基于概率规划的端到端自动驾驶模型
人工智能·机器学习·自动驾驶
五月底_24 分钟前
GRPO参数详解
人工智能·深度学习·nlp·rl·grpo
沃达德软件25 分钟前
大数据治安防控中心
大数据·人工智能·信息可视化·数据挖掘·数据分析
雾江流28 分钟前
肉包 1.4.0 | 豆包AI手机平替,开源免费,AI自动化
运维·人工智能·自动化·软件工程
光锥智能28 分钟前
昆仑芯冲刺IPO,百度押中了一枚国产AI芯片
人工智能·百度
沫儿笙30 分钟前
发那科弧焊机器人保护气节气设备
人工智能·机器人