【从感知机到神经网络】

感知机

什么是感知机

公式、框图表示
直观举例

根据身高体重判断胖瘦的感知机。

1、根据已知样本训练出一条直线,用于对非训练样本进行分类,这条直线就是感知机模型。

三维情况下感知机模型是一个平面

感知机的缺陷

缺陷原因

不能处理异或问题,换句话说,感知机只能处理线性二分问题。

对于以下二分问题:

前三种情况都能用一条直线分类,第四种异或运算不能直线可分,单个感知机无法解决。

克服缺陷

如何解决异或问题呢?可以使用多个感知机进行叠加。

从线性变换角度理解感知机

将一组向量(样本)经模型的参数矩阵变换后变为另一组向量。

从感知机到神经网络

神经网络的组成

感知机模型
神经网络模型

对于非线性问题,单个感知机无法实现,从上面对感知机介绍可知,多个感知机的叠加可以解决非线性问题,所以神经网络模型可以有多个感知机叠加组成,从而解决非线性问题:(下图由6个感知机组成)

说明:

(1)每一个节点都和下一层的节点全部相连,叫做全连接网络。

(2)数据的传播是单向的,会朝着神经网络一直向前传播,叫做前馈神经网络

直观理解损失函数

本质:两个模型之间的差别。

神经网络训练的模型(机器的认知)与人心中的模型(人的认知)之间是有差别的,训练的目的是让这个差别减小,而神经网络的模型与人心中的模型是无法用同一种度量方式进行比较的,可以想象为在两个模型在两个空间,而这两个空间之间也有一个接口,这个接口是什么呢?即是让两个空间中的两个模型对同一批目标进行功能实现,通过某种方法得到两种实现之间的差距,进而调整机器空间中的模型。以下是三种通过这个接口比较两个模型的两种实现之间差别的三种方法。

最小二乘法

顾名思义:最小二乘即"最小":min、"二乘":平方。即

优点:(1)简洁易懂(2)全程可导

缺点:(1)计算麻烦,在复杂的神经网络中一般不用

最大似然估计

例子

举一个简单的例子,抛一枚质地均匀的硬币,正反面朝上的概率都是1/2,所以我们可以认为在现实世界抛硬币大概率就会有一半正面,一半反面。

那么抛一枚质地不均匀的硬币,抛了10次,前7次正面,后3次反面(记为事件A),那么若要问抛掷这枚质地不均匀的硬币正面概率和反面概率分别为多少的可能性最大?

我们可能会毫不犹豫地回答,正面地概率是0.7,反面概率是0.3地可能性最大,即由这个结果可以估计正反面概率是7:3的可能性最大。

下面来定量计算不同正反面概率的情况下事件A发生的可能性:

先验概率0.1:0.9的概率为:

先验概率0.2:0.8的概率为:

先验概率0.3:0.7的概率为:

先验概率0.4:0.6的概率为:

先验概率0.5:0.5的概率为:

先验概率0.6:0.4的概率为:

先验概率0.7:0.3的概率为:

先验概率0.8:0.2的概率为:

先验概率0.9:0.1的概率为:

计算可得先验概率为0.7:0.3时事件A发生的概率最大。神经网络解决这个问题的时候正是为了寻找这个先验概率(W和b)。

交叉熵

"交叉熵"如何做损失函数?打包理解"信息量"、"比特"、"熵"、"KL散度"、"交叉熵"_哔哩哔哩_bilibili

相关推荐
m0_641889297 分钟前
GEO优化监测:品牌如何靠GEO挖掘可靠信源,提升AI搜索曝光获客
人工智能·geo·数字营销·ai搜索·智能营销·geo优化·geo平台
一次旅行7 分钟前
AI 技术热点新闻简报|2026-05-30
大数据·人工智能
aqi009 分钟前
15天学会AI应用开发(三)把历史对话作为提示词会怎样
人工智能·python·大模型·ai编程·ai应用
俯首甘为孺子刘x9 分钟前
AI时代的焦虑与思考
人工智能·ai编程·codex·ai-agent
北京耐用通信11 分钟前
耐达讯自动化PROFIBUS光纤模块:工业通信的“光电翻译官”
人工智能·科技·网络协议·自动化·信息与通信
青风9712 分钟前
YOLO-World:实时开放词汇对象检测(YOLO-World: Real-Time Open-Vocabulary Object Detection)
人工智能·yolo·目标检测
日月新著13 分钟前
本地部署AI Agent实现GEO自动化效果追踪的技术方案
人工智能·自动化
蒟蒻的贤14 分钟前
深度学习底层核心原理:损失函数、梯度与参数更新
人工智能·深度学习
程序猿阿伟15 分钟前
《OpenClaw行为审计与追溯系统设计》
人工智能