【从感知机到神经网络】

感知机

什么是感知机

公式、框图表示
直观举例

根据身高体重判断胖瘦的感知机。

1、根据已知样本训练出一条直线,用于对非训练样本进行分类,这条直线就是感知机模型。

三维情况下感知机模型是一个平面

感知机的缺陷

缺陷原因

不能处理异或问题,换句话说,感知机只能处理线性二分问题。

对于以下二分问题:

前三种情况都能用一条直线分类,第四种异或运算不能直线可分,单个感知机无法解决。

克服缺陷

如何解决异或问题呢?可以使用多个感知机进行叠加。

从线性变换角度理解感知机

将一组向量(样本)经模型的参数矩阵变换后变为另一组向量。

从感知机到神经网络

神经网络的组成

感知机模型
神经网络模型

对于非线性问题,单个感知机无法实现,从上面对感知机介绍可知,多个感知机的叠加可以解决非线性问题,所以神经网络模型可以有多个感知机叠加组成,从而解决非线性问题:(下图由6个感知机组成)

说明:

(1)每一个节点都和下一层的节点全部相连,叫做全连接网络。

(2)数据的传播是单向的,会朝着神经网络一直向前传播,叫做前馈神经网络

直观理解损失函数

本质:两个模型之间的差别。

神经网络训练的模型(机器的认知)与人心中的模型(人的认知)之间是有差别的,训练的目的是让这个差别减小,而神经网络的模型与人心中的模型是无法用同一种度量方式进行比较的,可以想象为在两个模型在两个空间,而这两个空间之间也有一个接口,这个接口是什么呢?即是让两个空间中的两个模型对同一批目标进行功能实现,通过某种方法得到两种实现之间的差距,进而调整机器空间中的模型。以下是三种通过这个接口比较两个模型的两种实现之间差别的三种方法。

最小二乘法

顾名思义:最小二乘即"最小":min、"二乘":平方。即

优点:(1)简洁易懂(2)全程可导

缺点:(1)计算麻烦,在复杂的神经网络中一般不用

最大似然估计

例子

举一个简单的例子,抛一枚质地均匀的硬币,正反面朝上的概率都是1/2,所以我们可以认为在现实世界抛硬币大概率就会有一半正面,一半反面。

那么抛一枚质地不均匀的硬币,抛了10次,前7次正面,后3次反面(记为事件A),那么若要问抛掷这枚质地不均匀的硬币正面概率和反面概率分别为多少的可能性最大?

我们可能会毫不犹豫地回答,正面地概率是0.7,反面概率是0.3地可能性最大,即由这个结果可以估计正反面概率是7:3的可能性最大。

下面来定量计算不同正反面概率的情况下事件A发生的可能性:

先验概率0.1:0.9的概率为:

先验概率0.2:0.8的概率为:

先验概率0.3:0.7的概率为:

先验概率0.4:0.6的概率为:

先验概率0.5:0.5的概率为:

先验概率0.6:0.4的概率为:

先验概率0.7:0.3的概率为:

先验概率0.8:0.2的概率为:

先验概率0.9:0.1的概率为:

计算可得先验概率为0.7:0.3时事件A发生的概率最大。神经网络解决这个问题的时候正是为了寻找这个先验概率(W和b)。

交叉熵

"交叉熵"如何做损失函数?打包理解"信息量"、"比特"、"熵"、"KL散度"、"交叉熵"_哔哩哔哩_bilibili

相关推荐
名为沙丁鱼的猫7292 分钟前
【MCP 协议层(Protocol layer)详解】:深入分析MCP Python SDK中协议层的实现机制
人工智能·深度学习·神经网络·机器学习·自然语言处理·nlp
bylander4 分钟前
【AI学习】几分钟了解一下Clawdbot
人工智能·智能体·智能体应用
香芋Yu15 分钟前
【机器学习教程】第04章 指数族分布
人工智能·笔记·机器学习
小咖自动剪辑23 分钟前
Base64与图片互转工具增强版:一键编码/解码,支持多格式
人工智能·pdf·word·媒体
独自归家的兔25 分钟前
从 “局部凑活“ 到 “全局最优“:AI 规划能力的技术突破与产业落地实践
大数据·人工智能
一个处女座的程序猿25 分钟前
AI:解读Sam Altman与多位 AI 构建者对话—构建可落地的 AI—剖析 OpenAI Town Hall 与给创业者、产品/工程/安全团队的实用指南
人工智能
依依yyy25 分钟前
沪深300指数收益率波动性分析与预测——基于ARMA-GARCH模型
人工智能·算法·机器学习
海域云-罗鹏36 分钟前
国内公司与英国总部数据中心/ERP系统互连,SD-WAN专线实操指南
大数据·数据库·人工智能
冬奇Lab38 分钟前
深入理解 Claude Code:架构、上下文与工具系统
人工智能·ai编程
Up九五小庞1 小时前
本地部署 + Docker 容器化实战:中医舌诊 AI 项目 TongueDiagnosis 部署全记录-九五小庞
人工智能