神经网络初步学习3——数据与损失

一、传统机器学习与神经网络

前言:该部分需要一定的机器学习与数学基础(很浅的基础),如果有不理解的地方可以自行查阅。

(1)区别

这里不妨以图像识别为例子:

(1)在传统的机器学习视角中:我们需要人工手动去设置并提取我们的特征量,例如常见的SIFT、SURF和HOG等,随后需要我们选择合适的分类器(例如:SVM、KNN等分类器),接着把我们的参数训练出来。

(2)而在神经网络的视角中:我们只需要把图片喂给它即可,它自动帮助我们去提取特征量,自动训练找出参数,相较于传统的机器学习更加方便。

下面的这张图可以很好地反映出他们的关系:
三者区别


(2)数据

一般来说,无论是传统机器学习还是现在的深度学习,都需要三种常见的数据:

1、训练集:即用来训练模型的数据,模型通过这些数据来不断优化和调整自己的参数

2、验证集:通常从训练集中抽取部分作为验证集,主要用来观测模型,判断是否更换模型或者是否出现意外情况

3、测试集:使用测试数据评价训练得到的模型的实际能力反映模型的泛化能力

此外,如果模型在一个数据集表现很好,但是在其他数据集(测试集或真实场景)面前很差,说明模型可能出现了过拟合的情况,如何消除过拟合的情况是一个值得思考的问题,这里不细讲。



二、损失函数

顾名思义,就是反映这个模型"损失"了多少的函数,在高中的时候我们就遇见过它(最小二乘法相关知识),在这里损失函数是表示神经网络性能的"恶劣程度"的指标,即当前的 神经网络对监督数据在多大程度上不拟合,在多大程度上不一致。

(1)均方误差(mean squared error)

均方误差公式

其中表示的是神经网络的输出,表示的是监督数据。举个例子,手写数字识别案例中,神经网络总共有十个输出,属于前面我们提到的分类问题,下面是可能存在的一种情况

那么中间的值就是我们的 (概率值),右边的值是我们的 (由图可知6是我们的正确答案),我们就可以按照上面的运算进行求解

这里将正确解标签表示为1,其他标签表示为0的表示方法称 为one-hot表示


(2)交叉熵误差(cross entropy error)

其公式如下:
交叉熵误差

需要注意的是这里的log一般是指以e为底数的自然对数()。那么我们会发现,如果按照one-hot表示, 那么最终的结果只是与我们的正确结果的 有关,即交叉熵误差的值是由正确解标签所对应的输出结果决定的

其python表达形式如下:

python 复制代码
import numpy as np

def cross_entropy_error(y, t):
    a = 1e-7
    return -np.sum(t* np.log(y + a))

有人就会问了,为什么要加一个a呢?

------如果说 = 0 ,那么结果会是负无穷大,为了解决这个问题,我们引入 a(很小)来进行调整,防止出现这种情况。


(3)批量处理

在真正的数据集面前,以手写数字识别为例,往往一个数据集就有几万张图片(一张图片的像素不会很高,不像我们手机里面的照片那样),那么我们能不能把所有的数据全部放进去学习呢?

当然不能,除非你的电脑有足够大的显存,而我们通常的解决方案就是把数据分批次放进去学习,例如一次放100张图片进去学习,那么我们这一批次的损失函数计算是把所有100张图片的损失函数加起来取平均:
以交叉熵为例



三、神经网络的输入与输出

在大部分的图像处理当中,我们一般是将图像的每一个像素作为我们的神经元的输入,将最终的预测分类数目作为输出。

以手写数字图像识别为例,如果图像像素是30*30,那么输入数据是一个30*30=900维达到数据。输出则是一个十维的输出。

相关推荐
北海道浪子7 分钟前
[免费送$1000]ClaudeCode、Codex等AI模型在开发中的使用
前端·人工智能·后端
福客AI18 分钟前
电商智能客服机器人:客服的服务革新之路
人工智能·机器人
CoderIsArt30 分钟前
CORDIC三角计算技术
人工智能·算法·机器学习
立志成为大牛的小牛30 分钟前
数据结构——二十九、图的广度优先遍历(BFS)(王道408)
数据结构·数据库·学习·程序人生·考研·算法·宽度优先
taxunjishu30 分钟前
Ethernet/ip 转 Modbus RTU 驱动,罗克韦尔 PLC 与华为逆变器打造光伏电站智能监控典范
人工智能·物联网·自动化·区块链
Alex艾力的IT数字空间32 分钟前
基于PyTorch和CuPy的GPU并行化遗传算法实现
数据结构·人工智能·pytorch·python·深度学习·算法·机器学习
屁股割了还要学43 分钟前
【Linux入门】常用工具:yum、vim
linux·运维·服务器·c语言·c++·学习·考研
却道天凉_好个秋1 小时前
OpenCV(十三):通道的分离与合并
人工智能·opencv·计算机视觉
七宝大爷1 小时前
NVIDIA Blackwell Ultra GB300深度解析:AI芯片性能的新巅峰
人工智能·gpu·gb300
鲸鱼在dn1 小时前
大语言模型的后训练与“灾难性遗忘”问题——李宏毅2025大模型第六讲笔记
人工智能·笔记·语言模型