如何理解深度学习的训练过程

文章目录

1.训练是干什么?

以yolov5为例子,训练的目的是把一组输入猫狗图像放到神经网络中,得到一个输出模型,这个模型下次可以直接用来识别哪个是猫,哪个是狗

2.预训练模型进行训练,主要更改的是预训练模型的什么东西?

  • 超参数(Hyperparameters):

这是模型结构中定义的参数,比如:

卷积核大小(kernel_size):影响特征提取的精细程度。

步长(stride):决定卷积操作在输入特征图上的移动幅度,影响输出的特征图大小。

激活函数(如SiLU):影响非线性变换的方式。

层数、通道数(如卷积核数量、隐藏层数量):影响模型的复杂度。

调整这些超参数不涉及对模型本身权重的学习,而是你手动设计模型结构的过程。你可以手动设置这些参数,优化模型的表现。

  • 模型参数(Trainable Parameters):

这是模型在训练过程中通过数据自动学习的参数,主要是卷积层的权重和偏置。比如卷积核内部的权重(Conv2d中的weights和bias)会随着训练数据的输入和误差的反馈不断更新。

这些参数是在反向传播过程中由优化器(如Adam、SGD等)自动调整的,目的是使模型更好地拟合训练数据。(这里的weights和bias是隐含的,不会出现在打印出的网络结构中)

相关推荐
HPC_fac130520678169 分钟前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
网易独家音乐人Mike Zhou3 小时前
【卡尔曼滤波】数据预测Prediction观测器的理论推导及应用 C语言、Python实现(Kalman Filter)
c语言·python·单片机·物联网·算法·嵌入式·iot
安静读书3 小时前
Python解析视频FPS(帧率)、分辨率信息
python·opencv·音视频
小陈phd3 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao4 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
小二·4 小时前
java基础面试题笔记(基础篇)
java·笔记·python
小喵要摸鱼6 小时前
Python 神经网络项目常用语法
python
一念之坤7 小时前
零基础学Python之数据结构 -- 01篇
数据结构·python
wxl7812278 小时前
如何使用本地大模型做数据分析
python·数据挖掘·数据分析·代码解释器
NoneCoder8 小时前
Python入门(12)--数据处理
开发语言·python