如何理解深度学习的训练过程

文章目录

1.训练是干什么?

以yolov5为例子,训练的目的是把一组输入猫狗图像放到神经网络中,得到一个输出模型,这个模型下次可以直接用来识别哪个是猫,哪个是狗

2.预训练模型进行训练,主要更改的是预训练模型的什么东西?

  • 超参数(Hyperparameters):

这是模型结构中定义的参数,比如:

卷积核大小(kernel_size):影响特征提取的精细程度。

步长(stride):决定卷积操作在输入特征图上的移动幅度,影响输出的特征图大小。

激活函数(如SiLU):影响非线性变换的方式。

层数、通道数(如卷积核数量、隐藏层数量):影响模型的复杂度。

调整这些超参数不涉及对模型本身权重的学习,而是你手动设计模型结构的过程。你可以手动设置这些参数,优化模型的表现。

  • 模型参数(Trainable Parameters):

这是模型在训练过程中通过数据自动学习的参数,主要是卷积层的权重和偏置。比如卷积核内部的权重(Conv2d中的weights和bias)会随着训练数据的输入和误差的反馈不断更新。

这些参数是在反向传播过程中由优化器(如Adam、SGD等)自动调整的,目的是使模型更好地拟合训练数据。(这里的weights和bias是隐含的,不会出现在打印出的网络结构中)

相关推荐
海域云赵从友2 分钟前
助力DeepSeek私有化部署服务:让企业AI落地更简单、更安全
人工智能·安全
伊一大数据&人工智能学习日志16 分钟前
自然语言处理NLP 04案例——苏宁易购优质评论与差评分析
人工智能·python·机器学习·自然语言处理·数据挖掘
刀客12321 分钟前
python3+TensorFlow 2.x(六)自编码器
人工智能·python·tensorflow
微刻时光21 分钟前
影刀RPA中级证书-Excel进阶-开票清单
经验分享·python·低代码·rpa·影刀·影刀证书·影刀实战
大模型之路37 分钟前
Grok-3:人工智能领域的新突破
人工智能·llm·grok-3
一朵小花38 分钟前
Python中with的用法
python
闻道且行之1 小时前
LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型
人工智能·语言模型·llama·qlora·fsdp
造夢先森1 小时前
Transformer & LLaMA
深度学习·transformer·llama
m0_748232391 小时前
基于OpenCV和Python的人脸识别系统_django
python·opencv·django
喝不完一杯咖啡1 小时前
【AI时代】可视化训练模型工具LLaMA-Factory安装与使用
人工智能·llm·sft·llama·llama-factory