如何理解深度学习的训练过程

aloha_7892024-09-15 16:23

文章目录

- - 1.训练是干什么？
  - 2.预训练模型进行训练，主要更改的是预训练模型的什么东西？

1.训练是干什么？

以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗

2.预训练模型进行训练，主要更改的是预训练模型的什么东西？

超参数（Hyperparameters）：

这是模型结构中定义的参数，比如：

卷积核大小（kernel_size）：影响特征提取的精细程度。

步长（stride）：决定卷积操作在输入特征图上的移动幅度，影响输出的特征图大小。

激活函数（如SiLU）：影响非线性变换的方式。

层数、通道数（如卷积核数量、隐藏层数量）：影响模型的复杂度。

调整这些超参数不涉及对模型本身权重的学习，而是你手动设计模型结构的过程。你可以手动设置这些参数，优化模型的表现。

模型参数（Trainable Parameters）：

这是模型在训练过程中通过数据自动学习的参数，主要是卷积层的权重和偏置。比如卷积核内部的权重（Conv2d中的weights和bias）会随着训练数据的输入和误差的反馈不断更新。

这些参数是在反向传播过程中由优化器（如Adam、SGD等）自动调整的，目的是使模型更好地拟合训练数据。(这里的weights和bias是隐含的，不会出现在打印出的网络结构中)

上一篇：计算机执行汇编代码的原理

下一篇：云微客短视频矩阵系统，成为了内容创作的新宠

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？