CNN神经网络调参技巧

一、基本网络结构

1.若干块,每块:卷积+BN+激活+池化

2.若干块,每块:卷积+激活+Dropout

3.若干块,每块:fc+激活+Dropout

二、技巧

  1. 损失曲线
  • 常见曲线是先快速下降后趋于平缓,如果线性下降,说明学习率可能过低
  • 曲线震荡剧烈不平滑,可能是由于batchsize过小导致
  • 训练损失正常下降,验证损失先下降后上升,说明过拟合,可以调整dropout等解决
  • 损失最低点不代表模型性能最佳点

2.调参

  • 优先使用大的网络结构训练出过拟合效果
  • 第一层卷积核通道数应当较大,因为浅层特征较为重要
  • 主要还是根据损失函数进行调整
  • batchsize大容易过拟合,先用大batchsize,再用dropout解决过拟合

3.其他

  • 使用same卷积,更方便,不用每次计算卷积后的输出尺寸
相关推荐
智算菩萨5 小时前
上下文学习的贝叶斯推断视角:隐式梯度下降还是隐式贝叶斯?
人工智能·算法
看-是灰机5 小时前
openclaw
人工智能
骇城迷影5 小时前
从零复现GPT-2 124M
人工智能·pytorch·python·gpt·深度学习
黑巧克力可减脂5 小时前
商鞅变法与代码重构:AI正在如何重写软件工程的“耕战律令”
人工智能·重构·软件工程
大傻^6 小时前
【AI安全攻防战】提示词攻击与防护:从“奶奶漏洞“到企业级防御体系
人工智能·安全·提示词安全
大学在校生,求offer联系6 小时前
YuFeng-XGuard-Reason安全护栏模型实测评价
人工智能·安全
Hcoco_me6 小时前
深挖 TBD 核心进阶点:深度学习匹配(目标关联的“智能指纹”)
人工智能·深度学习·目标检测·计算机视觉·目标跟踪
Σίσυφος19006 小时前
四元数 欧拉角 旋转矩阵
人工智能·算法·矩阵
GitCode官方6 小时前
智谱最新一代旗舰模型 GLM-5 开源,AtomGit AI 首发上线
人工智能·开源
马腾化云东6 小时前
Agent开发应知应会(Langfuse):Langfuse Session概念详解和实战应用
人工智能·python·llm