深度学习-全连接神经网络-训练过程-模型正则与超参数调优- [北邮鲁鹏]

目录标题

神经网络中的超参数

超参数

  • 网络结构:隐层神经元个数,网络层数,非线性单元选择等
  • 优化相关:学习率、dorpout比率、正则项强度等

学习率

学习率过大,训练过程无法收敛

学习率偏大,在最小值附近震荡,达不到最优

学习率太小,收敛时间较长

学习率适中,收敛快、结果好

超参数优化方法

网格搜索法

  1. 每个超参数分别取几个值,组合这些超参数值,形成多组超参数;
  2. 在验证集上评估每组超参数的模型性能;
  3. 选择性能最优的模型所采用的那组值作为最终的超参数的值。


缺点:横轴3个测试值*纵轴3个测试值=9组实验,将注意力放在了不重要的参数δ

随机搜索法

  1. 参数空间内随机取点,每个点对应一组超参数;
  2. 在验证集上评估每组超参数的模型性能;
  3. 选择性能最优的模型所采用的那组值作为最终的超参数的值。

    优点:横轴9个测试值&纵轴9个测试值=9组实验

超参数搜索策略

粗搜索

利用随机法在较大范围里采样超参数,训练一个周期,依据验证集正确率缩小超参数范围

精搜索

利用随机法在前述缩小的范围内采样超参数,运行模型五到十个周期,选择验证集上精度最高的那组超参数

超参数的标尺空间

例:假设最优值在0.0001到1之间,如果在0-1之间采样,90%会在0.1-1之间。

最优的值在[0.0001,1]之间,我们该如何采样?

建议:对于学习率、正则项强度这类超参数,在对数空间上进行随机采样更合适!
在1~0的量级范围内,差别不大,不敏感,所以一般在log对数空间上进行随机采样。

在log空间上,0.0001-0.001-0.01-0.1-1之间的间隔是等距的

相关推荐
m0_650108242 小时前
【论文精读】CMD:迈向高效视频生成的新范式
人工智能·论文精读·视频扩散模型·高效生成·内容 - 运动分解·latent 空间
电鱼智能的电小鱼2 小时前
基于电鱼 AI 工控机的智慧工地视频智能分析方案——边缘端AI检测,实现无人值守下的实时安全预警
网络·人工智能·嵌入式硬件·算法·安全·音视频
年年测试2 小时前
AI驱动的测试:用Dify工作流实现智能缺陷分析与分类
人工智能·分类·数据挖掘
唐兴通个人3 小时前
人工智能Deepseek医药AI培训师培训讲师唐兴通讲课课程纲要
大数据·人工智能
WGS.3 小时前
llama factory 扩充词表训练
深度学习
共绩算力3 小时前
Llama 4 Maverick Scout 多模态MoE新里程碑
人工智能·llama·共绩算力
DashVector4 小时前
向量检索服务 DashVector产品计费
数据库·数据仓库·人工智能·算法·向量检索
AI纪元故事会4 小时前
【计算机视觉目标检测算法对比:R-CNN、YOLO与SSD全面解析】
人工智能·算法·目标检测·计算机视觉
音视频牛哥4 小时前
从协议规范和使用场景探讨为什么SmartMediaKit没有支持DASH
人工智能·音视频·大牛直播sdk·dash·dash还是rtmp·dash还是rtsp·dash还是hls
赞奇科技Xsuperzone5 小时前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia