深度学习-全连接神经网络-训练过程-模型正则与超参数调优- [北邮鲁鹏]

古董a2023-09-15 14:13

目录标题

神经网络中的超参数

神经网络中的超参数

超参数

网络结构：隐层神经元个数，网络层数，非线性单元选择等
优化相关：学习率、dorpout比率、正则项强度等

学习率

学习率过大，训练过程无法收敛

学习率偏大，在最小值附近震荡，达不到最优

学习率太小，收敛时间较长

学习率适中，收敛快、结果好

超参数优化方法

网格搜索法

每个超参数分别取几个值，组合这些超参数值，形成多组超参数；
在验证集上评估每组超参数的模型性能；
选择性能最优的模型所采用的那组值作为最终的超参数的值。

缺点：横轴3个测试值*纵轴3个测试值=9组实验，将注意力放在了不重要的参数δ

随机搜索法

参数空间内随机取点，每个点对应一组超参数；
在验证集上评估每组超参数的模型性能；
选择性能最优的模型所采用的那组值作为最终的超参数的值。

优点：横轴9个测试值&纵轴9个测试值=9组实验

超参数搜索策略

粗搜索

利用随机法在较大范围里采样超参数，训练一个周期，依据验证集正确率缩小超参数范围

精搜索

利用随机法在前述缩小的范围内采样超参数，运行模型五到十个周期，选择验证集上精度最高的那组超参数

超参数的标尺空间

例：假设最优值在0.0001到1之间，如果在0-1之间采样，90%会在0.1-1之间。

最优的值在[0.0001,1]之间，我们该如何采样？

建议：对于学习率、正则项强度这类超参数，在对数空间上进行随机采样更合适！
在1~0的量级范围内，差别不大，不敏感，所以一般在log对数空间上进行随机采样。

在log空间上，0.0001-0.001-0.01-0.1-1之间的间隔是等距的

上一篇：Mysql-＞Hudi-＞Hive

下一篇：【深度学习】 Python 和 NumPy 系列教程（十五）：Matplotlib详解：2、3d绘图类型（1）：线框图（Wireframe Plot）

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 04npm使用国内淘宝镜像的方法 05Linux下V2Ray安装配置指南 06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07BongoCat - 跨平台键盘猫动画工具 08《大数据技术原理与应用》实验报告三熟悉HBase常用操作 09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10GitLab 零基础入门指南：从安装到项目管理全流程