神经网络的调参顺序

很多人在做深度学习实验时，参数也调了，搜索空间也拉满了，但效果就是不稳定。

其实问题往往不在"参数不够多"，而在于------调参顺序是乱的。

调参不是玄学，而是有优先级和逻辑顺序的。

一、先保证"能稳定训练"，再谈效果

在任何调参之前，先确认一件事：模型能不能正常收敛。

重点看三点：

如果这一步都不稳定，后面的指标对比是没有意义的。

学习率永远是最重要的参数，没有之一。

经验：

在不确定时，先用一个相对偏小但稳定的学习率，确保模型能学，再考虑调大。
记住一句话：学习率没调好，其他参数基本都是噪声。

在学习率基本可用之后，再调整这两项。

1、batch size：

2、优化器

通常建议：先用 Adam 类优化器跑通流程，再考虑是否换 SGD。

这一步是为了解决过拟合问题。常见可调项包括：weight decay、dropout、label smoothing

调参逻辑是：

在模型基本稳定后，再考虑这些"锦上添花"的东西：

这些通常带来的是小而稳定的提升，而不是质变。

这是最容易被"提前动手"的一层，但应该放在最后。包括：

如果前面的参数没固定好，结构怎么改，结论都不可靠。

1️⃣ 学习率

2️⃣ batch size & 优化器

3️⃣ 正则化参数

4️⃣ 训练策略

5️⃣ 模型结构

每一步只动一个变量，并且记录结果。

调参本质上是一次次假设验证，而不是盲目搜索。
顺序对了，实验效率自然就上来了。