深度学习中的正则化技术

序言

在深度学习中，正则化技术是防止模型过拟合、提升泛化能力的关键策略。随着模型复杂度的增加，过拟合风险也随之上升。正则化通过引入额外约束或信息，调整模型训练过程，旨在简化模型结构，使其学习到数据中的本质特征而非噪声，从而在保证训练效果的同时，提高模型对新数据的适应能力。这一技术对于推动深度学习在实际应用中的成功至关重要。

设计不仅在训练数据上表现好，并且能在新输入上泛化好的算法是机器学习中的一个核心问题。在机器学习中许多策略通过明确设计，以增大训练误差为代价来减少测试误差。这些策略统称为正则化（regularization）。正如我们将看到的，深度学习工作者可以使用许多形式的正则化。事实上，开发更有效的正则化策略已成为本领域的主要研究工作之一。
我们在以往++篇章：应用数学与机器学习基础系列++ 中，介绍了泛化、欠拟合、过拟合、偏差、方差和正则化的基本概念。如果还不熟悉这些概念，请回顾本文末尾的往期内容加以复习巩固。
在本文中，我们会更详细地描述正则化，重点描述深度模型（或组成深度模型的模块）的正则化策略，以及某些节涉及机器学习中的标准概念。如果你已经熟悉了这些概念，可以随意跳过相关章节。然而，本文的大多数内容涉及这些基本概念在特定神经网络中的扩展。
在应用数学与机器学习基础 - 容量、过拟合和欠拟合篇中，我们将正则化 义为"对学习算法的修改------旨在减少泛化误差而不是训练误差 "。目前有许多正则化策略。
- 有些向机器学习模型添加额外的约束，如增加对参数的限制。
- 有些向目标函数增加额外项，对应于参数值的软约束。
- 如果仔细选择，这些额外的++约束和惩罚++可以改善模型在测试集上的表现。
- 有时，这些++约束和惩罚++设计为编码特定类型的先验知识。
- 其他时候，这些++约束和惩罚++的目的是表达对简单模型的一般偏好，以便提高泛化能力。
- 有时候，++惩罚和约束++对于确定欠定的问题是必要的。其他形式的正则化（如集成方法）结合多个假说来解释训练数据。
在深度学习的背景下，大多数正则化策略都对估计进行正则化。估计的正则化以偏差的增加换取方差的减少。一个有效的正则化是有利的"交易"，也就是能显著减少方差而不过度增加偏差。我们在++篇章：应用数学与机器学习基础系列++ 中讨论泛化和过拟合时，主要侧重模型族训练的3个情形：
- （1）不包括真实的数据生成过程------对应于欠拟合和偏差引入
- （2）匹配真实数据生成过程
- （3）除了包含真实的数据生成过程，还包含了许多其他可能的生成过程------方差（而不是偏差）主导的过拟合。正则化的目标是使模型从第三种情况进入到第二个情况。
在实践中，过于复杂的模型族不一定包括目标函数或真实数据生成过程，甚至近似的过程都不包含。
我们几乎从来无法知晓真实数据的生成过程，所以我们永远不知道被估计的模型族是否包括生成过程。
然而，深度学习算法的大多数应用都是针对这样的领域，其中真实数据的生成过程几乎肯定在模型族之外。
深度学习算法通常应用于极为复杂的领域，如图像、音频序列和文本，本质上这些领域的真正生成过程涉及模拟整个宇宙。
从某种程度上说，我们总是持方枘（拼音：fāng ruì）（数据生成过程）而欲内圆凿（拼音：yuán záo）（我们的模型族）。
这意味着控制模型的复杂性不是找到合适规模的模型（带有正确的参数个数）这样一个简单的事情。相反，我们可能会发现，或者说在实际的深度学习场景中我们几乎总是会发现，最好的拟合模型（最小化泛化误差的意义上）是一个适当正则化的大型模型。
现在，我们将在后续篇章中回顾几种创建这些大型深度正则化模型的策略。

总结

深度学习中的正则化技术通过约束模型复杂度、调整训练策略等方式，有效解决了过拟合问题，显著提升了模型的泛化能力。无论是L1/L2正则化、Dropout、早停法还是数据增强，都从不同角度促进了模型对本质特征的学习，使深度学习模型在复杂任务中展现出强大的性能。正则化技术已成为深度学习不可或缺的一部分，推动着人工智能领域的持续发展。

往期重要内容回顾