【机器学习:机器学习中的过拟合】它是什么以及如何防止它
你知道有一个错误吗?
成千上万的数据科学初学者在不知不觉中犯下的错误?
这个错误会毁掉你的机器学习模型吗?
不,这不是夸张。我们讨论的是应用机器学习中最棘手的障碍之一:过拟合。
但不用担心:
在本指南中,我们将引导您准确了解过度拟合的含义、如何在模型中发现过度拟合以及模型过度拟合时该怎么办。
到最后,您将知道如何一劳永逸地处理这个棘手的问题。
过度拟合的例子
假设我们想根据学生的简历来预测她是否会获得工作面试机会。
现在,假设我们根据 10,000 份简历及其结果的数据集训练一个模型。
接下来,我们在原始数据集上尝试该模型,它以 99% 的准确率预测结果......哇!
但现在坏消息来了。
当我们在新的("看不见的")简历数据集上运行模型时,我们只能获得 50% 的准确率......呃哦!
我们的模型不能很好地从训练数据泛化到未见过的数据。
这称为过度拟合,是机器学习和数据科学中的常见问题。
事实上,过度拟合在现实世界中时常发生。您只需打开新闻频道即可听到示例:
过度拟合选举优先级(来源:XKCD)
信号与噪声
您可能听说过内特·西尔弗(Nate Silver)所著的著名著作《信号与噪声》。
在预测建模中,您可以将"信号"视为您希望从数据中学习的真正的基础模式。
另一方面,"噪声"是指数据集中的不相关信息或随机性。
例如,假设您正在对儿童的身高与年龄进行建模。如果你对大部分人群进行抽样,你会发现一个非常清晰的关系:
身高与年龄(来源:CDC)
这就是信号。
然而,如果你只能选择一所当地学校,那么这种关系可能会更加混乱。它会受到异常值(例如,父亲是 NBA 球员的孩子)和随机性(例如,在不同年龄进入青春期的孩子)的影响。
噪声干扰信号。
这就是机器学习的用武之地。功能良好的机器学习算法可以将信号与噪声分开。
如果算法太复杂或太灵活(例如,它有太多输入特征或没有正确正则化),它最终可能会"记住噪声"而不是找到信号。
然后,该过度拟合模型将根据该噪声进行预测。它在训练数据上的表现异常出色......但在新的、看不见的数据上表现却很差。
拟合优度
在统计学中,拟合优度是指模型的预测值与观测(真实)值的匹配程度。
学习了噪声而不是信号的模型被认为是"过度拟合",因为它适合训练数据集,但与新数据集拟合不佳。
虽然黑线与数据拟合良好,但绿线却过度拟合。
过拟合与欠拟合
通过观察相反的问题------欠拟合,我们可以更好地理解过拟合。
当模型太简单时(特征太少或正则化太多)就会出现欠拟合,这使得模型在从数据集中学习时不灵活。
简单学习者的预测方差往往较小,但对错误结果的偏差更大(请参阅:偏差-方差权衡)。
另一方面,复杂的学习者的预测往往有更大的差异。
偏差和方差都是机器学习中预测误差的形式。
通常,我们可以减少偏差带来的误差,但可能会增加方差带来的误差,反之亦然。
这种太简单(高偏差)与太复杂(高方差)之间的权衡是统计学和机器学习中的一个关键概念,并且影响所有监督学习算法。
偏差与方差(来源:EDS)
如何检测机器学习中的过度拟合
过度拟合以及一般机器学习的一个关键挑战是,在实际测试之前,我们无法知道模型在新数据上的表现如何。
为了解决这个问题,我们可以将初始数据集分成单独的训练和测试子集。
训练-测试分离
该方法可以估算我们的模型在新数据上的表现。
如果我们的模型在训练集上的表现比在测试集上的表现好得多,那么我们可能会过度拟合。
例如,如果我们的模型在训练集上的准确率达到 99%,但在测试集上的准确率仅为 55%,那么这将是一个很大的危险信号。
如果您想了解 Python 中的工作原理,我们提供了使用 Scikit-Learn 进行机器学习的完整教程。
另一个技巧是从一个非常简单的模型开始作为基准。
然后,当您尝试更复杂的算法时,您将有一个参考点来看看额外的复杂性是否值得。
这就是奥卡姆剃刀测试。如果两种模型的性能相当,那么您通常应该选择更简单的一种。
如何防止机器学习中的过度拟合
检测过度拟合很有用,但并不能解决问题。幸运的是,您有多种选择可以尝试。
以下是一些最流行的过拟合解决方案:
交叉验证
交叉验证是防止过拟合的有效预防措施。
这个想法很聪明:使用初始训练数据生成多个小型训练测试拆分。使用这些拆分来调整模型。
在标准的 k 折叠交叉验证中,我们将数据划分为 k 个子集,称为折叠。然后,我们在 k-1 折叠上迭代训练算法,同时使用剩余的折叠作为测试集(称为"保持折叠")。
K-Fold 交叉验证
交叉验证允许您仅使用原始训练集来调整超参数。这允许您将测试集保留为真正看不见的数据集,以便选择最终模型。
我们还有另一篇文章,对交叉验证进行了更详细的细分。
使用更多数据进行训练
它不会每次都有效,但使用更多数据进行训练可以帮助算法更好地检测信号。在前面对儿童身高与年龄进行建模的示例中,很明显,抽样更多学校将如何帮助您的模型。
当然,情况并非总是如此。如果我们只是添加更多嘈杂的数据,这种技术将无济于事。这就是为什么你应该始终确保你的数据是干净和相关的。
删除功能
某些算法具有内置的特征选择功能。
对于不这样做的要素,您可以通过删除不相关的输入要素来手动提高其泛化性。
一个有趣的方法是讲述一个关于每个特征如何适应模型的故事。这就像数据科学家对软件工程师的橡皮鸭调试技术的旋转,他们通过逐行向橡皮鸭解释代码来调试代码。
如果有什么没有意义,或者很难证明某些功能的合理性,这是识别它们的好方法。
此外,还有几种特征选择启发式方法可用于良好的起点。
提前停止
在迭代训练学习算法时,可以衡量模型每次迭代的性能。
在达到一定次数的迭代之前,新的迭代会改进模型。然而,在那之后,模型的泛化能力可能会减弱,因为它开始过度拟合训练数据。
提前停止是指在学习者通过该点之前停止训练过程。
如今,这种技术主要用于深度学习,而其他技术(如正则化)则是经典机器学习的首选。
规范化
正则化指的是一系列人为迫使模型变得更简单的技术。
具体方法取决于您使用的学习器类型。例如,你可以修剪决策树,在神经网络中使用剔除,或者在回归中为代价函数添加惩罚参数。
通常,正则化方法也是一种超参数,这意味着可以通过交叉验证对其进行调整。
在此,我们将对算法和正则化方法进行更详细的讨论。
组装
集合是一种机器学习方法,用于综合多个独立模型的预测结果。有几种不同的集合方法,但最常见的有两种:
Bagging 试图减少过度拟合复杂模型的机会。
- 它可以并行培训大量的 "强 "学习者。
- 强学习者是一个相对不受约束的模型。
- 然后,套袋法将所有强学习者组合在一起,以 "平滑 "其预测结果。
助推试图提高简单模型的预测灵活性。
- 它依次训练大量 "弱 "学习者。
- 弱学习器是一种受限模型(即可以限制每棵决策树的最大深度)。
- 这一系列中的每一部作品都注重吸取前一部作品的经验教训。
- 然后,提升技术会将所有弱学习器合并成一个强学习器。
虽然套袋法和提升法都是集合方法,但它们处理问题的方向却截然相反。
套袋法使用复杂的基础模型,并试图 "平滑 "其预测结果,而提升法使用简单的基础模型,并试图 "提升 "其总体复杂度。
下一步工作
呼!我们刚刚讲了很多概念:
- 信号、噪音以及它们与过度拟合的关系。
- 统计数据的拟合优度
- 欠拟合与过拟合
- 偏差与方差的权衡
- 如何利用训练-测试分割检测过度拟合
- 如何使用交叉验证、特征选择、正则化等方法防止过度拟合。
希望看到所有这些概念联系在一起有助于澄清其中的一些概念。
要真正掌握这一主题,我们建议您进行实际操作练习。
虽然这些概念一开始可能会让人感到难以理解,但一旦你开始在实际代码和问题中看到它们,就会 "豁然开朗"。