深度学习 Deep Learning 第5章机器学习基础

第5章机器学习基础

章节概述

本章深入探讨了机器学习的基本概念和原理，重点讨论了学习算法、任务类型、性能评估、经验来源以及机器学习中的关键挑战。机器学习的核心在于从数据中学习模式，以对新数据进行预测或决策。本章首先介绍了监督学习和非监督学习的基本概念，以及如何通过调整模型容量来避免过拟合和欠拟合。接着，详细讨论了正则化技术、超参数和验证集的使用，以及交叉验证等方法。此外，还介绍了估计器、偏差和方差的概念，并探讨了最大似然估计和贝叶斯统计在机器学习中的应用。最后，通过具体的学习算法示例，如线性回归和逻辑回归，展示了这些概念在实际问题中的应用。

5.1 机器学习的基本概念

机器学习定义：计算机程序通过经验（数据）改进其在某任务上的性能，无需显式编程。

5.1.1 任务(Task)

机器学习任务多种多样，常见的包括分类、回归、转录、机器翻译、结构化输出、异常检测、合成与采样、缺失值填充和去噪等。例如，分类任务要求模型将输入数据归类到预定义的类别中，而回归任务则要求模型预测一个数值输出。

5.1.2 性能评估(Performance Measure)

性能评估是衡量机器学习算法效果的关键。对于分类任务，常用准确率来衡量模型性能；对于密度估计任务，则常用平均对数概率来评估模型。

5.1.3 经验(experience)

机器学习算法的经验主要来源于数据集，这些数据集可以是监督学习(带标签)中的标记数据，也可以是非监督学习(无标签)中的未标记数据。数据集的结构和质量对学习算法的性能有重要影响。

5.2 容量(Capacity)、过拟合和欠拟合

容量（Capacity）：

模型拟合复杂函数的能力，由假设空间的选择决定（如多项式阶数）。

泛化能力：

模型在新数据上的表现，避免过拟合（高方差）和欠拟合（高偏差）。

模型容量决定了其拟合数据的能力。容量过低会导致欠拟合，模型无法捕捉数据中的复杂模式；容量过高则可能导致过拟合，模型在训练数据上表现良好，但在新数据上泛化能力差。通过调整模型容量和使用正则化技术，可以在欠拟合和过拟合之间找到平衡。

5.3 超参数和验证集

超参数是学习算法中需要预先设置的参数，它们对算法的性能有重要影响。通过划分训练集和验证集，可以有效地调整超参数，避免过拟合。

5.4 估计器、偏差和方差

估计器是用于从数据中估计参数或函数的工具。偏差衡量估计值与真实值的偏离程度，方差衡量估计值的波动程度。一个好的估计器需要在偏差和方差之间取得平衡。

5.5 最大似然估计(MLE)和最大后验统计(MAP)

最大似然估计是一种常用的学习算法，通过最大化训练数据的似然函数来估计模型参数。这种方法在许多机器学习任务中表现出色，尤其是在数据量较大时。

5.6 贝叶斯统计

贝叶斯统计提供了一种不同的参数估计方法，通过结合先验知识和数据来更新对参数的信念。这种方法在数据量有限时通常能更好地泛化，但计算成本较高。不追求单一点估计，而是计算参数的后验分布

优点：提供预测的不确定性估计；缺点：计算复杂，适合小数据。

5.7监督学习算法

线性回归
逻辑回归
支持向量机（SVM）
优点：泛化能力强；缺点：计算复杂度随数据量增加。
k近邻（k-NN
非参数方法：预测时查找训练集中最近的k个样本，投票（分类）或平均（回归）。
优点：无需训练；缺点：计算效率低，对高维数据敏感。

5.8 关键公式

章节总结

本章全面介绍了机器学习的基础知识，从学习算法的定义到具体任务类型，再到性能评估和经验来源。通过讨论容量、过拟合和欠拟合，以及超参数和验证集的使用，展示了如何设计和调整学习算法以提高其泛化能力。估计器、偏差和方差的概念进一步深化了对学习算法性能的理解。最大似然估计和贝叶斯统计提供了两种不同的参数估计方法，各有优劣。最后，通过具体的学习算法示例，如线性回归和逻辑回归，展示了这些理论在实际应用中的效果。这些内容为深入理解机器学习算法的设计和应用奠定了基础。

延伸思考

模型选择：根据数据规模和复杂度选择合适模型（如线性模型适合低维，SVM/k-NN适合小样本非线性）。

正则化的重要性：始终通过L1/L2正则化或早停法防止过拟合。

贝叶斯视角：提供不确定性量化，适合风险敏感场景（如医疗诊断）。

实践建议：优先使用交叉验证调参，测试集仅作最终评估，避免多次使用导致乐观偏差。

精彩语录

1.机器学习的核心挑战在于如何在新的、以前未见过的输入上表现良好，这称为泛化。

英文原文：The central challenge in machine learning is that we must perform well on new, previously unseen inputs---not just those on which our model was trained.

解释：这句话强调了机器学习的核心挑战是模型需要在新的、未见过的数据上表现良好，而不仅仅是训练数据。这涉及到模型的泛化能力，即模型能否将从训练数据中学到的模式应用到新的数据中。
2.泛化误差定义为模型在新输入上的预期误差值。

英文原文：The generalization error is defined as the expected value of the error on a new input.

解释：这句话定义了泛化误差，它衡量了模型在新输入上的预期误差。泛化误差是机器学习中一个关键的概念，因为它反映了模型在实际应用中的表现。
3.模型容量是指模型拟合各种函数的能力。

英文原文：Informally, a model's capacity is its ability to fit a wide variety of functions.

解释：这句话非正式地定义了模型容量，即模型拟合各种函数的能力。模型容量越大，能够拟合的函数种类就越多，但也可能导致过拟合。
4.正则化是任何旨在减少模型泛化误差但不减少训练误差的修改。

英文原文：Regularization is any modification we make to a learning algorithm that is intended to reduce its generalization error but not its training error.

解释：这句话解释了正则化的概念，即对学习算法进行的任何修改，目的是减少其泛化误差，但不减少训练误差。正则化技术用于防止过拟合，提高模型的泛化能力。
5.在适当条件下，最大似然估计具有收敛性，即随着训练样本数量的增加，最大似然估计的参数值会逐渐收敛到真实参数值。

英文原文：Under appropriate conditions, the maximum likelihood estimator has the property of consistency, meaning that as the number of training examples approaches infinity, the maximum likelihood estimate of a parameter converges to the true value of the parameter.

解释：这句话说明了在适当条件下，最大似然估计具有收敛性，即随着训练样本数量的增加，最大似然估计的参数值会逐渐收敛到真实参数值。这是最大似然估计的一个重要性质，表明其在大样本下的可靠性。

深度学习 Deep Learning 第5章 机器学习基础

第5章 机器学习基础