第5章 机器学习基础
章节概述
本章深入探讨了机器学习的基本概念和原理,重点讨论了学习算法、任务类型、性能评估、经验来源以及机器学习中的关键挑战。机器学习的核心在于从数据中学习模式,以对新数据进行预测或决策。本章首先介绍了监督学习和非监督学习的基本概念,以及如何通过调整模型容量来避免过拟合和欠拟合。接着,详细讨论了正则化技术、超参数和验证集的使用,以及交叉验证等方法。此外,还介绍了估计器、偏差和方差的概念,并探讨了最大似然估计和贝叶斯统计在机器学习中的应用。最后,通过具体的学习算法示例,如线性回归和逻辑回归,展示了这些概念在实际问题中的应用。

5.1 机器学习的基本概念
机器学习定义:计算机程序通过经验(数据)改进其在某任务上的性能,无需显式编程。
5.1.1 任务(Task)
机器学习任务多种多样,常见的包括分类、回归、转录、机器翻译、结构化输出、异常检测、合成与采样、缺失值填充和去噪等。例如,分类任务要求模型将输入数据归类到预定义的类别中,而回归任务则要求模型预测一个数值输出。
5.1.2 性能评估(Performance Measure)
性能评估是衡量机器学习算法效果的关键。对于分类任务,常用准确率来衡量模型性能;对于密度估计任务,则常用平均对数概率来评估模型。
5.1.3 经验(experience)
机器学习算法的经验主要来源于数据集,这些数据集可以是监督学习(带标签)中的标记数据,也可以是非监督学习(无标签)中的未标记数据。数据集的结构和质量对学习算法的性能有重要影响。
5.2 容量(Capacity)、过拟合和欠拟合
容量(Capacity):
模型拟合复杂函数的能力,由假设空间的选择决定(如多项式阶数)。
泛化能力:
模型在新数据上的表现,避免过拟合(高方差)和欠拟合(高偏差)。
模型容量决定了其拟合数据的能力。容量过低会导致欠拟合,模型无法捕捉数据中的复杂模式;容量过高则可能导致过拟合,模型在训练数据上表现良好,但在新数据上泛化能力差。通过调整模型容量和使用正则化技术,可以在欠拟合和过拟合之间找到平衡。
5.3 超参数和验证集
超参数是学习算法中需要预先设置的参数,它们对算法的性能有重要影响。通过划分训练集和验证集,可以有效地调整超参数,避免过拟合。
5.4 估计器、偏差和方差
估计器是用于从数据中估计参数或函数的工具。偏差衡量估计值与真实值的偏离程度,方差衡量估计值的波动程度。一个好的估计器需要在偏差和方差之间取得平衡。
5.5 最大似然估计(MLE)和最大后验统计(MAP)
最大似然估计是一种常用的学习算法,通过最大化训练数据的似然函数来估计模型参数。这种方法在许多机器学习任务中表现出色,尤其是在数据量较大时。
5.6 贝叶斯统计
贝叶斯统计提供了一种不同的参数估计方法,通过结合先验知识和数据来更新对参数的信念。这种方法在数据量有限时通常能更好地泛化,但计算成本较高。不追求单一点估计,而是计算参数的后验分布
优点:提供预测的不确定性估计;缺点:计算复杂,适合小数据。
5.7监督学习算法
- 线性回归
- 逻辑回归
- 支持向量机(SVM)
优点:泛化能力强;缺点:计算复杂度随数据量增加。
- k近邻(k-NN
非参数方法:预测时查找训练集中最近的k个样本,投票(分类)或平均(回归)。
优点:无需训练;缺点:计算效率低,对高维数据敏感。
5.8 关键公式

章节总结
本章全面介绍了机器学习的基础知识,从学习算法的定义到具体任务类型,再到性能评估和经验来源。通过讨论容量、过拟合和欠拟合,以及超参数和验证集的使用,展示了如何设计和调整学习算法以提高其泛化能力。估计器、偏差和方差的概念进一步深化了对学习算法性能的理解。最大似然估计和贝叶斯统计提供了两种不同的参数估计方法,各有优劣。最后,通过具体的学习算法示例,如线性回归和逻辑回归,展示了这些理论在实际应用中的效果。这些内容为深入理解机器学习算法的设计和应用奠定了基础。
延伸思考
模型选择:根据数据规模和复杂度选择合适模型(如线性模型适合低维,SVM/k-NN适合小样本非线性)。
正则化的重要性:始终通过L1/L2正则化或早停法防止过拟合。
贝叶斯视角:提供不确定性量化,适合风险敏感场景(如医疗诊断)。
实践建议:优先使用交叉验证调参,测试集仅作最终评估,避免多次使用导致乐观偏差。
精彩语录
1.机器学习的核心挑战在于如何在新的、以前未见过的输入上表现良好,这称为泛化。
英文原文:The central challenge in machine learning is that we must perform well on new, previously unseen inputs---not just those on which our model was trained.
解释:这句话强调了机器学习的核心挑战是模型需要在新的、未见过的数据上表现良好,而不仅仅是训练数据。这涉及到模型的泛化能力,即模型能否将从训练数据中学到的模式应用到新的数据中。
2.泛化误差定义为模型在新输入上的预期误差值。
英文原文:The generalization error is defined as the expected value of the error on a new input.
解释:这句话定义了泛化误差,它衡量了模型在新输入上的预期误差。泛化误差是机器学习中一个关键的概念,因为它反映了模型在实际应用中的表现。
3.模型容量是指模型拟合各种函数的能力。
英文原文:Informally, a model's capacity is its ability to fit a wide variety of functions.
解释:这句话非正式地定义了模型容量,即模型拟合各种函数的能力。模型容量越大,能够拟合的函数种类就越多,但也可能导致过拟合。
4.正则化是任何旨在减少模型泛化误差但不减少训练误差的修改。
英文原文:Regularization is any modification we make to a learning algorithm that is intended to reduce its generalization error but not its training error.
解释:这句话解释了正则化的概念,即对学习算法进行的任何修改,目的是减少其泛化误差,但不减少训练误差。正则化技术用于防止过拟合,提高模型的泛化能力。
5.在适当条件下,最大似然估计具有收敛性,即随着训练样本数量的增加,最大似然估计的参数值会逐渐收敛到真实参数值。
英文原文:Under appropriate conditions, the maximum likelihood estimator has the property of consistency, meaning that as the number of training examples approaches infinity, the maximum likelihood estimate of a parameter converges to the true value of the parameter.
解释:这句话说明了在适当条件下,最大似然估计具有收敛性,即随着训练样本数量的增加,最大似然估计的参数值会逐渐收敛到真实参数值。这是最大似然估计的一个重要性质,表明其在大样本下的可靠性。