深度学习 Deep Learning 第5章 机器学习基础

第5章 机器学习基础

章节概述

本章深入探讨了机器学习的基本概念和原理,重点讨论了学习算法、任务类型、性能评估、经验来源以及机器学习中的关键挑战。机器学习的核心在于从数据中学习模式,以对新数据进行预测或决策。本章首先介绍了监督学习和非监督学习的基本概念,以及如何通过调整模型容量来避免过拟合和欠拟合。接着,详细讨论了正则化技术、超参数和验证集的使用,以及交叉验证等方法。此外,还介绍了估计器、偏差和方差的概念,并探讨了最大似然估计和贝叶斯统计在机器学习中的应用。最后,通过具体的学习算法示例,如线性回归和逻辑回归,展示了这些概念在实际问题中的应用。

5.1 机器学习的基本概念

机器学习定义:计算机程序通过经验(数据)改进其在某任务上的性能,无需显式编程。

5.1.1 任务(Task)

机器学习任务多种多样,常见的包括分类、回归、转录、机器翻译、结构化输出、异常检测、合成与采样、缺失值填充和去噪等。例如,分类任务要求模型将输入数据归类到预定义的类别中,而回归任务则要求模型预测一个数值输出。

5.1.2 性能评估(Performance Measure)

性能评估是衡量机器学习算法效果的关键。对于分类任务,常用准确率来衡量模型性能;对于密度估计任务,则常用平均对数概率来评估模型。

5.1.3 经验(experience)

机器学习算法的经验主要来源于数据集,这些数据集可以是监督学习(带标签)中的标记数据,也可以是非监督学习(无标签)中的未标记数据。数据集的结构和质量对学习算法的性能有重要影响。

5.2 容量(Capacity)、过拟合和欠拟合

容量(Capacity):

模型拟合复杂函数的能力,由假设空间的选择决定(如多项式阶数)。

泛化能力:

模型在新数据上的表现,避免过拟合(高方差)和欠拟合(高偏差)。

模型容量决定了其拟合数据的能力。容量过低会导致欠拟合,模型无法捕捉数据中的复杂模式;容量过高则可能导致过拟合,模型在训练数据上表现良好,但在新数据上泛化能力差。通过调整模型容量和使用正则化技术,可以在欠拟合和过拟合之间找到平衡。

5.3 超参数和验证集

超参数是学习算法中需要预先设置的参数,它们对算法的性能有重要影响。通过划分训练集和验证集,可以有效地调整超参数,避免过拟合。

5.4 估计器、偏差和方差

估计器是用于从数据中估计参数或函数的工具。偏差衡量估计值与真实值的偏离程度,方差衡量估计值的波动程度。一个好的估计器需要在偏差和方差之间取得平衡。

5.5 最大似然估计(MLE)和最大后验统计(MAP)

最大似然估计是一种常用的学习算法,通过最大化训练数据的似然函数来估计模型参数。这种方法在许多机器学习任务中表现出色,尤其是在数据量较大时。

5.6 贝叶斯统计

贝叶斯统计提供了一种不同的参数估计方法,通过结合先验知识和数据来更新对参数的信念。这种方法在数据量有限时通常能更好地泛化,但计算成本较高。不追求单一点估计,而是计算参数的后验分布

优点:提供预测的不确定性估计;缺点:计算复杂,适合小数据。

5.7监督学习算法

  • 线性回归
  • 逻辑回归
  • 支持向量机(SVM)
    优点:泛化能力强;缺点:计算复杂度随数据量增加。
  • k近邻(k-NN
    非参数方法:预测时查找训练集中最近的k个样本,投票(分类)或平均(回归)。
    优点:无需训练;缺点:计算效率低,对高维数据敏感。

5.8 关键公式

章节总结

本章全面介绍了机器学习的基础知识,从学习算法的定义到具体任务类型,再到性能评估和经验来源。通过讨论容量、过拟合和欠拟合,以及超参数和验证集的使用,展示了如何设计和调整学习算法以提高其泛化能力。估计器、偏差和方差的概念进一步深化了对学习算法性能的理解。最大似然估计和贝叶斯统计提供了两种不同的参数估计方法,各有优劣。最后,通过具体的学习算法示例,如线性回归和逻辑回归,展示了这些理论在实际应用中的效果。这些内容为深入理解机器学习算法的设计和应用奠定了基础。

延伸思考

模型选择:根据数据规模和复杂度选择合适模型(如线性模型适合低维,SVM/k-NN适合小样本非线性)。

正则化的重要性:始终通过L1/L2正则化或早停法防止过拟合。

贝叶斯视角:提供不确定性量化,适合风险敏感场景(如医疗诊断)。

实践建议:优先使用交叉验证调参,测试集仅作最终评估,避免多次使用导致乐观偏差。

精彩语录

1.机器学习的核心挑战在于如何在新的、以前未见过的输入上表现良好,这称为泛化。

英文原文:The central challenge in machine learning is that we must perform well on new, previously unseen inputs---not just those on which our model was trained.

解释:这句话强调了机器学习的核心挑战是模型需要在新的、未见过的数据上表现良好,而不仅仅是训练数据。这涉及到模型的泛化能力,即模型能否将从训练数据中学到的模式应用到新的数据中。
2.泛化误差定义为模型在新输入上的预期误差值。

英文原文:The generalization error is defined as the expected value of the error on a new input.

解释:这句话定义了泛化误差,它衡量了模型在新输入上的预期误差。泛化误差是机器学习中一个关键的概念,因为它反映了模型在实际应用中的表现。
3.模型容量是指模型拟合各种函数的能力。

英文原文:Informally, a model's capacity is its ability to fit a wide variety of functions.

解释:这句话非正式地定义了模型容量,即模型拟合各种函数的能力。模型容量越大,能够拟合的函数种类就越多,但也可能导致过拟合。
4.正则化是任何旨在减少模型泛化误差但不减少训练误差的修改。

英文原文:Regularization is any modification we make to a learning algorithm that is intended to reduce its generalization error but not its training error.

解释:这句话解释了正则化的概念,即对学习算法进行的任何修改,目的是减少其泛化误差,但不减少训练误差。正则化技术用于防止过拟合,提高模型的泛化能力。
5.在适当条件下,最大似然估计具有收敛性,即随着训练样本数量的增加,最大似然估计的参数值会逐渐收敛到真实参数值。

英文原文:Under appropriate conditions, the maximum likelihood estimator has the property of consistency, meaning that as the number of training examples approaches infinity, the maximum likelihood estimate of a parameter converges to the true value of the parameter.

解释:这句话说明了在适当条件下,最大似然估计具有收敛性,即随着训练样本数量的增加,最大似然估计的参数值会逐渐收敛到真实参数值。这是最大似然估计的一个重要性质,表明其在大样本下的可靠性。

相关推荐
xiaocao_10237 分钟前
可以高效记录工作生活琐事的提醒APP工具
人工智能·生活·提醒
无极低码17 分钟前
基于deepseek的智能语音客服【第二讲】后端异步接口调用封装
java·人工智能·deepseek
梓羽玩Python25 分钟前
3天内猛涨2.6k+ Star!LangManus:用自然语言操控全网数据,复杂任务一键执行
人工智能·python·github
Honeysea_7033 分钟前
TensorFlow和Pytorch在功能上的区别以及优势
人工智能·pytorch·tensorflow
点我头像干啥34 分钟前
TensorFlow深度学习实战项目:从入门到精通
人工智能·深度学习·tensorflow
成都纵横智控科技官方账号38 分钟前
高性能边缘计算网关-高算力web组态PLC网关
大数据·人工智能·边缘计算
ZhuBin36543 分钟前
测试Claude3.7 sonnet画蛋白质
人工智能·机器学习·自动化·agi
点我头像干啥1 小时前
视觉Transformer架构的前沿优化技术与高效部署
深度学习·神经网络·计算机视觉
Bigger1 小时前
Tauri(十四)—— Coco AI 到底能干什么?
人工智能·搜索引擎·openai
不去幼儿园1 小时前
【强化学习】Reward Model(奖励模型)详细介绍
人工智能·算法·机器学习·自然语言处理·强化学习