【人工智能引论期末复习】第4章 机器学习1-基础知识

一、机器学习基本概念

  • 机器学习的定义:通过数据寻找函数的过程。

  • 三类机器学习

    • 监督学习:数据有标签,任务包括分类、回归。

    • 无监督学习:数据无标签,任务包括聚类、降维、关联规则。

    • 强化学习:从环境交互中学习。

  • 如何开发一个人工智能系统:数据 → 模型 → 评估 → 预测。


二、监督学习 vs 无监督学习

  • 监督学习:分类(离散输出)、回归(连续输出)。

  • 无监督学习:聚类、降维、潜在语义分析等。

  • 常见任务举例

    • 图像识别 → 分类

    • 情感分析 → 分类

    • 价格预测 → 回归

    • 客户分群 → 聚类


三、损失函数与风险

  • **损失函数:**衡量模型预测与真实值的差距。

  • **经验风险:**训练集上的平均损失。

  • **期望风险:**真实数据分布下的期望损失,理想化目标。

  • 结构风险**= 经验风险 + 正则化项(用于防止过拟合)。**

  • **过拟合:**经验风险小,期望风险大 → 模型泛化能力差。

  • **欠拟合:**经验风险大,期望风险大 → 模型未学到规律。


四、数据集划分

  • 训练集:用于训练模型。

  • 验证集:用于调整超参数。

  • 测试集:用于评估模型泛化能力。

  • 训练-测试分离是评估模型真实性能的关键。


五、机器学习模型评价

  • 模型泛化能力:在训练集与测试集上性能保持一致的能力。

  • 经验风险最小化 vs 结构风险最小化

    • 经验风险最小化易导致过拟合。

    • 结构风险最小化通过正则化控制复杂度。


六、机器学习流程总结

  1. 数据准备 → 划分数据集

  2. 选择模型 → 定义损失函数

  3. 训练模型 → 最小化经验/结构风险

  4. 验证调参 → 防止过拟合

  5. 测试评估 → 评估泛化能力


七、可能出题方向(结合回忆卷风格)

  • 填空题

    • "机器学习可分为监督学习、无监督学习和______。"

    • "损失函数分为经验风险和______。"

  • 选择题

    • 关于数据集划分、过拟合判断、分类 vs 回归区分等。
  • 简答题

    • 简述监督学习与无监督学习的区别。

    • 解释经验风险与期望风险的关系。

    • 什么是过拟合?如何缓解?


📚 知识卡片(重点概念速记)

概念 定义 相关考点
监督学习 使用带有标签的数据进行训练,用于分类或回归任务。 分类 vs 回归的区别
无监督学习 使用无标签数据进行训练,用于聚类、降维等任务。 聚类、降维、关联规则
强化学习 智能体通过与环境交互学习最优策略。 常与Q学习、策略梯度等结合出题
损失函数 衡量模型预测值与真实值差异的函数。 经验风险 vs 期望风险
经验风险 训练集上的平均损失。 容易导致过拟合
期望风险 真实数据分布下的期望损失。 理想化目标,难以直接计算
结构风险 经验风险 + 正则化项。 防止过拟合的重要手段
过拟合 模型在训练集上表现好,在测试集上表现差。 经验风险小,期望风险大
欠拟合 模型在训练集和测试集上表现都差。 模型过于简单,未学到规律

✅ 选择题练习(每题2分,共10分)

  1. 下列任务中,属于监督学习的是:

    A. 聚类分析

    B. 主成分分析

    C. 情感分类

    D. 关联规则挖掘

  2. 以下关于经验风险和期望风险的描述,正确的是:

    A. 经验风险是全局最优的

    B. 期望风险可通过训练集直接计算

    C. 经验风险小一定代表模型好

    D. 期望风险是真实数据分布下的损失期望

  3. 结构风险最小化的目的是:

    A. 提高训练速度

    B. 防止过拟合

    C. 减少训练集大小

    D. 增加模型复杂度

  4. 下列哪种情况属于过拟合?

    A. 训练误差大,测试误差大

    B. 训练误差小,测试误差小

    C. 训练误差小,测试误差大

    D. 训练误差大,测试误差小

  5. 验证集主要用于:

    A. 最终评估模型性能

    B. 训练模型参数

    C. 调整超参数

    D. 数据清洗


📝 模拟简答题(每题5分,共10分)

1. 简述监督学习与无监督学习的区别,并各举一个例子。

参考答案:
监督学习使用带有标签的数据进行训练,目标是学习从输入到输出的映射关系,常用于分类和回归任务,如垃圾邮件分类(分类)、房价预测(回归)。
**无监督学习使用无标签数据进行训练,目标是发现数据中的内在结构或模式,常用于聚类和降维,如
**客户分群(聚类)、图像压缩(降维)


2. 什么是过拟合?如何缓解过拟合?

参考答案:

过拟合是指模型在训练集上表现良好,但在未见过的测试集上表现较差的现象,通常是由于模型过于复杂或训练数据不足导致。缓解方法包括:

  • 增加训练数据

  • 使用正则化(如L1、L2正则)

  • 简化模型结构

  • 采用早停策略

  • 使用交叉验证


📌 高频考点总结(第4章)

考点 出题形式 复习提示
机器学习三类 填空、选择 监督/无监督/强化学习的定义与典型任务
分类 vs 回归 选择、简答 区分输出是离散还是连续
损失函数与风险 填空、选择 经验风险、期望风险、结构风险的定义与关系
过拟合与欠拟合 选择、简答 表现、原因、缓解方法
数据集划分 填空、选择 训练集/验证集/测试集的作用
结构风险最小化 简答、论述 正则化的作用,与经验风险最小化的对比

📄 模拟试卷

一、填空题(每空1分,共10分)

  1. 机器学习可分为监督学习、无监督学习和________。

  2. 监督学习的两个主要任务是________和________。

  3. 在机器学习中,用于调整超参数的数据集称为________。

  4. 结构风险 = 经验风险 + ________。

  5. 当模型在训练集上表现很好,但在测试集上表现很差时,称为________。

  6. 期望风险是指________下的损失期望。

  7. 聚类任务属于________学习。

  8. 回归任务的输出是________的。


二、选择题(每题2分,共10分)

  1. 以下哪个任务属于无监督学习?

    • A. 垃圾邮件分类

    • B. 房价预测

    • C. 客户分群

    • D. 手写数字识别

  2. 关于经验风险与期望风险,下列说法正确的是:

    • A. 经验风险是全局最优的

    • B. 期望风险可通过训练集直接计算

    • C. 经验风险小一定代表模型好

    • D. 期望风险是真实数据分布下的损失期望

  3. 以下哪种方法不能缓解过拟合?

    • A. 增加训练数据

    • B. 增加模型复杂度

    • C. 使用正则化

    • D. 采用早停策略

  4. 验证集的主要作用是:

    • A. 最终评估模型性能

    • B. 训练模型参数

    • C. 调整超参数

    • D. 数据清洗

  5. 结构风险最小化的主要目标是:

    • A. 提高训练速度

    • B. 防止过拟合

    • C. 减少计算资源

    • D. 简化模型结构


三、简答题(每题5分,共10分)

  1. 请解释什么是"经验风险最小化",并说明其可能存在的问题。

  2. 请简述监督学习与无监督学习的区别,并各举一个实际应用例子。


四、论述题(10分)

结合机器学习基本概念,解释为什么在模型训练中需要划分"训练集"、"验证集"和"测试集",并说明如果只用"训练集"和"测试集"会带来什么问题。


✅ 模拟试卷参考答案

一、填空题

  1. 强化学习

  2. 分类、回归

  3. 验证集

  4. 正则化项

  5. 过拟合

  6. 真实数据分布

  7. 无监督

  8. 连续

二、选择题

  1. C

  2. D

  3. B

  4. C

  5. B

三、简答题(参考答案)

  1. 经验风险最小化是指在训练集上最小化损失函数,追求训练误差最小。问题在于容易导致过拟合,即模型在训练集上表现很好,但在未见数据上表现差,泛化能力弱。

  2. 监督学习 使用带标签数据训练,用于分类或回归,如垃圾邮件分类;无监督学习使用无标签数据训练,用于聚类或降维,如客户分群。

四、论述题(参考答案)

划分三部分数据集是为了:

  • 训练集:用于训练模型参数;

  • 验证集:用于调参和模型选择;

  • 测试集 :用于最终评估模型泛化能力。
    若只使用训练集和测试集,则无法进行超参数调优,容易导致模型在测试集上过拟合,无法反映真实泛化能力,评估结果不可靠。

相关推荐
Android技术之家2 小时前
在手机上跑大模型?Google AI Edge Gallery 开源项目深度解析
前端·人工智能·edge·开源
quintin-lee2 小时前
现代 Neovim 插件全景图:从底层基建到 AI 驱动
人工智能·vim
seeksky2 小时前
分词与 BPE 实现(tiktoken)
算法
3***g2052 小时前
Anaconda加速AI模型训练的技术文章大纲环境配置与优化
人工智能
郝学胜-神的一滴2 小时前
机器学习特征预处理:缺失值处理全攻略
人工智能·python·程序人生·机器学习·性能优化·sklearn
小小呱呱蛙2 小时前
OpenSpec 到底干了啥
人工智能·ai编程
独处东汉2 小时前
AI辅助Stm32l031项目开发基础准备
人工智能·stm32·嵌入式硬件
week_泽2 小时前
第9课:LangMem SDK高效实现长期记忆管理 - 学习笔记_9
人工智能·笔记·学习·ai agent
super杨某人2 小时前
算法十日谈:双指针
数据结构·算法