一、机器学习基本概念
-
机器学习的定义:通过数据寻找函数的过程。
-
三类机器学习:
-
监督学习:数据有标签,任务包括分类、回归。
-
无监督学习:数据无标签,任务包括聚类、降维、关联规则。
-
强化学习:从环境交互中学习。
-
-
如何开发一个人工智能系统:数据 → 模型 → 评估 → 预测。
二、监督学习 vs 无监督学习
-
监督学习:分类(离散输出)、回归(连续输出)。
-
无监督学习:聚类、降维、潜在语义分析等。
-
常见任务举例:
-
图像识别 → 分类
-
情感分析 → 分类
-
价格预测 → 回归
-
客户分群 → 聚类
-
三、损失函数与风险
-
**损失函数:**衡量模型预测与真实值的差距。
-
**经验风险:**训练集上的平均损失。
-
**期望风险:**真实数据分布下的期望损失,理想化目标。
-
结构风险**= 经验风险 + 正则化项(用于防止过拟合)。**
-
**过拟合:**经验风险小,期望风险大 → 模型泛化能力差。
-
**欠拟合:**经验风险大,期望风险大 → 模型未学到规律。
四、数据集划分
-
训练集:用于训练模型。
-
验证集:用于调整超参数。
-
测试集:用于评估模型泛化能力。
-
训练-测试分离是评估模型真实性能的关键。
五、机器学习模型评价
-
模型泛化能力:在训练集与测试集上性能保持一致的能力。
-
经验风险最小化 vs 结构风险最小化:
-
经验风险最小化易导致过拟合。
-
结构风险最小化通过正则化控制复杂度。
-
六、机器学习流程总结
-
数据准备 → 划分数据集
-
选择模型 → 定义损失函数
-
训练模型 → 最小化经验/结构风险
-
验证调参 → 防止过拟合
-
测试评估 → 评估泛化能力
七、可能出题方向(结合回忆卷风格)
-
填空题:
-
"机器学习可分为监督学习、无监督学习和______。"
-
"损失函数分为经验风险和______。"
-
-
选择题:
- 关于数据集划分、过拟合判断、分类 vs 回归区分等。
-
简答题:
-
简述监督学习与无监督学习的区别。
-
解释经验风险与期望风险的关系。
-
什么是过拟合?如何缓解?
-
📚 知识卡片(重点概念速记)
| 概念 | 定义 | 相关考点 |
|---|---|---|
| 监督学习 | 使用带有标签的数据进行训练,用于分类或回归任务。 | 分类 vs 回归的区别 |
| 无监督学习 | 使用无标签数据进行训练,用于聚类、降维等任务。 | 聚类、降维、关联规则 |
| 强化学习 | 智能体通过与环境交互学习最优策略。 | 常与Q学习、策略梯度等结合出题 |
| 损失函数 | 衡量模型预测值与真实值差异的函数。 | 经验风险 vs 期望风险 |
| 经验风险 | 训练集上的平均损失。 | 容易导致过拟合 |
| 期望风险 | 真实数据分布下的期望损失。 | 理想化目标,难以直接计算 |
| 结构风险 | 经验风险 + 正则化项。 | 防止过拟合的重要手段 |
| 过拟合 | 模型在训练集上表现好,在测试集上表现差。 | 经验风险小,期望风险大 |
| 欠拟合 | 模型在训练集和测试集上表现都差。 | 模型过于简单,未学到规律 |
✅ 选择题练习(每题2分,共10分)
-
下列任务中,属于监督学习的是:
A. 聚类分析
B. 主成分分析
C. 情感分类
D. 关联规则挖掘
-
以下关于经验风险和期望风险的描述,正确的是:
A. 经验风险是全局最优的
B. 期望风险可通过训练集直接计算
C. 经验风险小一定代表模型好
D. 期望风险是真实数据分布下的损失期望
-
结构风险最小化的目的是:
A. 提高训练速度
B. 防止过拟合
C. 减少训练集大小
D. 增加模型复杂度
-
下列哪种情况属于过拟合?
A. 训练误差大,测试误差大
B. 训练误差小,测试误差小
C. 训练误差小,测试误差大
D. 训练误差大,测试误差小
-
验证集主要用于:
A. 最终评估模型性能
B. 训练模型参数
C. 调整超参数
D. 数据清洗
📝 模拟简答题(每题5分,共10分)
1. 简述监督学习与无监督学习的区别,并各举一个例子。
参考答案:
监督学习使用带有标签的数据进行训练,目标是学习从输入到输出的映射关系,常用于分类和回归任务,如垃圾邮件分类(分类)、房价预测(回归)。
**无监督学习使用无标签数据进行训练,目标是发现数据中的内在结构或模式,常用于聚类和降维,如**客户分群(聚类)、图像压缩(降维)。
2. 什么是过拟合?如何缓解过拟合?
参考答案:
过拟合是指模型在训练集上表现良好,但在未见过的测试集上表现较差的现象,通常是由于模型过于复杂或训练数据不足导致。缓解方法包括:
-
增加训练数据
-
使用正则化(如L1、L2正则)
-
简化模型结构
-
采用早停策略
-
使用交叉验证
📌 高频考点总结(第4章)
| 考点 | 出题形式 | 复习提示 |
|---|---|---|
| 机器学习三类 | 填空、选择 | 监督/无监督/强化学习的定义与典型任务 |
| 分类 vs 回归 | 选择、简答 | 区分输出是离散还是连续 |
| 损失函数与风险 | 填空、选择 | 经验风险、期望风险、结构风险的定义与关系 |
| 过拟合与欠拟合 | 选择、简答 | 表现、原因、缓解方法 |
| 数据集划分 | 填空、选择 | 训练集/验证集/测试集的作用 |
| 结构风险最小化 | 简答、论述 | 正则化的作用,与经验风险最小化的对比 |
📄 模拟试卷
一、填空题(每空1分,共10分)
-
机器学习可分为监督学习、无监督学习和________。
-
监督学习的两个主要任务是________和________。
-
在机器学习中,用于调整超参数的数据集称为________。
-
结构风险 = 经验风险 + ________。
-
当模型在训练集上表现很好,但在测试集上表现很差时,称为________。
-
期望风险是指________下的损失期望。
-
聚类任务属于________学习。
-
回归任务的输出是________的。
二、选择题(每题2分,共10分)
-
以下哪个任务属于无监督学习?
-
A. 垃圾邮件分类
-
B. 房价预测
-
C. 客户分群
-
D. 手写数字识别
-
-
关于经验风险与期望风险,下列说法正确的是:
-
A. 经验风险是全局最优的
-
B. 期望风险可通过训练集直接计算
-
C. 经验风险小一定代表模型好
-
D. 期望风险是真实数据分布下的损失期望
-
-
以下哪种方法不能缓解过拟合?
-
A. 增加训练数据
-
B. 增加模型复杂度
-
C. 使用正则化
-
D. 采用早停策略
-
-
验证集的主要作用是:
-
A. 最终评估模型性能
-
B. 训练模型参数
-
C. 调整超参数
-
D. 数据清洗
-
-
结构风险最小化的主要目标是:
-
A. 提高训练速度
-
B. 防止过拟合
-
C. 减少计算资源
-
D. 简化模型结构
-
三、简答题(每题5分,共10分)
-
请解释什么是"经验风险最小化",并说明其可能存在的问题。
-
请简述监督学习与无监督学习的区别,并各举一个实际应用例子。
四、论述题(10分)
结合机器学习基本概念,解释为什么在模型训练中需要划分"训练集"、"验证集"和"测试集",并说明如果只用"训练集"和"测试集"会带来什么问题。
✅ 模拟试卷参考答案
一、填空题
-
强化学习
-
分类、回归
-
验证集
-
正则化项
-
过拟合
-
真实数据分布
-
无监督
-
连续
二、选择题
-
C
-
D
-
B
-
C
-
B
三、简答题(参考答案)
-
经验风险最小化是指在训练集上最小化损失函数,追求训练误差最小。问题在于容易导致过拟合,即模型在训练集上表现很好,但在未见数据上表现差,泛化能力弱。
-
监督学习 使用带标签数据训练,用于分类或回归,如垃圾邮件分类;无监督学习使用无标签数据训练,用于聚类或降维,如客户分群。
四、论述题(参考答案)
划分三部分数据集是为了:
-
训练集:用于训练模型参数;
-
验证集:用于调参和模型选择;
-
测试集 :用于最终评估模型泛化能力。
若只使用训练集和测试集,则无法进行超参数调优,容易导致模型在测试集上过拟合,无法反映真实泛化能力,评估结果不可靠。
