第一章:Introduction to Machine Learning --- 单元习题
总分:100分 | 建议用时:60分钟
范围:ML定义、AI vs ML、三类问题、学习范式、ML历史、ML生命周期、归纳偏置
占位用

一、单项选择题(每题2分,共20题,40分)
1. 机器学习的核心定义是?
A. 通过手工编写规则来解决问题
B. 通过数据让软件系统改进(学习)性能
C. 通过穷举搜索找到最优解
D. 通过模仿人脑的所有神经元连接
2. "AI is the Goal. ML is the ___." 空格处应为?
A. Tool
B. Method
C. Result
D. Foundation
3. 以下哪项属于机器学习问题的典型特征?
A. 可以用明确的算法直接解决
B. 容易演示或评估解决方案,但难以直接编程实现
C. 完全依赖人类判断,机器无法参与
D. 可以通过穷举所有可能情况解决
4. 判断短信是否为垃圾邮件属于什么类型的问题?
A. 工程问题(Engineering Problem)
B. 机器学习问题(ML Problem)
C. 人类问题(Human Problem)
D. 无法解决的问题
5. 监督学习(Supervised Learning)的输入数据形式是?
A. 仅输入X,无标签
B. 观测对 {(X, Y)}
C. 仅奖励信号 reward(·)
D. 随机噪声
6. 图像分类任务属于监督学习中的哪类?
A. 回归(Regression)
B. 分类(Classification)
C. 聚类(Clustering)
D. 降维(Dimensionality Reduction)
7. 股票价格预测(输出连续值)属于?
A. 分类
B. 回归
C. 聚类
D. 强化学习
8. 无监督学习中的聚类(Clustering)任务是?
A. 预测每个样本的离散标签
B. 预测连续数值
C. 在没有标签的情况下发现数据中的自然分组
D. 从奖励信号中学习
9. 强化学习(Reinforcement Learning)的学习信号是?
A. 输入-输出对 {(X, Y)}
B. 奖励信号 reward(·)
C. 无任何信号,纯随机
D. 人工标注的标签
10. 1957年提出的感知机(Perceptron)属于ML历史的哪个阶段?
A. 1990s统计学习兴起
B. 1950s-60s早期阶段
C. 2010s深度学习革命
D. 现在GenAI时代
11. 深度学习革命(Deep Learning Revolution)大约从哪一年开始?
A. 1997
B. 2005
C. 2012
D. 2020
12. ML生命周期(Lifecycle)的正确顺序是?
A. M → L → O → P
B. L → M → O → P
C. O → L → M → P
D. P → M → L → O
13. ML生命周期中,"L"阶段的核心问题不包括?
A. 我想预测什么?
B. 我有什么数据?
C. 如何评估成功?
D. 如何部署模型到生产环境?
14. "M"(Model Design)阶段不包括?
A. 特征工程(Feature Engineering)
B. 选择模型族/架构
C. 确定归纳偏置
D. 定义损失函数
15. "O"(Optimization)阶段的核心任务包括?
A. 定义损失函数、选择优化方法、管理正则化
B. 收集数据、标注数据、划分数据集
C. 选择模型架构、设计特征
D. 部署模型、监控性能
16. 归纳偏置(Inductive Bias)的作用是?
A. 从无限多个可能函数中挑选出更合理的解,实现泛化
B. 增加模型的训练误差
C. 消除所有先验假设
D. 随机选择模型参数
17. 以下哪项是归纳偏置的例子?
A. 使用CNN架构→引入平移不变性假设
B. 增加训练数据量
C. 提高学习率
D. 使用GPU加速训练
18. 使用词袋模型(Bag-of-Words)编码文本时,引入了什么归纳偏置?
A. 词序重要
B. 词序无关 + 词义独立
C. 每个词有唯一的上下文语义
D. 句子长度固定
19. 以下哪个不是本课程使用的工具?
A. pandas
B. PyTorch
C. Scikit-learn
D. Docker
20. 本课程的评分组成是?
A. 实验30% + 考试70%
B. 出勤10% + 实验&报告30% + 期末考试60%
C. 出勤20% + 作业40% + 考试40%
D. 全部由期末考试决定
二、判断题(每题2分,共15题,30分。正确打√,错误打×)
21. 机器学习的"基本配方"是:用数据训练模型,然后用模型做决策。( )
22. AI(人工智能)和ML(机器学习)是完全相同、可以互换的概念。( )
23. 线性回归(Linear Regression)是一种机器学习方法。( )
24. Engineering Problem可以通过写一套明确的规则或算法来解决。( )
25. 判断一张图片中是否有猫属于Engineering Problem。( )
26. 监督学习需要{(X, Y)}标注数据对,无监督学习只需要{X}数据。( )
27. 降维(Dimensionality Reduction)属于监督学习任务。( )
28. 1990年代的ML发展重点是概率模型和统计学习理论。( )
29. ML生命周期中,Optimization(优化)阶段只需要选择合适的模型架构即可。( )
30. 归纳偏置来自训练数据本身,而非模型设计者的先验假设。( )
31. 使用L2正则化(权重衰减)是一种归纳偏置------它偏好较小的权重值。( )
32. 特征工程(Feature Engineering)是Model Design阶段的任务。( )
33. 当前的GenAI(生成式AI)时代以大型语言/多模态模型为代表。( )
34. 本课程要求先修概率统计、线性代数和微积分知识。( )
35. 无监督学习直接从奖励信号中学习最优策略。( )
三、简答题(每题4分,共6题,24分)
36. 什么是机器学习?请用一句话定义,并解释其"基本配方"的两个步骤。
37. 请区分AI、ML、DL三者的关系。
38. 请区分Engineering Problem、ML Problem和Human Problem,并各举一个例子。
39. 请简述三种学习范式(监督学习、无监督学习、强化学习)的核心区别,包括各自的输入形式和学习目标。
40. 请画出ML生命周期(L-M-O-P)的四个阶段,并简述每个阶段要回答的核心问题。
41. 什么是归纳偏置(Inductive Bias)?为什么它是必需的?请举出至少两个来自不同来源的归纳偏置例子。
四、计算题(每题3分,共2题,6分)
42. 在一个垃圾邮件分类任务中,假设模型对一封邮件预测为垃圾邮件的概率为p=0.8,真实标签为垃圾邮件(t=1)。请分别计算:
(1) 均方误差(MSE):E=(t−p)2E = (t - p)^2E=(t−p)2
(2) 若模型将另一封正常邮件(t=0)错误预测为p=0.99,此时MSE是多少?为什么MSE对这种"错得离谱"的情况惩罚不足?
43. 假设某ML估计量 θ^\hat{\theta}θ^ 在多次抽样中的期望值为 Eθ\^=0.7E\\hat{\\theta}=0.7Eθ\^=0.7,而真实参数值 θ=0.8\theta=0.8θ=0.8。请计算该估计量的偏差 Bias。该估计量是否是无偏的(Unbiased)?
参考:Bias(θ^)=Eθ\^−θBias(\hat{\theta}) = E\\hat{\\theta} - \thetaBias(θ^)=Eθ\^−θ
试卷结束,请认真检查。
第一章:Introduction to Machine Learning --- 单元习题答案
一、单项选择题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 1 | B | ML的定义:Software systems that improve (learn) through data |
| 2 | B | AI is the Goal. ML is the Method. |
| 3 | B | ML问题:easy to demonstrate/evaluate but difficult to directly implement |
| 4 | B | Spam难以精确定义(因人而异),但容易展示例子→是ML问题 |
| 5 | B | 监督学习观察{(X,Y)}对;无监督仅有{X};强化学习有X和reward(·) |
| 6 | B | 分类输出离散标签;回归输出连续值 |
| 7 | B | 股票价格是连续值→回归任务 |
| 8 | C | 聚类在无标签数据中发现自然分组 |
| 9 | B | 强化学习从reward signal中学习;监督学习从{(X,Y)}中学习 |
| 10 | B | 1957 Perceptron属于1950s-60s早期阶段 |
| 11 | C | 2012年深度学习(AlexNet)标志DL革命开始 |
| 12 | B | 正确顺序:L(Problem)→M(Model)→O(Optimization)→P(Predict&Evaluate) |
| 13 | D | 部署到生产环境不是L阶段的核心问题;L阶段关注Target/Objective/Data |
| 14 | D | 定义损失函数属于O(Optimization)阶段,非M阶段 |
| 15 | A | O阶段:定义损失+选优化方法+管理正则化 |
| 16 | A | 归纳偏置从无限函数中挑选合理解→泛化 |
| 17 | A | CNN的平移不变性是经典的架构归纳偏置 |
| 18 | B | 词袋模型忽略词序→假设词序无关,词义独立 |
| 19 | D | Docker不是本课程工具;课程使用pandas/PyTorch/Scikit-learn/Plotly/W&B |
| 20 | B | 出勤10% + 实验&报告30% + 期末考试60% |
二、判断题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 21 | √ | 正确:Training用数据拟合模型,Inference用模型做预测 |
| 22 | × | AI是目标,ML是实现方法,两者不同。DL是ML的子集 |
| 23 | √ | 线性回归是ML的一种方法 |
| 24 | √ | Engineering Problem = 可以用明确算法/规则解决 |
| 25 | × | 图像识别难以直接编程→属于ML Problem而非Engineering Problem |
| 26 | √ | 监督={(X,Y)},无监督={X},强化=X+reward |
| 27 | × | 降维属于无监督学习任务 |
| 28 | √ | 1990s是统计ML兴起时期,强调数学基础 |
| 29 | × | 优化阶段的核心是定义损失+选优化方法+正则化,非选模型架构 |
| 30 | × | 归纳偏置来自模型设计者的先验假设/偏好,非数据本身 |
| 31 | √ | L2正则化偏好小权重→是典型的归纳偏置 |
| 32 | √ | 特征工程属于Model Design阶段 |
| 33 | √ | 当前GenAI时代以LLM/LMM为代表 |
| 34 | √ | 课程要求:Python编程+概率统计+线代微积分 |
| 35 | × | 从奖励信号学习是强化学习;无监督学习从无标签数据中发现模式 |
三、简答题参考答案
36. 机器学习定义与基本配方
参考答案:
定义:机器学习是让软件系统通过数据改进(学习)性能的技术。
基本配方的两步:
- 训练(Training):用数据(examples)来教(fit)一个模型 → 学习模型参数
- 推理(Inference):用训练好的模型对新输入做预测/决策
37. AI、ML、DL的关系
参考答案:
| 术语 | 关系 | 说明 |
|---|---|---|
| AI(人工智能) | 最终目标 | 让计算系统执行通常需要人类智能的任务 |
| ML(机器学习) | 实现方法 | 通过数据让系统学习和改进,是现代AI的核心技术 |
| DL(深度学习) | ML的子集 | 使用深层神经网络的ML方法 |
一句话:AI是目标,ML是实现方法,DL是ML中最强大的技术之一。
38. 三类问题对比
参考答案:
| 问题类型 | 定义 | 例子 |
|---|---|---|
| Engineering Problem | 可用明确算法/规则直接解决 | 计算两个数的最大公约数 |
| ML Problem | 容易演示/评估但难以直接编程 | 判断短信是否垃圾邮件;图像中检测人脸 |
| Human Problem | 无法精确定义,需要人类判断 | 伦理决策、审美评判 |
实际问题通常需要 Engineering + ML + Human 三者结合。
39. 三种学习范式
参考答案:
| 范式 | 输入 | 学习目标 | 典型任务 |
|---|---|---|---|
| 监督学习 | {(X, Y)} 观测对 | 学习X→Y的映射 | 分类、回归 |
| 无监督学习 | {X} 仅数据 | 发现数据内在模式/结构 | 聚类、降维、密度估计 |
| 强化学习 | X, reward(·) | 从奖励信号中学习最优策略 | 游戏AI、机器人控制 |
40. ML生命周期
参考答案:
L → M → O → P
| 阶段 | 核心问题 |
|---|---|
| L - Learning Problem | 预测什么(Target)?有什么数据(Data)?如何评判成功(Objective)? |
| M - Model Design | 选什么模型族?做什么特征工程?引入什么归纳偏置? |
| O - Optimization | 用什么损失函数?选什么优化算法?如何正则化防过拟合? |
| P - Predict & Evaluate | 模型在测试集上表现如何?使用什么评估指标? |
41. 归纳偏置
参考答案:
定义 :学习算法为在有限数据下对未见输入做出合理预测而引入的先验假设或偏好。
必要性:无免费午餐定理------没有算法在所有问题上最优。给定有限数据,存在无限多个函数能完美拟合但泛化性能不同。归纳偏置从中"挑选"合理解。
例子:
- 模型架构 :CNN的卷积结构→假设平移不变性(特征在图像任意位置都应是同一特征)
- 特征工程 :词袋模型编码文本→假设词序无关、词义独立
- 正则化 :L2权重衰减→偏好较小的权重值,防止过拟合
- 模型选择 :选择线性模型→假设数据线性可分
四、计算题参考答案
42. MSE计算与分析
(1) p=0.8, t=1(正确方向,但不够自信)
E=(t−p)2=(1−0.8)2=0.22=0.04E = (t - p)^2 = (1 - 0.8)^2 = 0.2^2 = \mathbf{0.04}E=(t−p)2=(1−0.8)2=0.22=0.04
(2) p=0.99, t=0(极其自信但完全错误)
E=(t−p)2=(0−0.99)2=(−0.99)2=0.9801E = (t - p)^2 = (0 - 0.99)^2 = (-0.99)^2 = \mathbf{0.9801}E=(t−p)2=(0−0.99)2=(−0.99)2=0.9801
MSE为什么惩罚不足:
- 第(2)种情况是"极其自信地完全预测错了"(t=0但预测p=0.99),但MSE只有约0.98
- MSE的最大值被封顶在1(因为预测值p∈0,1,标签t∈{0,1},差值的平方≤1)
- 相比之下,交叉熵损失对这种情况会产生趋向无穷大的惩罚
- 因此MSE在分类任务中不是好的损失函数------它对"错得离谱"的预测过于"温和"
43. 偏差计算
Bias(θ^)=Eθ\^−θ=0.7−0.8=−0.1Bias(\hat{\theta}) = E\\hat{\\theta} - \theta = 0.7 - 0.8 = \mathbf{-0.1}Bias(θ^)=Eθ\^−θ=0.7−0.8=−0.1
- Bias = -0.1 ≠ 0
- → 该估计量是有偏的(Biased)
- 若估计量是无偏的,需满足 Eθ\^=θE\\hat{\\theta} = \thetaEθ\^=θ(即Bias=0)
答案编制完成时间:2026年6月27日