机器学习与模式识别第三章聚类与贝叶斯模拟卷及答案

第三章：Clustering and Probability --- 单元习题

总分：100分 | 建议用时：60分钟

范围：K-means聚类、Lloyd算法、概率基础、贝叶斯定理

占位图

一、单项选择题（每题2分，共20题，40分）

1. K-means聚类属于哪种学习范式？

A. 监督学习

B. 无监督学习

C. 强化学习

D. 半监督学习

2. K-means中，KKK（聚类数）是？

A. 模型参数，可通过梯度下降学习

B. 超参数，需要手动选择

C. 不需要提前指定

D. 由数据自动确定

3. K-means的目标函数使用什么距离度量？

A. 曼哈顿距离

B. 余弦相似度

C. 欧氏距离平方（L2范数平方）

D. 马氏距离

4. Lloyd's Algorithm中，更新聚类中心时使用的公式是？

A. 簇内所有点的中位数

B. 簇内所有点的均值（平均值）

C. 簇内随机选一个点

D. 簇内离中心最近的点

5. 关于K-means算法的收敛性，正确的是？

A. K-means不保证收敛

B. K-means保证收敛到全局最优解

C. K-means保证收敛，但可能是局部最小值

D. K-means永远不收敛

6. 肘部法则（Elbow Method）用于选择什么？

A. 初始聚类中心

B. 距离度量方法

C. 最优聚类数K

D. 数据标准化方法

7. K-means属于什么类型的聚类？

A. 软聚类（每个点有归属概率）

B. 硬聚类（每个点恰好属于一个簇）

C. 层次聚类

D. 密度聚类

8. 认知不确定性（Epistemic Uncertainty）的特点是？

A. 不可消除

B. 来自观测噪声

C. 可由更多数据/更好模型减少或消除

D. 与模型无关

9. 联合概率分布必须满足哪两个性质？

A. 对称性和传递性

B. 非负性和归一化（和为1）

C. 线性和非线性

D. 凸性和凹性

10. 边缘化（Marginalization）的公式是？

A. p(X)=p(X,Y)⋅p(Y)p(X) = p(X,Y) \cdot p(Y)p(X)=p(X,Y)⋅p(Y)

B. p(X)=∑Yp(X,Y)p(X) = \sum_Y p(X,Y)p(X)=∑Yp(X,Y)

C. p(X)=p(X∣Y)/p(Y)p(X) = p(X|Y) / p(Y)p(X)=p(X∣Y)/p(Y)

D. p(X)=p(X,Y)−p(Y)p(X) = p(X,Y) - p(Y)p(X)=p(X,Y)−p(Y)

11. 条件概率p(Y∣X)p(Y|X)p(Y∣X)的公式是？

A. p(Y∣X)=p(X,Y)⋅p(X)p(Y|X) = p(X,Y) \cdot p(X)p(Y∣X)=p(X,Y)⋅p(X)

B. p(Y∣X)=p(X,Y)/p(X)p(Y|X) = p(X,Y) / p(X)p(Y∣X)=p(X,Y)/p(X)

C. p(Y∣X)=p(X)/p(X,Y)p(Y|X) = p(X) / p(X,Y)p(Y∣X)=p(X)/p(X,Y)

D. p(Y∣X)=p(X,Y)+p(X)p(Y|X) = p(X,Y) + p(X)p(Y∣X)=p(X,Y)+p(X)

12. 两个随机变量XXX和YYY独立，意味着？

A. p(X,Y)=p(X)+p(Y)p(X,Y) = p(X) + p(Y)p(X,Y)=p(X)+p(Y)

B. p(X,Y)=p(X)⋅p(Y)p(X,Y) = p(X) \cdot p(Y)p(X,Y)=p(X)⋅p(Y)

C. p(X∣Y)=1p(X|Y) = 1p(X∣Y)=1

D. XXX和YYY一定不相等

13. IID的含义是？

A. Independent and Identically Distributed（独立同分布）

B. Integrated and Iteratively Designed

C. Identical and Independently Derived

D. Iterative and Incremental Development

14. 贝叶斯定理中，p(A)p(A)p(A)被称为？

A. 似然（Likelihood）

B. 后验（Posterior）

C. 先验（Prior）

D. 证据（Evidence）

15. 贝叶斯定理的正确公式是？

A. p(A∣B)=p(A)⋅p(B)p(A|B) = p(A) \cdot p(B)p(A∣B)=p(A)⋅p(B)

B. p(A∣B)=p(B∣A)p(A)p(B)p(A|B) = \frac{p(B|A)p(A)}{p(B)}p(A∣B)=p(B)p(B∣A)p(A)

C. p(A∣B)=p(A)p(B)p(B∣A)p(A|B) = \frac{p(A)p(B)}{p(B|A)}p(A∣B)=p(B∣A)p(A)p(B)

D. p(A∣B)=p(B∣A)+p(A)p(A|B) = p(B|A) + p(A)p(A∣B)=p(B∣A)+p(A)

16. Wake Word检测器例子中，尽管检测率99%、误报率0.1%，阳性预测值仅约9%，主要原因是？

A. 检测器模型太差

B. 唤醒词极罕见（先验概率极低）

C. 数据量不够

D. 使用了错误的概率公式

17. 贝叶斯更新（Bayesian Updating）的过程是？

A. 先验→后验→似然

B. 似然→先验→后验

C. 先验+观测（似然）→后验

D. 后验+观测→先验

18. 关于K-means的初始化，正确的是？

A. 初始化不影响最终结果

B. 不同的随机初始化可能导致不同的聚类结果

C. 初始化只能全零

D. 初始化必须使用训练标签

19. 频率学派对概率的解释是？

A. 个人信念的程度

B. 长期重复试验中的相对频率

C. 事件的确定性程度

D. 随机猜测的结果

20. 乘法法则（Product Rule）的公式是？

A. p(X,Y)=p(X)+p(Y)p(X,Y) = p(X) + p(Y)p(X,Y)=p(X)+p(Y)

B. p(X,Y)=p(Y∣X)⋅p(X)p(X,Y) = p(Y|X) \cdot p(X)p(X,Y)=p(Y∣X)⋅p(X)

C. p(X,Y)=p(X∣Y)/p(Y)p(X,Y) = p(X|Y) / p(Y)p(X,Y)=p(X∣Y)/p(Y)

D. p(X,Y)=p(X)−p(Y∣X)p(X,Y) = p(X) - p(Y|X)p(X,Y)=p(X)−p(Y∣X)

二、判断题（每题2分，共15题，30分。正确打√，错误打×）

21. K-means需要标注数据来训练。（）

22. Lloyd's Algorithm中，分配步和更新步交替进行直到收敛。（）

23. K-means目标函数为min⁡∑∥xn−μzn∥2\min \sum \|x_n - \mu_{z_n}\|^2min∑∥xn−μzn∥2，可通过求导证明更新中心=簇均值。（）

24. K-means保证找到全局最优的聚类结果。（）

25. 肘部法则通过观察K与目标函数值的关系来选择K。（）

26. 偶然不确定性（Aleatoric Uncertainty）可以通过增加训练数据来消除。（）

27. 联合概率分布表中所有值必须非负且总和为1。（）

28. 条件概率p(Y∣X)p(Y|X)p(Y∣X)可以大于1。（）

29. 如果X和Y独立，那么知道了X也不能改变对Y的预测。（）

30. 贝叶斯定理从乘法法则p(A,B)=p(A∣B)p(B)=p(B∣A)p(A)p(A,B)=p(A|B)p(B)=p(B|A)p(A)p(A,B)=p(A∣B)p(B)=p(B∣A)p(A)推导而来。（）

31. 即使检测器性能指标很好（高检测率+低误报率），如果事件本身极其罕见，阳性预测值仍可能很低。（）

32. K-means聚类可以告诉我们每个簇具体代表什么含义。（）

33. 经验概率分布在大样本极限下收敛于真实概率分布。（）

34. IID假设在实践中总是完全成立的。（）

35. 贝叶斯更新=从先验信念出发，利用观测数据更新为后验信念。（）

三、简答题（每题4分，共6题，24分）

36. 请简述K-means聚类（Lloyd's Algorithm）的两个交替步骤，以及为什么算法能保证收敛但不一定找到全局最优。

37. 什么是肘部法则（Elbow Method）？它在K-means中有什么作用？

38. 请区分认知不确定性（Epistemic）和偶然不确定性（Aleatoric），并各举一个例子。

39. 请写出并解释贝叶斯定理的公式，说明先验（Prior）、似然（Likelihood）和后验（Posterior）各自的含义。

40. 在Wake Word检测器例子中，为什么检测率99%+误报率0.1%的模型，阳性预测值只有约9%？这说明了什么原理？

41. 请解释IID假设的含义，并说明为什么在真实数据中这个假设常常不完全成立。

四、计算题（每题3分，共2题，6分）

42. 给定以下联合概率分布表：

	Y=y₁	Y=y₂
X=x₁	0.2	0.1
X=x₂	0.3	0.4

请计算：(1) 边缘概率 p(X=x1)p(X=x_1)p(X=x1)；(2) 条件概率 p(Y=y1∣X=x1)p(Y=y_1 | X=x_1)p(Y=y1∣X=x1)。

43. 某疾病在人群中的患病率为0.5%（p(D=1)=0.005p(D=1)=0.005p(D=1)=0.005）。检测试剂灵敏度为98%（p(T=+∣D=1)=0.98p(T=+|D=1)=0.98p(T=+∣D=1)=0.98），特异度为97%（p(T=−∣D=0)=0.97p(T=-|D=0)=0.97p(T=−∣D=0)=0.97，即误报率3%）。

(1) 若某人检测结果为阳性，他真正患病的概率是多少？

(2) 为什么阳性预测值远低于98%？请结合先验概率分析。

参考：p(T=+∣D=0)=1−0.97=0.03p(T=+|D=0) = 1 - 0.97 = 0.03p(T=+∣D=0)=1−0.97=0.03

试卷结束，请认真检查。

第三章：Clustering and Probability --- 单元习题答案

一、单项选择题答案

题号	答案	解析
1	B	聚类不需要标签→无监督学习
2	B	K是超参数，需手动选择（如肘部法则）
3	C	目标函数：min⁡∑∣xn−μzn∣2\min\sum\|x_n-\mu_{z_n}\|^2min∑∣xn−μzn∣2，欧氏距离平方
4	B	μk=1Nk∑n:zn=kxn\mu_k = \frac{1}{N_k}\sum_{n:z_n=k}x_nμk=Nk1∑n:zn=kxn，即簇均值
5	C	交替最小化保证收敛但可能到局部最小值
6	C	肘部法则用于选择最优聚类数K
7	B	K-means是硬聚类：每点恰好属于一个簇
8	C	Epistemic=可减少（更多数据/更好模型）；Aleatoric=不可消除
9	B	联合概率：非负+总和为1
10	B	边缘化：p(X)=∑Yp(X,Y)p(X)=\sum_Y p(X,Y)p(X)=∑Yp(X,Y)
11	B	$p(Y
12	B	独立：p(X,Y)=p(X)p(Y)p(X,Y)=p(X)p(Y)p(X,Y)=p(X)p(Y)
13	A	IID = Independent and Identically Distributed
14	C	p(A)p(A)p(A)=先验(Prior)，$p(B
15	B	$p(A
16	B	先验极低(0.01%)→即使检测器很好，阳性预测值仍很低→基础率重要
17	C	贝叶斯更新：先验+观测→后验
18	B	不同随机初始化→可能收敛到不同局部最小值→不同聚类结果
19	B	频率学派=长期相对频率；贝叶斯学派=信念度
20	B	乘法法则：$p(X,Y)=p(Y

二、判断题答案

题号	答案	解析
21	×	K-means是无监督学习→不需要标注数据
22	√	分配步+更新步交替→直到分配不再改变
23	√	求导→μk=1Nk∑xn\mu_k=\frac{1}{N_k}\sum x_nμk=Nk1∑xn=簇均值
24	×	保证收敛但不保证全局最优→可能局部最小值
25	√	肘部法则：绘制K vs 目标函数→找"肘部"
26	×	Aleatoric=不可约的（不可消除）；Epistemic=可约
27	√	非负+归一化（和为1）是概率的两条基本性质
28	×	概率值永远∈ $0,1$ ，条件概率也不例外
29	√	独立→$p(Y
30	√	$p(A,B)=p(A
31	√	基础率效应→罕见事件的阳性预测值可能很低
32	×	K-means只知道簇标签→不知道簇代表什么含义
33	√	频率学派：N→∞N\to\inftyN→∞时p^→p\hat{p}\to pp^→p
34	×	实践中常不成立（时间序列/空间数据存在相关性）
35	√	贝叶斯更新=先验+数据→后验信念

三、简答题参考答案

36. Lloyd's Algorithm

参考答案：

两个交替步骤：

步骤	操作	公式
分配步	每点分配给最近的中心	zn=arg⁡min⁡k∣xn−μk∣2z_n = \arg\min_k \|x_n - \mu_k\|^2zn=argmink∣xn−μk∣2
更新步	重新计算每簇的均值	μk=1Nk∑n:zn=kxn\mu_k = \frac{1}{N_k}\sum_{n:z_n=k} x_nμk=Nk1∑n:zn=kxn

收敛性：

✅ 保证收敛：每一步都减少目标函数值，且目标函数有下界（≥0）
❌ 非全局最优：目标函数非凸→可能陷入局部最小值
不同随机初始化→可能得到不同聚类结果

37. 肘部法则

参考答案：

绘制**K-Means目标函数值 vs K（聚类数）**的曲线
随着K增大→目标函数持续下降（更多中心→距离更小）
"肘部"= 曲线弯曲最明显的点→增加K后改善显著递减
选肘部对应的K→在拟合质量和模型简单性之间取得平衡

例如：K=4前目标函数快速下降，K≥5后下降趋缓→K=4是肘部。

38. 两种不确定性

参考答案：

类型	英文	来源	可消除？	例子
认知不确定性	Epistemic	有限数据+模型局限	✅ 可约	训练数据不够→模型不确定；增加数据可减少
偶然不确定性	Aleatoric	观测噪声	❌ 不可约	传感器噪声、人的随机行为

39. 贝叶斯定理

参考答案：

p(A∣B)=p(B∣A)⋅p(A)p(B)p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B)}p(A∣B)=p(B)p(B∣A)⋅p(A)

p(A)p(A)p(A)（先验 Prior）：观测数据前对A的初始信念
p(B∣A)p(B|A)p(B∣A)（似然 Likelihood）：在A成立的条件下观测到B的可能性
p(A∣B)p(A|B)p(A∣B)（后验 Posterior）：观测B后对A的更新信念

推导：从乘法法则 p(A,B)=p(A∣B)p(B)=p(B∣A)p(A)p(A,B)=p(A|B)p(B)=p(B|A)p(A)p(A,B)=p(A∣B)p(B)=p(B∣A)p(A) 移项即得。

40. Wake Word基础率效应

参考答案：

计算：p(X=1∣Y=1)=0.99×0.00010.99×0.0001+0.001×0.9999≈9%p(X=1|Y=1)=\frac{0.99\times 0.0001}{0.99\times 0.0001+0.001\times 0.9999}\approx 9\%p(X=1∣Y=1)=0.99×0.0001+0.001×0.99990.99×0.0001≈9%

原因：

唤醒词极罕见（先验仅0.01%）→绝大多数音频段不含唤醒词
即使误报率仅0.1%→在99.99%的非唤醒词段中仍产生大量假阳性
真阳性数量（0.99×0.0001）远小于假阳性数量（0.001×0.9999）

原理：基础率（Base Rate）至关重要！ 不能只看灵敏度/特异度，必须考虑事件本身的罕见程度。

41. IID假设

参考答案：

含义：

Independent（独立）：各数据点之间相互独立
Identically Distributed（同分布）：所有数据点来自同一概率分布
p((X1,Y1),...,(XN,YN))=∏n=1Np(Xn,Yn)p((X_1,Y_1),\ldots,(X_N,Y_N)) = \prod_{n=1}^{N} p(X_n,Y_n)p((X1,Y1),...,(XN,YN))=∏n=1Np(Xn,Yn)

为什么常不完全成立：

时间序列数据：前后时刻相关（如股价）
空间数据：邻近位置相关（如气象站）
用户行为数据：同一用户的行为高度相关
在IID假设下做ML是一种近似/简化，但仍是许多算法的理论基础

四、计算题参考答案

42. 联合概率计算

(1) 边缘概率 p(X=x1)p(X=x_1)p(X=x1)

p(X=x1)=p(X=x1,Y=y1)+p(X=x1,Y=y2)=0.2+0.1=0.3p(X=x_1) = p(X=x_1, Y=y_1) + p(X=x_1, Y=y_2) = 0.2 + 0.1 = \mathbf{0.3}p(X=x1)=p(X=x1,Y=y1)+p(X=x1,Y=y2)=0.2+0.1=0.3

(2) 条件概率 p(Y=y1∣X=x1)p(Y=y_1 | X=x_1)p(Y=y1∣X=x1)

p(Y=y1∣X=x1)=p(X=x1,Y=y1)p(X=x1)=0.20.3=23≈0.667p(Y=y_1 | X=x_1) = \frac{p(X=x_1, Y=y_1)}{p(X=x_1)} = \frac{0.2}{0.3} = \frac{2}{3} \approx \mathbf{0.667}p(Y=y1∣X=x1)=p(X=x1)p(X=x1,Y=y1)=0.30.2=32≈0.667

43. 疾病检测贝叶斯计算

(1) 阳性预测值

p(D=1∣T=+)=p(T=+∣D=1)⋅p(D=1)p(T=+∣D=1)p(D=1)+p(T=+∣D=0)p(D=0)p(D=1|T=+) = \frac{p(T=+|D=1) \cdot p(D=1)}{p(T=+|D=1)p(D=1) + p(T=+|D=0)p(D=0)}p(D=1∣T=+)=p(T=+∣D=1)p(D=1)+p(T=+∣D=0)p(D=0)p(T=+∣D=1)⋅p(D=1)

=0.98×0.0050.98×0.005+0.03×0.995= \frac{0.98 \times 0.005}{0.98 \times 0.005 + 0.03 \times 0.995}=0.98×0.005+0.03×0.9950.98×0.005

=0.00490.0049+0.02985=0.00490.03475≈0.141≈14.1%= \frac{0.0049}{0.0049 + 0.02985} = \frac{0.0049}{0.03475} \approx 0.141 \approx \mathbf{14.1\%}=0.0049+0.029850.0049=0.034750.0049≈0.141≈14.1%

(2) 为什么远低于98%

疾病极罕见（先验0.5%）→99.5%的人没病
3%误报率×99.5%没病人群≈2.985%的假阳性
真阳性（0.49%）远小于假阳性（2.985%）
→阳性预测值仅约14.1%

启示：对罕见病筛查→阳性结果也未必患病→需进一步确诊。这再次说明基础率（先验）的极端重要性！

答案编制完成时间：2026年6月27日

机器学习与模式识别 第三章 聚类与贝叶斯 模拟卷及答案

第三章：Clustering and Probability --- 单元习题

一、单项选择题（每题2分，共20题，40分）

二、判断题（每题2分，共15题，30分。正确打√，错误打×）

三、简答题（每题4分，共6题，24分）

四、计算题（每题3分，共2题，6分）

第三章：Clustering and Probability --- 单元习题答案

一、单项选择题答案

二、判断题答案

三、简答题参考答案

36. Lloyd's Algorithm

37. 肘部法则

38. 两种不确定性

39. 贝叶斯定理

40. Wake Word基础率效应

41. IID假设

四、计算题参考答案

42. 联合概率计算

43. 疾病检测贝叶斯计算

机器学习与模式识别第三章聚类与贝叶斯模拟卷及答案