机器学习与模式识别第三章聚类与贝叶斯考点压缩

第三章：Clustering and Probability --- 知识点笔记

综合来源：Lecture 03 PDF（49页）、课堂笔记（CSDN）

占位图

3.1 K-means聚类 ⭐

问题定义

输入：无标签数据点 D={x1,...,xN}\mathcal{D} = \{x_1, \ldots, x_N\}D={x1,...,xN}，xn∈RDx_n \in \mathbb{R}^Dxn∈RD
输出：KKK个聚类中心 μk∈RD\mu_k \in \mathbb{R}^Dμk∈RD + 每个点的分配 zn∈{1,...,K}z_n \in \{1, \ldots, K\}zn∈{1,...,K}
μk\mu_kμk：模型参数（可从数据拟合） | KKK：超参数（需手动选择）

目标函数（L2范数，欧氏距离平方）

arg⁡min⁡μ,z∑n=1N∥xn−μzn∥2\arg\min_{\mu, z} \sum_{n=1}^{N} \|x_n - \mu_{z_n}\|^2argμ,zminn=1∑N∥xn−μzn∥2

核心思想：每个数据点应尽可能靠近其被分配的聚类中心。

Lloyd's Algorithm（交替最小化）

初始化 ：随机选择KKK个点作为初始中心μk\mu_kμk
Update Assignments（分配步） ：每个点分配给最近的中心
zn=arg⁡min⁡k∑d=1D(xnd−μkd)2z_n = \arg\min_k \sum_{d=1}^{D} (x_{nd} - \mu_{kd})^2zn=argkmind=1∑D(xnd−μkd)2
Update Centers（更新步） ：重新计算每个簇的均值
μk=1Nk∑n:zn=kxn（簇内所有点的平均值）\mu_k = \frac{1}{N_k} \sum_{n: z_n=k} x_n \quad \text{（簇内所有点的平均值）}μk=Nk1n:zn=k∑xn（簇内所有点的平均值）
重复1-2直到分配不再变化（收敛）

收敛性

✅ 保证收敛：交替最小化每一步都减少目标函数值
❌ 不一定是最优解 ：可能陷入局部最小值
不同初始化→不同结果

肘部法则（Elbow Method）⭐

绘制 K-Means目标函数值 vs K 的曲线
"肘部"= 增加K后目标函数改善递减最显著的位置
选择肘部对应的K值

聚类解释注意事项

K-means输出簇标签→但不知道簇代表什么
簇可能对应类别，也可能对应其他因素
硬分配：每个点恰好属于一个簇

Pixel K-Means

图像像素→RGB三维向量
K-means聚类→用少数K种颜色渲染图像

3.2 不确定性 ⭐

类型	英文	含义	可消除？
认知不确定性	Epistemic	有限训练数据和建模过程的系统不确定性	✅ 可约（更多数据/更好模型）
偶然不确定性	Aleatoric	观测噪声带来的随机不确定性	❌ 不可约

需要一种处理不确定性的框架 → 概率论！

3.3 概率论复习 ⭐⭐

概率的两种解释

频率学派（Frequentist）：长期重复试验中的相对频率
贝叶斯学派（Bayesian）：给定信息的相信程度（信念度）

联合概率分布（Joint Probability）

p(X=xi,Y=yj)p(X=x_i, Y=y_j)p(X=xi,Y=yj)：X=xiX=x_iX=xi且Y=yjY=y_jY=yj的概率
性质：非负性 + 归一化（∑∑p=1\sum\sum p = 1∑∑p=1）

求和法则（Marginalization，边缘化）

p(X=xi)=∑j=1Mp(X=xi,Y=yj)p(X = x_i) = \sum_{j=1}^{M} p(X = x_i, Y = y_j)p(X=xi)=j=1∑Mp(X=xi,Y=yj)

条件概率

p(Y=yj∣X=xi)=p(X=xi,Y=yj)p(X=xi)p(Y = y_j | X = x_i) = \frac{p(X = x_i, Y = y_j)}{p(X = x_i)}p(Y=yj∣X=xi)=p(X=xi)p(X=xi,Y=yj)

乘法法则（Product Rule / Chain Rule）

p(X,Y)=p(Y∣X)⋅p(X)p(X, Y) = p(Y | X) \cdot p(X)p(X,Y)=p(Y∣X)⋅p(X)

p(X,Y,Z)=p(Z∣X,Y)⋅p(Y∣X)⋅p(X)p(X, Y, Z) = p(Z | X, Y) \cdot p(Y | X) \cdot p(X)p(X,Y,Z)=p(Z∣X,Y)⋅p(Y∣X)⋅p(X)

独立性

X⊥Y ⟹ p(X,Y)=p(X)p(Y) ⟹ p(Y∣X)=p(Y)X \perp Y \implies p(X, Y) = p(X)p(Y) \implies p(Y|X) = p(Y)X⊥Y⟹p(X,Y)=p(X)p(Y)⟹p(Y∣X)=p(Y)

IID（独立同分布）

p((X1,Y1),...,(XN,YN))=∏n=1Np(Xn,Yn)p((X_1, Y_1), \ldots, (X_N, Y_N)) = \prod_{n=1}^{N} p(X_n, Y_n)p((X1,Y1),...,(XN,YN))=n=1∏Np(Xn,Yn)

我们通常假设数据是IID的（实践中常不完全成立）

经验概率分布

p^(X=xi,Y=yj)=nijN\hat{p}(X=x_i, Y=y_j) = \frac{n_{ij}}{N}p^(X=xi,Y=yj)=Nnij

nijn_{ij}nij：X=xi,Y=yjX=x_i, Y=y_jX=xi,Y=yj的观测次数
N→∞N \to \inftyN→∞时，p^→p\hat{p} \to pp^→p（频率学派观点）

3.4 贝叶斯定理 ⭐⭐⭐（计算重点）

p(A∣B)=p(B∣A)⋅p(A)p(B)=p(B∣A)p(A)∑Ap(B∣A)p(A)p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B)} = \frac{p(B|A)p(A)}{\sum_A p(B|A)p(A)}p(A∣B)=p(B)p(B∣A)⋅p(A)=∑Ap(B∣A)p(A)p(B∣A)p(A)

p(A)p(A)p(A)：先验（Prior）------初始信念
p(B∣A)p(B|A)p(B∣A)：似然（Likelihood）------给定A下观测B的可能性
p(A∣B)p(A|B)p(A∣B)：后验（Posterior）------观测B后更新的信念
贝叶斯更新：先验+观测→后验

Wake Word检测器示例

已知：

先验：唤醒词极罕见 p(X=1)=0.0001p(X=1)=0.0001p(X=1)=0.0001
检测率99%：p(Y=1∣X=1)=0.99p(Y=1|X=1)=0.99p(Y=1∣X=1)=0.99
误报率0.1%：p(Y=1∣X=0)=0.001p(Y=1|X=0)=0.001p(Y=1∣X=0)=0.001

当检测器报阳性时，真的是唤醒词的概率：

p(X=1∣Y=1)=0.99×0.00010.99×0.0001+0.001×0.9999≈0.09=9%p(X=1|Y=1) = \frac{0.99 \times 0.0001}{0.99 \times 0.0001 + 0.001 \times 0.9999} \approx 0.09 = 9\%p(X=1∣Y=1)=0.99×0.0001+0.001×0.99990.99×0.0001≈0.09=9%

关键洞察 ：即使检测器看起来很准（99%检测率+0.1%误报率），由于唤醒词极罕见→阳性预测值仅9%！→基础率（Base Rate）至关重要！

如何改进？

降低误报率（False Positive Rate）→大幅提升P(Wake∣Detect)P(Wake|Detect)P(Wake∣Detect)
提高先验（仅在可能场景启用唤醒检测）

笔记中的图片索引

序号	图片内容描述	来源位置
图1	K-means聚类迭代过程（Step 0-9）	Lecture 03 第16页
图2	肘部法则示意图	Lecture 03 第17页
图3	Pixel K-Means颜色聚类	Lecture 03 第20-21页
图4	认识不确定性vs偶然不确定性	Lecture 03 第23页
图5	联合概率分布表	Lecture 03 第31-32页
图6	Wake Word检测器流程图	Lecture 03 第38-40页
图7	P(Wake	Detect) vs FPR曲线

笔记整理时间：2026年6月27日

机器学习与模式识别 第三章 聚类与贝叶斯 考点压缩