机器学习与模式识别 第三章 聚类与贝叶斯 考点压缩

第三章:Clustering and Probability --- 知识点笔记

综合来源:Lecture 03 PDF(49页)、课堂笔记(CSDN)


占位图

3.1 K-means聚类 ⭐

问题定义

  • 输入 :无标签数据点 D={x1,...,xN}\mathcal{D} = \{x_1, \ldots, x_N\}D={x1,...,xN},xn∈RDx_n \in \mathbb{R}^Dxn∈RD
  • 输出 :KKK个聚类中心 μk∈RD\mu_k \in \mathbb{R}^Dμk∈RD + 每个点的分配 zn∈{1,...,K}z_n \in \{1, \ldots, K\}zn∈{1,...,K}
  • μk\mu_kμk:模型参数(可从数据拟合) | KKK:超参数(需手动选择)

目标函数(L2范数,欧氏距离平方)

arg⁡min⁡μ,z∑n=1N∥xn−μzn∥2\arg\min_{\mu, z} \sum_{n=1}^{N} \|x_n - \mu_{z_n}\|^2argμ,zminn=1∑N∥xn−μzn∥2

核心思想:每个数据点应尽可能靠近其被分配的聚类中心。

Lloyd's Algorithm(交替最小化)

  1. 初始化 :随机选择KKK个点作为初始中心μk\mu_kμk
  2. Update Assignments(分配步) :每个点分配给最近的中心
    zn=arg⁡min⁡k∑d=1D(xnd−μkd)2z_n = \arg\min_k \sum_{d=1}^{D} (x_{nd} - \mu_{kd})^2zn=argkmind=1∑D(xnd−μkd)2
  3. Update Centers(更新步) :重新计算每个簇的均值
    μk=1Nk∑n:zn=kxn(簇内所有点的平均值)\mu_k = \frac{1}{N_k} \sum_{n: z_n=k} x_n \quad \text{(簇内所有点的平均值)}μk=Nk1n:zn=k∑xn(簇内所有点的平均值)
  4. 重复1-2直到分配不再变化(收敛)

收敛性

  • 保证收敛:交替最小化每一步都减少目标函数值
  • 不一定是最优解 :可能陷入局部最小值
  • 不同初始化→不同结果

肘部法则(Elbow Method)⭐

  • 绘制 K-Means目标函数值 vs K 的曲线
  • "肘部"= 增加K后目标函数改善递减最显著的位置
  • 选择肘部对应的K值

聚类解释注意事项

  • K-means输出簇标签→但不知道簇代表什么
  • 簇可能对应类别,也可能对应其他因素
  • 硬分配:每个点恰好属于一个簇

Pixel K-Means

  • 图像像素→RGB三维向量
  • K-means聚类→用少数K种颜色渲染图像

3.2 不确定性 ⭐

类型 英文 含义 可消除?
认知不确定性 Epistemic 有限训练数据和建模过程的系统不确定性 ✅ 可约(更多数据/更好模型)
偶然不确定性 Aleatoric 观测噪声带来的随机不确定性 ❌ 不可约

需要一种处理不确定性的框架 → 概率论!


3.3 概率论复习 ⭐⭐

概率的两种解释

  • 频率学派(Frequentist):长期重复试验中的相对频率
  • 贝叶斯学派(Bayesian):给定信息的相信程度(信念度)

联合概率分布(Joint Probability)

  • p(X=xi,Y=yj)p(X=x_i, Y=y_j)p(X=xi,Y=yj):X=xiX=x_iX=xi且Y=yjY=y_jY=yj的概率
  • 性质:非负性 + 归一化(∑∑p=1\sum\sum p = 1∑∑p=1)

求和法则(Marginalization,边缘化)

p(X=xi)=∑j=1Mp(X=xi,Y=yj)p(X = x_i) = \sum_{j=1}^{M} p(X = x_i, Y = y_j)p(X=xi)=j=1∑Mp(X=xi,Y=yj)

条件概率

p(Y=yj∣X=xi)=p(X=xi,Y=yj)p(X=xi)p(Y = y_j | X = x_i) = \frac{p(X = x_i, Y = y_j)}{p(X = x_i)}p(Y=yj∣X=xi)=p(X=xi)p(X=xi,Y=yj)

乘法法则(Product Rule / Chain Rule)

p(X,Y)=p(Y∣X)⋅p(X)p(X, Y) = p(Y | X) \cdot p(X)p(X,Y)=p(Y∣X)⋅p(X)

p(X,Y,Z)=p(Z∣X,Y)⋅p(Y∣X)⋅p(X)p(X, Y, Z) = p(Z | X, Y) \cdot p(Y | X) \cdot p(X)p(X,Y,Z)=p(Z∣X,Y)⋅p(Y∣X)⋅p(X)

独立性

X⊥Y  ⟹  p(X,Y)=p(X)p(Y)  ⟹  p(Y∣X)=p(Y)X \perp Y \implies p(X, Y) = p(X)p(Y) \implies p(Y|X) = p(Y)X⊥Y⟹p(X,Y)=p(X)p(Y)⟹p(Y∣X)=p(Y)

IID(独立同分布)

p((X1,Y1),...,(XN,YN))=∏n=1Np(Xn,Yn)p((X_1, Y_1), \ldots, (X_N, Y_N)) = \prod_{n=1}^{N} p(X_n, Y_n)p((X1,Y1),...,(XN,YN))=n=1∏Np(Xn,Yn)

我们通常假设数据是IID的(实践中常不完全成立)

经验概率分布

p^(X=xi,Y=yj)=nijN\hat{p}(X=x_i, Y=y_j) = \frac{n_{ij}}{N}p^(X=xi,Y=yj)=Nnij

  • nijn_{ij}nij:X=xi,Y=yjX=x_i, Y=y_jX=xi,Y=yj的观测次数
  • N→∞N \to \inftyN→∞时,p^→p\hat{p} \to pp^→p(频率学派观点)

3.4 贝叶斯定理 ⭐⭐⭐(计算重点)

p(A∣B)=p(B∣A)⋅p(A)p(B)=p(B∣A)p(A)∑Ap(B∣A)p(A)p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B)} = \frac{p(B|A)p(A)}{\sum_A p(B|A)p(A)}p(A∣B)=p(B)p(B∣A)⋅p(A)=∑Ap(B∣A)p(A)p(B∣A)p(A)

  • p(A)p(A)p(A):先验(Prior)------初始信念
  • p(B∣A)p(B|A)p(B∣A):似然(Likelihood)------给定A下观测B的可能性
  • p(A∣B)p(A|B)p(A∣B):后验(Posterior)------观测B后更新的信念
  • 贝叶斯更新:先验+观测→后验

Wake Word检测器示例

已知:

  • 先验:唤醒词极罕见 p(X=1)=0.0001p(X=1)=0.0001p(X=1)=0.0001
  • 检测率99%:p(Y=1∣X=1)=0.99p(Y=1|X=1)=0.99p(Y=1∣X=1)=0.99
  • 误报率0.1%:p(Y=1∣X=0)=0.001p(Y=1|X=0)=0.001p(Y=1∣X=0)=0.001

当检测器报阳性时,真的是唤醒词的概率:

p(X=1∣Y=1)=0.99×0.00010.99×0.0001+0.001×0.9999≈0.09=9%p(X=1|Y=1) = \frac{0.99 \times 0.0001}{0.99 \times 0.0001 + 0.001 \times 0.9999} \approx 0.09 = 9\%p(X=1∣Y=1)=0.99×0.0001+0.001×0.99990.99×0.0001≈0.09=9%

关键洞察 :即使检测器看起来很准(99%检测率+0.1%误报率),由于唤醒词极罕见→阳性预测值仅9%!→基础率(Base Rate)至关重要!

如何改进?

  • 降低误报率(False Positive Rate)→大幅提升P(Wake∣Detect)P(Wake|Detect)P(Wake∣Detect)
  • 提高先验(仅在可能场景启用唤醒检测)

笔记中的图片索引

序号 图片内容描述 来源位置
图1 K-means聚类迭代过程(Step 0-9) Lecture 03 第16页
图2 肘部法则示意图 Lecture 03 第17页
图3 Pixel K-Means颜色聚类 Lecture 03 第20-21页
图4 认识不确定性vs偶然不确定性 Lecture 03 第23页
图5 联合概率分布表 Lecture 03 第31-32页
图6 Wake Word检测器流程图 Lecture 03 第38-40页
图7 P(Wake Detect) vs FPR曲线

笔记整理时间:2026年6月27日