第三章:Clustering and Probability --- 知识点笔记
综合来源:Lecture 03 PDF(49页)、课堂笔记(CSDN)
占位图

3.1 K-means聚类 ⭐
问题定义
- 输入 :无标签数据点 D={x1,...,xN}\mathcal{D} = \{x_1, \ldots, x_N\}D={x1,...,xN},xn∈RDx_n \in \mathbb{R}^Dxn∈RD
- 输出 :KKK个聚类中心 μk∈RD\mu_k \in \mathbb{R}^Dμk∈RD + 每个点的分配 zn∈{1,...,K}z_n \in \{1, \ldots, K\}zn∈{1,...,K}
- μk\mu_kμk:模型参数(可从数据拟合) | KKK:超参数(需手动选择)
目标函数(L2范数,欧氏距离平方)
argminμ,z∑n=1N∥xn−μzn∥2\arg\min_{\mu, z} \sum_{n=1}^{N} \|x_n - \mu_{z_n}\|^2argμ,zminn=1∑N∥xn−μzn∥2
核心思想:每个数据点应尽可能靠近其被分配的聚类中心。
Lloyd's Algorithm(交替最小化)
- 初始化 :随机选择KKK个点作为初始中心μk\mu_kμk
- Update Assignments(分配步) :每个点分配给最近的中心
zn=argmink∑d=1D(xnd−μkd)2z_n = \arg\min_k \sum_{d=1}^{D} (x_{nd} - \mu_{kd})^2zn=argkmind=1∑D(xnd−μkd)2 - Update Centers(更新步) :重新计算每个簇的均值
μk=1Nk∑n:zn=kxn(簇内所有点的平均值)\mu_k = \frac{1}{N_k} \sum_{n: z_n=k} x_n \quad \text{(簇内所有点的平均值)}μk=Nk1n:zn=k∑xn(簇内所有点的平均值) - 重复1-2直到分配不再变化(收敛)
收敛性
- ✅ 保证收敛:交替最小化每一步都减少目标函数值
- ❌ 不一定是最优解 :可能陷入局部最小值
- 不同初始化→不同结果
肘部法则(Elbow Method)⭐
- 绘制 K-Means目标函数值 vs K 的曲线
- "肘部"= 增加K后目标函数改善递减最显著的位置
- 选择肘部对应的K值
聚类解释注意事项
- K-means输出簇标签→但不知道簇代表什么
- 簇可能对应类别,也可能对应其他因素
- 硬分配:每个点恰好属于一个簇
Pixel K-Means
- 图像像素→RGB三维向量
- K-means聚类→用少数K种颜色渲染图像
3.2 不确定性 ⭐
| 类型 | 英文 | 含义 | 可消除? |
|---|---|---|---|
| 认知不确定性 | Epistemic | 有限训练数据和建模过程的系统不确定性 | ✅ 可约(更多数据/更好模型) |
| 偶然不确定性 | Aleatoric | 观测噪声带来的随机不确定性 | ❌ 不可约 |
需要一种处理不确定性的框架 → 概率论!
3.3 概率论复习 ⭐⭐
概率的两种解释
- 频率学派(Frequentist):长期重复试验中的相对频率
- 贝叶斯学派(Bayesian):给定信息的相信程度(信念度)
联合概率分布(Joint Probability)
- p(X=xi,Y=yj)p(X=x_i, Y=y_j)p(X=xi,Y=yj):X=xiX=x_iX=xi且Y=yjY=y_jY=yj的概率
- 性质:非负性 + 归一化(∑∑p=1\sum\sum p = 1∑∑p=1)
求和法则(Marginalization,边缘化)
p(X=xi)=∑j=1Mp(X=xi,Y=yj)p(X = x_i) = \sum_{j=1}^{M} p(X = x_i, Y = y_j)p(X=xi)=j=1∑Mp(X=xi,Y=yj)
条件概率
p(Y=yj∣X=xi)=p(X=xi,Y=yj)p(X=xi)p(Y = y_j | X = x_i) = \frac{p(X = x_i, Y = y_j)}{p(X = x_i)}p(Y=yj∣X=xi)=p(X=xi)p(X=xi,Y=yj)
乘法法则(Product Rule / Chain Rule)
p(X,Y)=p(Y∣X)⋅p(X)p(X, Y) = p(Y | X) \cdot p(X)p(X,Y)=p(Y∣X)⋅p(X)
p(X,Y,Z)=p(Z∣X,Y)⋅p(Y∣X)⋅p(X)p(X, Y, Z) = p(Z | X, Y) \cdot p(Y | X) \cdot p(X)p(X,Y,Z)=p(Z∣X,Y)⋅p(Y∣X)⋅p(X)
独立性
X⊥Y ⟹ p(X,Y)=p(X)p(Y) ⟹ p(Y∣X)=p(Y)X \perp Y \implies p(X, Y) = p(X)p(Y) \implies p(Y|X) = p(Y)X⊥Y⟹p(X,Y)=p(X)p(Y)⟹p(Y∣X)=p(Y)
IID(独立同分布)
p((X1,Y1),...,(XN,YN))=∏n=1Np(Xn,Yn)p((X_1, Y_1), \ldots, (X_N, Y_N)) = \prod_{n=1}^{N} p(X_n, Y_n)p((X1,Y1),...,(XN,YN))=n=1∏Np(Xn,Yn)
我们通常假设数据是IID的(实践中常不完全成立)
经验概率分布
p^(X=xi,Y=yj)=nijN\hat{p}(X=x_i, Y=y_j) = \frac{n_{ij}}{N}p^(X=xi,Y=yj)=Nnij
- nijn_{ij}nij:X=xi,Y=yjX=x_i, Y=y_jX=xi,Y=yj的观测次数
- N→∞N \to \inftyN→∞时,p^→p\hat{p} \to pp^→p(频率学派观点)
3.4 贝叶斯定理 ⭐⭐⭐(计算重点)
p(A∣B)=p(B∣A)⋅p(A)p(B)=p(B∣A)p(A)∑Ap(B∣A)p(A)p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B)} = \frac{p(B|A)p(A)}{\sum_A p(B|A)p(A)}p(A∣B)=p(B)p(B∣A)⋅p(A)=∑Ap(B∣A)p(A)p(B∣A)p(A)
- p(A)p(A)p(A):先验(Prior)------初始信念
- p(B∣A)p(B|A)p(B∣A):似然(Likelihood)------给定A下观测B的可能性
- p(A∣B)p(A|B)p(A∣B):后验(Posterior)------观测B后更新的信念
- 贝叶斯更新:先验+观测→后验
Wake Word检测器示例
已知:
- 先验:唤醒词极罕见 p(X=1)=0.0001p(X=1)=0.0001p(X=1)=0.0001
- 检测率99%:p(Y=1∣X=1)=0.99p(Y=1|X=1)=0.99p(Y=1∣X=1)=0.99
- 误报率0.1%:p(Y=1∣X=0)=0.001p(Y=1|X=0)=0.001p(Y=1∣X=0)=0.001
当检测器报阳性时,真的是唤醒词的概率:
p(X=1∣Y=1)=0.99×0.00010.99×0.0001+0.001×0.9999≈0.09=9%p(X=1|Y=1) = \frac{0.99 \times 0.0001}{0.99 \times 0.0001 + 0.001 \times 0.9999} \approx 0.09 = 9\%p(X=1∣Y=1)=0.99×0.0001+0.001×0.99990.99×0.0001≈0.09=9%
关键洞察 :即使检测器看起来很准(99%检测率+0.1%误报率),由于唤醒词极罕见→阳性预测值仅9%!→基础率(Base Rate)至关重要!
如何改进?
- 降低误报率(False Positive Rate)→大幅提升P(Wake∣Detect)P(Wake|Detect)P(Wake∣Detect)
- 提高先验(仅在可能场景启用唤醒检测)
笔记中的图片索引
| 序号 | 图片内容描述 | 来源位置 |
|---|---|---|
| 图1 | K-means聚类迭代过程(Step 0-9) | Lecture 03 第16页 |
| 图2 | 肘部法则示意图 | Lecture 03 第17页 |
| 图3 | Pixel K-Means颜色聚类 | Lecture 03 第20-21页 |
| 图4 | 认识不确定性vs偶然不确定性 | Lecture 03 第23页 |
| 图5 | 联合概率分布表 | Lecture 03 第31-32页 |
| 图6 | Wake Word检测器流程图 | Lecture 03 第38-40页 |
| 图7 | P(Wake | Detect) vs FPR曲线 |
笔记整理时间:2026年6月27日