机器学习笔记【Week8】

一、无监督学习

无监督学习：与监督学习不同，数据没有标签，训练集仅包含输入特征，没有输出标签。
任务：让算法发现数据的内在结构，比如聚类。
应用场景 ：
- 市场细分：将客户分成不同群体，做个性化营销。
- 社交网络分析：找关系密切的人群。
- 计算机集群资源优化：根据协作频率重新分配资源。
- 天文学研究：星系形成研究等。

K-均值简介：最常用的聚类算法，把数据分为 K 个簇。
算法步骤：
1. 随机选择K个聚类中心（centroids）。
2. 对每个样本，将其归类到最近的聚类中心。
3. 更新每个簇的聚类中心为该簇所有点的均值。
4. 重复步骤 2 和 3 直到聚类中心不再变化。

伪代码：

pseudo 复制代码

Repeat {
  for i = 1 to m:
    c(i) := index of closest cluster centroid to x(i)
  for k = 1 to K:
    μ_k := mean of points assigned to cluster k
}

代价函数（畸变函数） ：
J ( c ( 1 ) , ... , c ( m ) , μ 1 , ... , μ K ) = 1 m ∑ i = 1 m ∥ x ( i ) − μ c ( i ) ∥ 2 J(c^{(1)}, \dots, c^{(m)}, \mu_1, \dots, \mu_K) = \frac{1}{m} \sum_{i=1}^m \| x^{(i)} - \mu_{c^{(i)}} \|^2 J(c(1),...,c(m),μ1,...,μK)=m1i=1∑m∥x(i)−μc(i)∥2
目标是最小化所有样本到其最近聚类中心的距离平方和。
每次迭代通过更新簇分配和簇中心，保证代价函数单调递减。

无最佳选择 K 的方法，需结合实际应用场景判断。
肘部法则（Elbow Method） ：
- 运行不同 K 值的 K-均值，计算代价函数（畸变值）。
- 画出 K 值与代价函数的曲线，寻找 "肘部" 点（代价函数下降趋势变缓处）。
- "肘部" 对应的K值常作为较合理的聚类数。

闵可夫斯基距离（Minkowski distance）
D ( x , y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 / p D(x,y) = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{1/p} D(x,y)=(i=1∑n∣xi−yi∣p)1/p
- 欧式距离是 p = 2 p=2 p=2 特例。
杰卡德相似系数（Jaccard similarity）
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B) = \frac{|A \cap B|}{|A \cup B|} J(A,B)=∣A∪B∣∣A∩B∣
余弦相似度（Cosine similarity）
cos ⁡ ( θ ) = x ⋅ y ∥ x ∥ ∥ y ∥ \cos(\theta) = \frac{x \cdot y}{\|x\| \|y\|} cos(θ)=∥x∥∥y∥x⋅y
Pearson相关系数
- 测量两个变量的线性相关性。

选择使得保留的方差比例满足一定阈值（例如 95%）。
计算投影后的方差占总方差比例：
∑ i = 1 k S i i ∑ i = 1 n S i i ≥ threshold \frac{\sum_{i=1}^k S_{ii}}{\sum_{i=1}^n S_{ii}} \geq \text{threshold} ∑i=1nSii∑i=1kSii≥threshold