K-Means (K-均值聚类)：物以类聚的整理术

图解说明：

机器学习里最经典的聚类算法 ------K-Means。

之前我们介绍的算法（比如 SVM、KNN）都是有监督学习 ，也就是老师给了你标准答案（告诉你是猫还是狗）。

但 K-Means 不一样，它是无监督学习 。也就是说，没有标准答案，全靠自己找规律。

如果你完全不懂算法，没关系。想象一下，你是一个婚礼策划师。

你的任务是给 100 位宾客 安排座位。

但是，你完全不认识这些人！你不知道谁是新郎的亲戚，谁是新娘的同事。

你只知道他们的年龄和职业（这就是数据特征）。

你的目标是：把这 100 个人分成 3 桌（K=3），让每一桌的人尽可能相似，这样他们才有共同话题，不会尴尬。

K-Means 就是帮你干这个的：把一堆杂乱无章的数据，自动分成 K 个堆。

K-Means 的工作方式非常像一个不断调整的民主选举。

首先，你心里没底，于是随便指了 3 个人（比如张三、李四、王五）说："你们三个先当桌长，分别坐到 A、B、C 三张桌子上。"

剩下的 97 个人，看这 3 位桌长，谁离自己最近（特征最相似），就坐到谁那一桌去。

大家都坐好后，你发现 A 桌虽然大部分是年轻人，但张三其实是个喜欢安静的文艺青年，坐在这一桌吵闹的年轻人中间有点格格不入（他不是真正的中心）。

于是，大家在 A 桌里重新选出一个最能代表这一桌平均水平 的人（真正的中心点），让他当新的桌长。

B 桌、C 桌也同样选出新的中心人物。

因为桌长换人了（中心点变了），大家发现："咦？我现在离新的 B 桌桌长更近一点，我不该在 A 桌。"

于是，大家重新站起来，寻找离自己最近的新桌长 。

分好组后，再次选出新的中心...

就这样重复了几轮，直到某一次，新的桌长位置不再变化了 （或者变化非常小）。

这时候，分桌结束！

K 就是你想要分成的组数。

关键问题：我怎么知道 K 选几？

这确实是个难题。通常我们会试一试：

K-Means 就是一个不断纠结的整理控：

下次你整理衣柜，把衣服分成"夏天穿的"、"冬天穿的"、"运动穿的"，其实你就在人肉执行 K-Means 算法！🧹