我把 K-Means 的每一步都画了出来：分配、更新、收敛，外加几个工程踩坑

很多人对 K-Means 的印象停留在「调个 sklearn 的 KMeans 就出结果」，但真要自己实现一遍，会发现细节比想象中多。这篇从工程视角把它拆开：核心循环、初始化、空簇、复杂度，外加几个容易翻车的点。

它到底在干嘛

一句话：给 n 个点，自动分成 k 组，组内尽量近，无监督、没标签。核心就两步循环：

arduino 复制代码

void kmeans(vector<Point>& pts, vector<Point>& centers, int k) {
    while (true) {
        for (auto& p : pts)                       // ① 分配
            p.cluster = nearest(p, centers);      //    归到最近的中心
        bool moved = false;
        for (int j = 0; j < k; j++)               // ② 更新
            moved |= moveToMean(centers[j], pts, j); // 中心移到簇均值
        if (!moved) break;                        // 中心不动 → 收敛
    }
}

nearest 找最近中心，moveToMean 把中心挪到簇均值，if (!moved) break 做收敛判定。逻辑就这么点，但魔鬼在细节。

距离别开方

比较「谁更近」时用距离的平方就够了，省掉每次 sqrt：

arduino 复制代码

double dist2(const Point& a, const Point& b) {
    double dx = a.x - b.x, dy = a.y - b.y;
    return dx * dx + dy * dy;   // 平方比较，省一次开方
}

初始化怎么选

最朴素是随机选 k 个点当初始中心，但结果对初始值很敏感，可能收敛到差的局部最优。两个常见做法：① 多跑几次取最优 （按簇内误差选最好的一次）；② 用 k-means++ ，让初始中心彼此尽量分散，质量更稳。演示里用的是固定初始中心，方便看清过程。

空簇要处理

更新步里，如果某个簇一个点都没分到，cnt == 0，均值就没法算。我的写法是这种情况下让中心本轮不动：

arduino 复制代码

bool moveToMean(Point& center, const vector<Point>& pts, int j) {
    double sx = 0, sy = 0; int cnt = 0;
    for (const auto& p : pts)
        if (p.cluster == j) { sx += p.x; sy += p.y; cnt++; }
    if (cnt == 0) return false;        // 空簇：本轮不动
    center.x = sx / cnt; center.y = sy / cnt;
    return true;
}

工程上更激进的做法是：把空簇的中心重置到「离现有中心最远的那个点」，避免白白浪费一个簇。

复杂度

每轮算 n 个点到 k 个中心的距离，O(n·k)；跑 t 轮就是 O(n·k·t) ，空间 O(n + k)。t 一般不大，所以很快。

几个踩坑总结

k 要自己定，配合肘部法则；
特征量纲差太大先归一化，否则距离被大尺度特征主导；
簇非球形（环形/长条）效果差，换 DBSCAN；
加个最大迭代次数兜底，别真写死等到完全不动。

把分配、更新、收敛逐帧画出来之后，这算法是真的一目了然。这套可视化在码路星球 里：我不慌----成长杂货铺wobuhuang.com

算法、机器学习、K-Means、C++、聚类、可视化