CatBoost：自带“翻译官”的算法专家

图解说明：

GBDT 家族的第三位巨头------CatBoost。

它的名字听起来像"猫 (Cat)"，但其实它是 Category (类别) + Boosting (提升) 的缩写。

如果说 XGBoost 是力量型 选手，LightGBM 是速度型 选手，那么 CatBoost 就是一位技巧型 选手，它最擅长的绝活是：处理那些非数字的"类别"数据。

它是俄罗斯搜索巨头 Yandex 开源的神器。如果你完全不懂算法，没关系。我们来看看它到底解决了什么痛点。

在机器学习里，电脑只认识数字（1, 2, 3...），不认识文字。

但是，现实世界里有很多数据是**"类别"**，比如：

以前，为了让电脑看懂这些词，我们通常用两种笨办法：

编号法 (Label Encoding) ：
- 北京=1，上海=2，广州=3。
- 问题：电脑会误以为"广州(3)"比"北京(1)"大，但这只是个代号，没有大小之分啊！这会误导模型。
独热编码 (One-Hot Encoding) ：
- 变成 3 列：是北京吗？是上海吗？是广州吗？
- 问题：如果城市有 1000 个，表格瞬间变宽 1000 倍，电脑内存直接爆炸。

CatBoost 自带一个超级聪明的"翻译官"。它不需要你手动处理这些数据，扔进去就行。

它用了一种叫 Ordered Target Statistics (排序目标统计) 的方法。

简单说，就是用"历史平均值"来代替类别。

举个栗子 🌰 ：

我们要预测一个人会不会买房。特征是"城市"。

这样，既保留了城市的特征，又变成了电脑能看懂的数字，而且没有增加表格的宽度！

XGBoost 和 LightGBM 长出来的树，往往是歪七扭八的（哪里有需要往哪里长）。

但 CatBoost 有强迫症，它长出来的树是完全对称的。

虽然看起来有点死板，但这对计算机非常友好！

CatBoost 在训练的时候，非常讲究**"先来后到"**。

在计算"北京买房概率"的时候，它不会偷看未来的数据。

CatBoost 就是一位自带翻译官的强迫症专家：

如果你手头的数据里有很多非数字的列 （比如电商数据、用户画像），又不想花时间洗数据，CatBoost 绝对是你的首选！🐱