【漫话机器学习系列】274.基尼指数（Gini Index）

决策树中的基尼指数（Gini Index）详解 ------ 从公式理解到实际应用

在构建决策树模型时，一个核心问题是：如何选择最优的特征来进行节点划分？

这就涉及到了"划分准则"的问题。常见的准则有信息增益、信息增益率以及本文的主角：基尼指数（Gini Index）。

在这篇文章中，我们将借助一张手绘风图解，深入浅出地理解基尼指数的含义、公式构成、应用场景及其在构建决策树过程中的作用。

基尼指数（Gini Index）是一种用于衡量一个数据集合"纯度"的指标，主要用于分类问题中的决策树构建，尤其是 CART（Classification and Regression Tree）算法。

通俗理解：

基尼指数越小，说明这个集合中样本类别越"集中"，即越"纯"；反之，值越大，说明类别混杂，纯度低。

参考图中的公式：

公式如下：

各符号说明如下：

假设我们有一个节点，其中 70% 是正类（positive），30% 是负类（negative），那么：

G = 0.7(1-0.7) + 0.3(1-0.3) = 0.21 + 0.21 = 0.42

如果节点中全部为正类，即，那么：

G = 1(1 - 1) = 0

也就是说，这个节点是完全纯的（只含一个类别），基尼指数为 0。

图中给出了简洁直观的解释：

G 的值越小，节点中的分布就越平均（即越纯）

G 的值越大，说明分布越分散（即越杂乱）

这是决策树在每一个节点要选择分裂的依据：选择使得 G 值最小的特征和分裂方式，从而得到更"纯"的子集。

图中总结如下重点：

什么时候用基尼指数？

当你使用的是 CART 决策树时，或者在意分类速度、效率优先时。
为什么选择基尼指数？

相比熵的计算（涉及对数），Gini 指数更易实现、速度更快，且在许多实际场景下效果相当。
下一步建议：
- 实现一个基于 Gini 指数的二分类决策树；
- 用 sklearn 决策树时，设置 criterion='gini' 来启用它。

如果你觉得这篇文章对你有帮助，欢迎点赞 + 收藏 + 关注！后续我会继续发布更多图解机器学习的内容！