[CART决策树]如何划分离散型特征

import_random2025-03-29 15:50

在CART（分类与回归树）算法中，当处理离散型属性或者类别型属性的时候，节点的分裂过程遵循以下步骤：

1. 生成所有可能的二分方式

对于具有k个类别的离散属性，需枚举所有可能的非空真子集划分，将属性值分为两个互斥的子集（左子集和右子集）。
由于对称性（左右子集互换不影响分裂效果），实际划分方式数为 2k−1−12k−1−1。
例如，当属性有3个类别（红、蓝、绿）时，可能的有效划分包括：
- {红} vs {蓝, 绿}
- {蓝} vs {红, 绿}
- {绿} vs {红, 蓝}
- {红, 蓝} vs {绿}
- {红, 绿} vs {蓝}
- {蓝, 绿} vs {红}
  但通过对称性简化后，只需考虑前三种或后三种，总数为 23−1−1=323−1−1=3 种。

2. 计算每种划分的基尼指数

对每个候选划分，计算分裂后左右子节点的基尼指数（Gini Index），并按样本占比加权求和。基尼指数公式为：

Gini(D)=1−∑i=1Cpi2Gini(D)=1−i=1∑Cpi2

其中 CC 是类别数，pipi 是第 ii 类的比例。分裂后的总基尼指数为：

Ginisplit=NleftNGini(Dleft)+NrightNGini(Dright)Ginisplit=NNleftGini(Dleft)+NNrightGini(Dright)

选择使 GinisplitGinisplit 最小的划分方式。

3. 选择最优划分

比较所有候选划分的基尼指数，选择下降最大（即总基尼指数最小,越小代表数据越纯）的划分作为分裂规则。例如，若将{红, 蓝}归为左子节点、{绿}归为右子节点时基尼指数最小，则分裂条件为"颜色是否为绿"。

4. 处理类别较多的情况

当离散属性类别数 kk 较大时，穷举所有划分计算量过大。此时可采用优化策略：
- 按目标变量排序：对类别按目标变量（如正类比例）排序，转化为类似连续变量的处理，仅需 k−1k−1 次划分。
- 启发式方法：限制候选划分数量或使用贪心策略减少计算量。

示例

假设颜色属性为红、蓝、绿，样本分布如下：

左子集候选划分 {红, 蓝}：包含红、蓝样本，基尼指数较低。
右子集候选划分 {绿}：包含绿样本，基尼指数较低。
若此划分的总基尼指数最小，则节点分裂为"颜色 ∈ {红, 蓝}"和"颜色 = 绿"。

结论

CART通过遍历离散属性的所有有效二分方式，选择基尼指数最小的划分，生成二叉树结构。

该方法确保局部最优性，同时通过优化策略应对高基数离散属性，平衡计算效率与分类性能。

上一篇：Apache Superset：现代化数据分析与可视化平台

下一篇：RecyclerView系列之二 ItemDecoration

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 05Linux下V2Ray安装配置指南 06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07“我的电脑”图标没了怎么办 4种方法找回 08全球最强模型Grok4，国内已可免费使用！（附教程）09KGG转MP3工具|非KGM文件|解密音频 1046个Nano-banana 精选提示词，持续更新中